This is a Demo Server. Data inside this system is only for test purpose.
 

Cost and benefit analysis of features used in machine learning based pre-miRNA detection

No Thumbnail Available

Date

2016-08

Journal Title

Journal ISSN

Volume Title

Publisher

Izmir Institute of Technology

Open Access Color

Green Open Access

No

OpenAIRE Downloads

OpenAIRE Views

Publicly Funded

No

Research Projects

Organizational Units

Journal Issue

Abstract

MicroRNAs (miRNAs) are short RNA molecules which play important roles in the post-trancriptional regulation of gene expression. Their transcription is followed by two RNA III endonuclease processing steps leading to mature miRNA formation. They are then incorporated into the RISC-complex which mediates mRNA targeting. Experimental miRNA prediction is difficult since detection relies on many factors therefore, computational methods have become indispensable. Therefore, machine learning methods rely on features describing precursor-miRNAs (pre-miRNAs) to be able to differentiate them from other hairpins in a genome. It is important to define feature groups which are informative, not highly correlated, and don’t incur a large computational cost in order to facilitate accurate miRNA detection. In this study for more than 800 pre-miRNA features the computational cost and benefit was analyzed. From these analyses five features (assl, lsr(%bp), lscm, asal and hpmfe rf I3), (four structural and one structuralthermodynamic one), which aren’t correlated, informative and are not computationally expensive are noticeable. Analyses are done with human hairpins, pseudo data; and a case study using the measles virus and the measles KEGG pathway genes. Overall calculation of human hairpins and measles virus took approximately 2 USD (United States Dollar) on Amazon web services. Supervised learning and random forest machine learning for miRNA prediction was applied and to two genes (TAB2 and BCC3) within the measles KEGG pathway and three hairpins were predicted. They were found to have human mature miRNA sequences embedded in them and their already annotated targets helped enlarge the KEGG measles pathway.
Gen ifadesinin post-transkripsiyonel regülasyonunda önemli bir rolü olan kısa RNA moleküller mikroRNAlardır (miRNA). Transkripsionlarını iki RNA III endonükleaz işlemi takip eder ve olgun miRNA oluşumuyla RISC-kompleksi mRNA hedeflemesini başlatır. Deneysel miRNA tahmini zordur çünkü miRNA ifadesni belirleme işlemi birçok faktöre dayanır bu yüzden bilişimsel metotlar daha umut vericidir. Genomdaki diğer saç tokası yapılarından (hairpin) ayırt edebilmek ve miRNA tespiti için, miRNAların karakteristik özellikleri tanımlanmalıdır. Bu sebeple, Veri Madenciliği metodları öncül miRNA (pre-miRNA) özelliklerini temel alır. Bu çalışmada 800den fazla pre-miRNA özelliğinin maliyet ve yarar analizi yapılmıştır. Bilgi kazanımı skoru özelliğin ne kadar ayırt edici olduğunu, Linear Korelasyon katsayısı özelliklerin birbirleriyle nasıl bağlı olduğunu ve zaman ölçümü de bir özelliğin ne kadar bilşimsel maliyetinin olduğunu gösterir. Sonuçardan yavaş olmayan ve bilgi verici beş özellik (assl, lsr(%bp), lscm, asal and hpmfe rfI3) (dört yapısal ve bir yapısal-enerjik) seçildi ve birbiriyle korelasyonları olmadığı görüldü. Analizler insan hairpin, sözde (pseudo) veri ve kızamık (measles) virüsü, Measles insan KEGG Patikası genleri ile yapılmıştır. İnsan hairpin ve measles virüsünün genel hesaplanması Amazon serverında yaklaşık olarak 2 USD (Amerikan Doları) tutmuştur. Gözetimli öğrenme ve Rastgele Orman karar ağacı Veri Madenciliği kullanılarak iki measles KEGG patikası geninden (TAB2 and BCC3) üç miRNA tahmin edilmiştir. Bunlarda olgun miRNA dizlileri gömülü bulunmuştur.

Description

Thesis (Master)--Izmir Institute of Technology, Molecular Biology and Genetics, Izmir, 2016
Full text release delayed at author's request until 2019.08.31
Includes bibliographical references (leaves: 41-46)
Text in English; Abstract: Turkish an English
xi, 78 leaves

Keywords

MicroRNAs, RNA molecules, miRNA detection, Machine learning, Cost analysis, Benefit analysis, Biyoistatistik, Biostatistics, Biology, Biyoloji, Computer Engineering and Computer Science and Control, Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol

Turkish CoHE Thesis Center URL

Fields of Science

Citation

WoS Q

Scopus Q

Source

Volume

Issue

Start Page

End Page

Collections

Sustainable Development Goals

SDG data could not be loaded because of an error. Please refresh the page or try again later.