Análise de RNAs longos não codificantes do genoma de Arabidopsis thaliana (L.) Heynh

dc.contributor.advisor1Novaes, Evandro
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/0568272239145336por
dc.contributor.referee1Novaes, Evandro
dc.contributor.referee2Vianello, Rosana Pereira
dc.contributor.referee3Coelho, Alexandre Siqueira Guedes
dc.creatorAraújo, Vanessa Cristina da Silva
dc.creator.LattesVanessa Cristina da Silva Araújopor
dc.date.accessioned2017-05-03T12:09:43Z
dc.date.issued2017-03-07
dc.description.abstractLarge-scale sequencing of transcripts via RNA-Seq has been changing paradigms by demonstrating that transcription is prevalent throughout the eukaryotic genome. In these organisms, the vast majority of transcripts are non-coding (ncRNA). One type of RNA that has aroused great interest, given its prevalence, is long non-coding RNAs (lncRNAs), which are ncRNA with more than 200 nucleotides. However, little is known about the role and prevalence of these lncRNAs in plant genomes, even in model species such as Arabidopsis thaliana (L.) Heynh. The objective of this work was to identify lncRNAs in the Arabidopsis genome and to characterize their size, structure and nucleotide diversity. The sequences were obtained from previous work that sequenced total RNA from A. thaliana, grown under different light regimes, using Illumina Hiseq 2000 platform. These sequences were mapped into the reference genome with TopHat and assembled with Cufflinks. The assembled transcripts were compared with the genome annotation with Cuffcompare, to identify non-annotated transcripts. A total of 4,305 long putative RNAs were obtained, with 314 (7%) sense in relation to coding transcripts (mRNAs), 392 (9%) intergenic, 2,216 intronic (52%) and 1,383 (32%) antisense mRNAs. The lncRNAs obtained were filtered to eliminate those with coding potential, as well as those related to rRNA, tRNA and miRNA synthesis. A total of 3,710 high-confidence lncRNAs (HC-lncRNA) were obtained, of which 58.6% were not previously annotated. These HC-lncRNA emcompass a low proportion (~ 1%) lncRNAs in the genome of Arabidopsis thaliana. A functional enrichment analysis of Gene Ontology (GO) categories demonstrated that among genes containing lncRNAs there is a high proportion of categories linked to the localization and transport of proteins within the cell, as well as to nucleic acid binding. A gene expression analyses identified only 22 differentially expressed lncRNAs under the different light conditions in which samples were exposed. Using the SNP data from the 1001 genomes project, identified high nucleotide diversity within lncRNAs regions, indicating low conservation of the primary structure of these transcripts. The nucleotide diversity in regions of long noncoding RNAs is lower than in coding regions, but less than a diversity observed in neutral regions such as pseudogenes.eng
dc.description.provenanceSubmitted by Erika Demachki (erikademachki@gmail.com) on 2017-04-27T19:34:22Z No. of bitstreams: 2 Dissertação - Vanessa Cristina da Silva Araújo - 2017.pdf: 2199979 bytes, checksum: f02e05314927339cf3c54225f8ad52db (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)eng
dc.description.provenanceApproved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2017-05-03T12:09:43Z (GMT) No. of bitstreams: 2 Dissertação - Vanessa Cristina da Silva Araújo - 2017.pdf: 2199979 bytes, checksum: f02e05314927339cf3c54225f8ad52db (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)eng
dc.description.provenanceMade available in DSpace on 2017-05-03T12:09:43Z (GMT). No. of bitstreams: 2 Dissertação - Vanessa Cristina da Silva Araújo - 2017.pdf: 2199979 bytes, checksum: f02e05314927339cf3c54225f8ad52db (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2017-03-07eng
dc.description.resumoO sequenciamento em larga escala de transcritos, via RNA-Seq, vêm mudando paradigmas ao demonstrar que a transcrição é prevalente por todo o genoma dos eucariotos. Nesses organismos, a grande maioria dos transcritos não codificam proteínas (ncRNA). Um tipo de RNA que vêm despertando grande interesse, dado sua prevalência, são os RNAs longos não codificantes (lncRNAs), que são ncRNA com mais de 200 nucleotídeos. No entanto, pouco se sabe sobre o seu papel e prevalência nos genomas de plantas, mesmo em espécies modelo como Arabidopsis thaliana (L.) Heynh. O objetivo desse trabalho foi identificar lncRNAs no genoma de Arabidopsis e caracterizar seus tamanhos, estruturas e diversidade genética. As sequências utilizadas foram obtidas de um trabalho que sequenciou RNA total de A. thaliana, sob diferentes regimes de luminosidade, utilizando a plataforma Illumina HiSeq 2000. Estas sequências foram mapeadas no genoma referência com o programa TopHat e montadas com o Cufflinks. Os transcritos montados foram comparados com a anotação do genoma com o Cuffcompare, afim de identificar transcritos ainda não anotados. Um total de 4.305 RNAs longos putativos foi obtido, sendo 314 (7%) senso em relação a transcritos codantes (mRNAs), 392 (9%) intergênicos, 2.216 intrônicos (52%) e 1.383 (32%) antisenso de mRNAs. Os lncRNAs obtidos foram filtrados para eliminar aqueles com potencial de codificação, bem como aqueles relacionados com a síntese rRNA, tRNA e miRNA. Após essa filtragem, foram obtidos 3.710 lncRNAs de alta cofiança (HC-lncRNA), sendo que desses 58,6% ainda não foram previamente anotados. Esses HC-lncRNA representam uma baixa proporção (~1%) do genoma de Arabidopsis thaliana. Uma análise de enriquecimento funcional de categorias do Gene Ontology (GO) demonstrou que os genes que contém lncRNAs apresentam enriquecimento para processos ligados à localização e transporte de proteínas dentro da célula, bem como para ligação a ácidos nucléicos. Uma análise de expressão gênica identificou apenas 22 lncRNAs diferencialmente expressos entre as diferentes condições de luminosidade em que as amostras foram expostas. Utilizando os SNPs do projeto 1001 genomes, identificou-se alta diversidade nucleotídica em regiões de lncRNAs, indicando baixa conservação da estrutura primária destes transcritos. A diversidade nucleotídica em regiões de RNAs longos não codificantes é menor do que em regiões codantes, mas menor do que a diversidade observada em regiões neutras como os pseudogenes.por
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESpor
dc.formatapplication/pdf*
dc.identifier.citationARAÚJO, V. C. S. Análise de RNAs longos não codificantes do genoma de Arabidopsis thaliana (L.) Heynh. 2017. 80 f. Dissertação (Mestrado em Genética e Biologia Molecular) - Universidade Federal de Goiás, Goiânia, 2017.por
dc.identifier.urihttp://repositorio.bc.ufg.br/tede/handle/tede/7249
dc.languageporpor
dc.publisherUniversidade Federal de Goiáspor
dc.publisher.countryBrasilpor
dc.publisher.departmentInstituto de Ciências Biológicas - ICB (RG)por
dc.publisher.initialsUFGpor
dc.publisher.programPrograma de Pós-graduação em Genética e Biologia Molecularpor
dc.rightsAcesso Abertopor
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectArabidopsispor
dc.subjectBionformáticapor
dc.subjectlncRNApor
dc.subjectRNA-Seqpor
dc.subjectBioinformaticseng
dc.subject.cnpqCIENCIAS BIOLOGICAS::GENETICApor
dc.titleAnálise de RNAs longos não codificantes do genoma de Arabidopsis thaliana (L.) Heynhpor
dc.typeDissertaçãopor

Arquivos

Pacote Original
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
Dissertação - Vanessa Cristina da Silva Araújo - 2017.pdf
Tamanho:
2.1 MB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
2.11 KB
Formato:
Item-specific license agreed upon to submission
Descrição: