Análise de RNAs longos não codificantes do genoma de Arabidopsis thaliana (L.) Heynh
dc.contributor.advisor1 | Novaes, Evandro | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/0568272239145336 | por |
dc.contributor.referee1 | Novaes, Evandro | |
dc.contributor.referee2 | Vianello, Rosana Pereira | |
dc.contributor.referee3 | Coelho, Alexandre Siqueira Guedes | |
dc.creator | Araújo, Vanessa Cristina da Silva | |
dc.creator.Lattes | Vanessa Cristina da Silva Araújo | por |
dc.date.accessioned | 2017-05-03T12:09:43Z | |
dc.date.issued | 2017-03-07 | |
dc.description.abstract | Large-scale sequencing of transcripts via RNA-Seq has been changing paradigms by demonstrating that transcription is prevalent throughout the eukaryotic genome. In these organisms, the vast majority of transcripts are non-coding (ncRNA). One type of RNA that has aroused great interest, given its prevalence, is long non-coding RNAs (lncRNAs), which are ncRNA with more than 200 nucleotides. However, little is known about the role and prevalence of these lncRNAs in plant genomes, even in model species such as Arabidopsis thaliana (L.) Heynh. The objective of this work was to identify lncRNAs in the Arabidopsis genome and to characterize their size, structure and nucleotide diversity. The sequences were obtained from previous work that sequenced total RNA from A. thaliana, grown under different light regimes, using Illumina Hiseq 2000 platform. These sequences were mapped into the reference genome with TopHat and assembled with Cufflinks. The assembled transcripts were compared with the genome annotation with Cuffcompare, to identify non-annotated transcripts. A total of 4,305 long putative RNAs were obtained, with 314 (7%) sense in relation to coding transcripts (mRNAs), 392 (9%) intergenic, 2,216 intronic (52%) and 1,383 (32%) antisense mRNAs. The lncRNAs obtained were filtered to eliminate those with coding potential, as well as those related to rRNA, tRNA and miRNA synthesis. A total of 3,710 high-confidence lncRNAs (HC-lncRNA) were obtained, of which 58.6% were not previously annotated. These HC-lncRNA emcompass a low proportion (~ 1%) lncRNAs in the genome of Arabidopsis thaliana. A functional enrichment analysis of Gene Ontology (GO) categories demonstrated that among genes containing lncRNAs there is a high proportion of categories linked to the localization and transport of proteins within the cell, as well as to nucleic acid binding. A gene expression analyses identified only 22 differentially expressed lncRNAs under the different light conditions in which samples were exposed. Using the SNP data from the 1001 genomes project, identified high nucleotide diversity within lncRNAs regions, indicating low conservation of the primary structure of these transcripts. The nucleotide diversity in regions of long noncoding RNAs is lower than in coding regions, but less than a diversity observed in neutral regions such as pseudogenes. | eng |
dc.description.provenance | Submitted by Erika Demachki (erikademachki@gmail.com) on 2017-04-27T19:34:22Z No. of bitstreams: 2 Dissertação - Vanessa Cristina da Silva Araújo - 2017.pdf: 2199979 bytes, checksum: f02e05314927339cf3c54225f8ad52db (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) | eng |
dc.description.provenance | Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2017-05-03T12:09:43Z (GMT) No. of bitstreams: 2 Dissertação - Vanessa Cristina da Silva Araújo - 2017.pdf: 2199979 bytes, checksum: f02e05314927339cf3c54225f8ad52db (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) | eng |
dc.description.provenance | Made available in DSpace on 2017-05-03T12:09:43Z (GMT). No. of bitstreams: 2 Dissertação - Vanessa Cristina da Silva Araújo - 2017.pdf: 2199979 bytes, checksum: f02e05314927339cf3c54225f8ad52db (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2017-03-07 | eng |
dc.description.resumo | O sequenciamento em larga escala de transcritos, via RNA-Seq, vêm mudando paradigmas ao demonstrar que a transcrição é prevalente por todo o genoma dos eucariotos. Nesses organismos, a grande maioria dos transcritos não codificam proteínas (ncRNA). Um tipo de RNA que vêm despertando grande interesse, dado sua prevalência, são os RNAs longos não codificantes (lncRNAs), que são ncRNA com mais de 200 nucleotídeos. No entanto, pouco se sabe sobre o seu papel e prevalência nos genomas de plantas, mesmo em espécies modelo como Arabidopsis thaliana (L.) Heynh. O objetivo desse trabalho foi identificar lncRNAs no genoma de Arabidopsis e caracterizar seus tamanhos, estruturas e diversidade genética. As sequências utilizadas foram obtidas de um trabalho que sequenciou RNA total de A. thaliana, sob diferentes regimes de luminosidade, utilizando a plataforma Illumina HiSeq 2000. Estas sequências foram mapeadas no genoma referência com o programa TopHat e montadas com o Cufflinks. Os transcritos montados foram comparados com a anotação do genoma com o Cuffcompare, afim de identificar transcritos ainda não anotados. Um total de 4.305 RNAs longos putativos foi obtido, sendo 314 (7%) senso em relação a transcritos codantes (mRNAs), 392 (9%) intergênicos, 2.216 intrônicos (52%) e 1.383 (32%) antisenso de mRNAs. Os lncRNAs obtidos foram filtrados para eliminar aqueles com potencial de codificação, bem como aqueles relacionados com a síntese rRNA, tRNA e miRNA. Após essa filtragem, foram obtidos 3.710 lncRNAs de alta cofiança (HC-lncRNA), sendo que desses 58,6% ainda não foram previamente anotados. Esses HC-lncRNA representam uma baixa proporção (~1%) do genoma de Arabidopsis thaliana. Uma análise de enriquecimento funcional de categorias do Gene Ontology (GO) demonstrou que os genes que contém lncRNAs apresentam enriquecimento para processos ligados à localização e transporte de proteínas dentro da célula, bem como para ligação a ácidos nucléicos. Uma análise de expressão gênica identificou apenas 22 lncRNAs diferencialmente expressos entre as diferentes condições de luminosidade em que as amostras foram expostas. Utilizando os SNPs do projeto 1001 genomes, identificou-se alta diversidade nucleotídica em regiões de lncRNAs, indicando baixa conservação da estrutura primária destes transcritos. A diversidade nucleotídica em regiões de RNAs longos não codificantes é menor do que em regiões codantes, mas menor do que a diversidade observada em regiões neutras como os pseudogenes. | por |
dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES | por |
dc.format | application/pdf | * |
dc.identifier.citation | ARAÚJO, V. C. S. Análise de RNAs longos não codificantes do genoma de Arabidopsis thaliana (L.) Heynh. 2017. 80 f. Dissertação (Mestrado em Genética e Biologia Molecular) - Universidade Federal de Goiás, Goiânia, 2017. | por |
dc.identifier.uri | http://repositorio.bc.ufg.br/tede/handle/tede/7249 | |
dc.language | por | por |
dc.publisher | Universidade Federal de Goiás | por |
dc.publisher.country | Brasil | por |
dc.publisher.department | Instituto de Ciências Biológicas - ICB (RG) | por |
dc.publisher.initials | UFG | por |
dc.publisher.program | Programa de Pós-graduação em Genética e Biologia Molecular | por |
dc.rights | Acesso Aberto | por |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
dc.subject | Arabidopsis | por |
dc.subject | Bionformática | por |
dc.subject | lncRNA | por |
dc.subject | RNA-Seq | por |
dc.subject | Bioinformatics | eng |
dc.subject.cnpq | CIENCIAS BIOLOGICAS::GENETICA | por |
dc.title | Análise de RNAs longos não codificantes do genoma de Arabidopsis thaliana (L.) Heynh | por |
dc.type | Dissertação | por |
Arquivos
Pacote Original
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- Dissertação - Vanessa Cristina da Silva Araújo - 2017.pdf
- Tamanho:
- 2.1 MB
- Formato:
- Adobe Portable Document Format
- Descrição:
Licença do Pacote
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- license.txt
- Tamanho:
- 2.11 KB
- Formato:
- Item-specific license agreed upon to submission
- Descrição: