Reconhecimento de entidades nomeadas em textos informais no domínio legislativo
| dc.contributor.advisor-co1 | Souza, Ellen Polliana Ramos | |
| dc.contributor.advisor-co1Lattes | http://lattes.cnpq.br/6593918610781356 | pt_BR |
| dc.contributor.advisor1 | Silva, Nádia Félix Felipe da | |
| dc.contributor.advisor1Lattes | http://lattes.cnpq.br/7864834001694765 | pt_BR |
| dc.contributor.referee1 | Silva, Nádia Félix Felipe da | |
| dc.contributor.referee2 | Souza, Ellen Polliana Ramos | |
| dc.contributor.referee3 | Silva, Sérgio Francisco da | |
| dc.contributor.referee4 | Fernandes, Deborah Silva Alves | |
| dc.creator | Costa, Rosimeire Pereira da | |
| dc.creator.Lattes | http://lattes.cnpq.br/4927891439909721 | pt_BR |
| dc.date.accessioned | 2023-05-29T10:57:29Z | |
| dc.date.available | 2023-05-29T10:57:29Z | |
| dc.date.issued | 2023-04-19 | |
| dc.description.abstract | Named Entity Recognition (NER) is a challenging task in Natural Language Processing (NLP) for a language as rich as Portuguese. When applied in a scenario appropriate to informal language and short texts, the task acquires a new layer of complexity, manipulating a lexicon specific to the domain in question. In this work, we expand the UlyssesNER-Br corpus for the NER task with Brazilian Portuguese comments on bill projects. Additionally, we enriched the annotated set with a formal corpus in order to analyze whether the combination of formal and informal texts from the same domain could improve the performance of NER models. Finally, we conducted experiments with a Conditional Random Fields (CRF) model, a Bidirectional LSTM-CRF model (BiLSTM-CRF), and subsequently fine-tuned a BERT and RoBERTa language model on the NER task with our dataset. We conclude that formal texts aided in identifying entities in informal texts. The best model was the fine-tuning of BERT which achieved an F1- score of 74.63%, surpassing the benchmark of related works. | eng |
| dc.description.resumo | O Reconhecimento de Entidades Nomeadas (REN) é uma tarefa desafiadora de Processamento de Linguagem Natural (PLN) para um idioma tão rico quanto o Português. Quando aplicada em um cenário adequado à linguagem informal e aos textos curtos, a tarefa adquire uma nova camada de complexidade, manipulando um léxico particular ao domínio em questão. Nesse artigo, expandimos o corpus UlyssesNER-Br para a tarefa REN com comentários em português do Brasil sobre projetos de leis. Adicionalmente, enriquecemos o conjunto anotado com um corpus formal, a fim de analisar se a combinação de textos formais e informais de um mesmo domínio poderia melhorar o desempenho de modelos de REN. Por fim, realizamos experimentos com um modelo de Conditional Random Fields (CRF), um modelo Bidirecional LSTM-CRF (BiLSTM-CRF) e, posteriormente, realizamos o ajuste fino de um modelo de linguagem BERT e RoBERTa na tarefa REN com nosso conjunto de dados. Concluímos que textos formais auxiliaram na identificação de entidades em textos informais. O melhor modelo foi o ajuste fino do BERT que alcançou um F1-score de 74,63%, superando o benchmark de trabalhos relacionados. | pt_BR |
| dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES | pt_BR |
| dc.identifier.citation | COSTA, R. P. Reconhecimento de entidades nomeadas em textos informais no domínio legislativo. 2023. 70 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2023. | pt_BR |
| dc.identifier.uri | http://repositorio.bc.ufg.br/tede/handle/tede/12862 | |
| dc.language | por | pt_BR |
| dc.publisher | Universidade Federal de Goiás | pt_BR |
| dc.publisher.country | Brasil | pt_BR |
| dc.publisher.department | Instituto de Informática - INF (RMG) | pt_BR |
| dc.publisher.initials | UFG | pt_BR |
| dc.publisher.program | Programa de Pós-graduação em Ciência da Computação (INF) | pt_BR |
| dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 International | * |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
| dc.subject | Reconhecimento de entidades nomeadas | por |
| dc.subject | Processamento de linguagem natural | por |
| dc.subject | Textos informais | por |
| dc.subject | BERT | por |
| dc.subject | Português | por |
| dc.subject | Legislativos | por |
| dc.subject | Named entity recognition | eng |
| dc.subject | Natural language processing | eng |
| dc.subject | Informal texts | eng |
| dc.subject | Portuguese | eng |
| dc.subject | Legislative | eng |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO | pt_BR |
| dc.title | Reconhecimento de entidades nomeadas em textos informais no domínio legislativo | pt_BR |
| dc.title.alternative | Recognition of named entities in informal texts in the legislative domain | eng |
| dc.type | Dissertação | pt_BR |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- Dissertação - Rosimeire Pereira da Costa - 2023.pdf
- Tamanho:
- 2.72 MB
- Formato:
- Adobe Portable Document Format
- Descrição:
Licença do Pacote
1 - 1 de 1
Carregando...
- Nome:
- license.txt
- Tamanho:
- 1.71 KB
- Formato:
- Item-specific license agreed upon to submission
- Descrição: