Reconhecimento de entidades nomeadas em textos informais no domínio legislativo

dc.contributor.advisor-co1Souza, Ellen Polliana Ramos
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/6593918610781356pt_BR
dc.contributor.advisor1Silva, Nádia Félix Felipe da
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/7864834001694765pt_BR
dc.contributor.referee1Silva, Nádia Félix Felipe da
dc.contributor.referee2Souza, Ellen Polliana Ramos
dc.contributor.referee3Silva, Sérgio Francisco da
dc.contributor.referee4Fernandes, Deborah Silva Alves
dc.creatorCosta, Rosimeire Pereira da
dc.creator.Latteshttp://lattes.cnpq.br/4927891439909721pt_BR
dc.date.accessioned2023-05-29T10:57:29Z
dc.date.available2023-05-29T10:57:29Z
dc.date.issued2023-04-19
dc.description.abstractNamed Entity Recognition (NER) is a challenging task in Natural Language Processing (NLP) for a language as rich as Portuguese. When applied in a scenario appropriate to informal language and short texts, the task acquires a new layer of complexity, manipulating a lexicon specific to the domain in question. In this work, we expand the UlyssesNER-Br corpus for the NER task with Brazilian Portuguese comments on bill projects. Additionally, we enriched the annotated set with a formal corpus in order to analyze whether the combination of formal and informal texts from the same domain could improve the performance of NER models. Finally, we conducted experiments with a Conditional Random Fields (CRF) model, a Bidirectional LSTM-CRF model (BiLSTM-CRF), and subsequently fine-tuned a BERT and RoBERTa language model on the NER task with our dataset. We conclude that formal texts aided in identifying entities in informal texts. The best model was the fine-tuning of BERT which achieved an F1- score of 74.63%, surpassing the benchmark of related works.eng
dc.description.resumoO Reconhecimento de Entidades Nomeadas (REN) é uma tarefa desafiadora de Processamento de Linguagem Natural (PLN) para um idioma tão rico quanto o Português. Quando aplicada em um cenário adequado à linguagem informal e aos textos curtos, a tarefa adquire uma nova camada de complexidade, manipulando um léxico particular ao domínio em questão. Nesse artigo, expandimos o corpus UlyssesNER-Br para a tarefa REN com comentários em português do Brasil sobre projetos de leis. Adicionalmente, enriquecemos o conjunto anotado com um corpus formal, a fim de analisar se a combinação de textos formais e informais de um mesmo domínio poderia melhorar o desempenho de modelos de REN. Por fim, realizamos experimentos com um modelo de Conditional Random Fields (CRF), um modelo Bidirecional LSTM-CRF (BiLSTM-CRF) e, posteriormente, realizamos o ajuste fino de um modelo de linguagem BERT e RoBERTa na tarefa REN com nosso conjunto de dados. Concluímos que textos formais auxiliaram na identificação de entidades em textos informais. O melhor modelo foi o ajuste fino do BERT que alcançou um F1-score de 74,63%, superando o benchmark de trabalhos relacionados.pt_BR
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESpt_BR
dc.identifier.citationCOSTA, R. P. Reconhecimento de entidades nomeadas em textos informais no domínio legislativo. 2023. 70 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2023.pt_BR
dc.identifier.urihttp://repositorio.bc.ufg.br/tede/handle/tede/12862
dc.languageporpt_BR
dc.publisherUniversidade Federal de Goiáspt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentInstituto de Informática - INF (RMG)pt_BR
dc.publisher.initialsUFGpt_BR
dc.publisher.programPrograma de Pós-graduação em Ciência da Computação (INF)pt_BR
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 International*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectReconhecimento de entidades nomeadaspor
dc.subjectProcessamento de linguagem naturalpor
dc.subjectTextos informaispor
dc.subjectBERTpor
dc.subjectPortuguêspor
dc.subjectLegislativospor
dc.subjectNamed entity recognitioneng
dc.subjectNatural language processingeng
dc.subjectInformal textseng
dc.subjectPortugueseeng
dc.subjectLegislativeeng
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOpt_BR
dc.titleReconhecimento de entidades nomeadas em textos informais no domínio legislativopt_BR
dc.title.alternativeRecognition of named entities in informal texts in the legislative domaineng
dc.typeDissertaçãopt_BR

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Dissertação - Rosimeire Pereira da Costa - 2023.pdf
Tamanho:
2.72 MB
Formato:
Adobe Portable Document Format
Descrição:

Licença do Pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: