Aprendizagem profunda para reconhecimento de entidades nomeadas em domínio jurídico

dc.contributor.advisor-co1Soares, Anderson da Silva
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/1096941114079527eng
dc.contributor.advisor1Silva, Nádia Félix Felipe da
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/7864834001694765eng
dc.contributor.referee1Silva, Nadia Felix Felipe da
dc.contributor.referee2Rosa, Thierson Couto
dc.contributor.referee3Soares, Anderson da Silva
dc.contributor.referee4Caseli, Helena de Medeiros
dc.creatorCastro, Pedro Vitor Quinta de
dc.creator.Latteshttp://lattes.cnpq.br/1573165588536766eng
dc.date.accessioned2020-01-07T11:57:54Z
dc.date.issued2019-12-05
dc.description.abstractNamed Entity Recognition (NER) is a challenging Natural Language Processing task for a language as rich as Portuguese. When applied to a specific domain, the task acquires a new layer of complexity, handling a lexicon particular to the domain in question. In this work, it is studied the Legal domain, targeting specifically the Brazilian Labor Law. Architectures based on Deep Learning, with word representations based on static word embeddings and language models have shown state-of-the-art performance for the NER task. In this work it is used a model based on Deep Neural Networks, evaluating different forms of word representations. The evaluated models are applied to Portuguese language, for both Legal and general domains. To this end, language models based on the ELMo architecture were trained for both domains, as well as static word embeddings, specific for the Legal domain. In this work, it is verified the best type of pre-trained word embeddings for each domain, after performing a comparative study between the types of word embeddings applied to the NER task. For the training of the Legal domain NER models, ELMo and static word embeddings, two different corpora were produced and annotated, based on a collection of public documents from the Brazilian Labor Court. For the Portuguese general domain NER model, a new state-of-the-art result was achieved for the HAREM benchmark, with 83.22% F-Score for the selective scenario, and 78.04% for the total scenario. For the Brazilian Labor Law domain, a model with 93.81% F-Score was obtained.eng
dc.description.provenanceSubmitted by Luciana Ferreira (lucgeral@gmail.com) on 2020-01-06T14:08:58Z No. of bitstreams: 2 Dissertação - Pedro Vitor Quinta de Castro - 2019.pdf: 1941412 bytes, checksum: c5467726f2cd684553e007670b8443ec (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)eng
dc.description.provenanceApproved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2020-01-07T11:57:54Z (GMT) No. of bitstreams: 2 Dissertação - Pedro Vitor Quinta de Castro - 2019.pdf: 1941412 bytes, checksum: c5467726f2cd684553e007670b8443ec (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)eng
dc.description.provenanceMade available in DSpace on 2020-01-07T11:57:54Z (GMT). No. of bitstreams: 2 Dissertação - Pedro Vitor Quinta de Castro - 2019.pdf: 1941412 bytes, checksum: c5467726f2cd684553e007670b8443ec (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2019-12-05eng
dc.description.resumoReconhecimento de Entidades Nomeadas (REN) é uma tarefa desafiadora em Processamento de Linguagem Natural, para uma língua tão rica quanto o Português. Quando aplicada em um domínio específico, a tarefa adquire uma nova camada de complexidade, por tratar de um léxico muito particular ao domínio trabalhado. O domínio estudado neste trabalho é o do Direito, voltado especificamente para a Justiça do Trabalho do Brasil. Arquiteturas baseadas em Aprendizado Profundo, com representações de palavras baseadas em vetores estáticos de palavras e modelos de linguagem, têm demonstrado um desempenho em nível de estado da arte para a tarefa de REN. Neste trabalho é utilizado um modelo baseado em Redes Neurais Profundas, avaliando diferentes formas de representação de palavras. São avaliados modelos tanto para o domínio do Direito quanto para a língua portuguesa em um contexto geral. Para tanto, foram treinados modelos de linguagem baseados na arquitetura ELMo para os dois domínios, assim como vetores estáticos de palavras específicos para o domínio do Direito. Neste trabalho também verificou-se os melhores tipos de vetores para cada domínio, a partir de uma série de análises comparativas entre os vetores aplicados na tarefa de REN. Para os treinos dos modelos de REN, ELMo e vetores estáticos do domínio jurídico foram produzidos e anotados em corpora específicos deste domínio, a partir da coleta de documentos públicos da Justiça do Trabalho do Brasil. Para o modelo de REN do domínio geral da língua portuguesa, atingiu-se um novo estado da arte no benchmark do HAREM, com 83.22% de F-Score para o cenário seletivo, e 78.04% para o cenário total. Para o domínio trabalhista brasileiro, foi obtido um modelo com 93.81% de F-Score.eng
dc.formatapplication/pdf*
dc.identifier.citationCASTRO, P. V. Q. Aprendizagem profunda para reconhecimento de entidades nomeadas em domínio jurídico. 2019. 125 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2019.eng
dc.identifier.urihttp://repositorio.bc.ufg.br/tede/handle/tede/10276
dc.languageporeng
dc.publisherUniversidade Federal de Goiáseng
dc.publisher.countryBrasileng
dc.publisher.departmentInstituto de Informática - INF (RG)eng
dc.publisher.initialsUFGeng
dc.publisher.programPrograma de Pós-graduação em Ciência da Computação (INF)eng
dc.rightsAcesso Aberto
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectReconhecimento de entidades nomeadaspor
dc.subjectProcessamento de linguagem naturalpor
dc.subjectDeep learningpor
dc.subjectRedes neuraispor
dc.subjectLíngua portuguesapor
dc.subjectDireito do trabalhopor
dc.subjectNamed entity recognitioneng
dc.subjectNatural language processingeng
dc.subjectDeep learningeng
dc.subjectNeural networkseng
dc.subjectPortuguese languageeng
dc.subjectLabor laweng
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOeng
dc.titleAprendizagem profunda para reconhecimento de entidades nomeadas em domínio jurídicoeng
dc.title.alternativeDeep learning for named entity recognition in legal domaineng
dc.typeDissertaçãoeng

Arquivos

Pacote Original
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
Dissertação - Pedro Vitor Quinta de Castro - 2019.pdf
Tamanho:
1.85 MB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
2.11 KB
Formato:
Item-specific license agreed upon to submission
Descrição: