Aprendizagem profunda para reconhecimento de entidades nomeadas em domínio jurídico

Castro, Pedro Vitor Quinta de

Aprendizagem profunda para reconhecimento de entidades nomeadas em domínio jurídico

dc.contributor.advisor-co1	Soares, Anderson da Silva
dc.contributor.advisor-co1Lattes	http://lattes.cnpq.br/1096941114079527	eng
dc.contributor.advisor1	Silva, Nádia Félix Felipe da
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/7864834001694765	eng
dc.contributor.referee1	Silva, Nadia Felix Felipe da
dc.contributor.referee2	Rosa, Thierson Couto
dc.contributor.referee3	Soares, Anderson da Silva
dc.contributor.referee4	Caseli, Helena de Medeiros
dc.creator	Castro, Pedro Vitor Quinta de
dc.creator.Lattes	http://lattes.cnpq.br/1573165588536766	eng
dc.date.accessioned	2020-01-07T11:57:54Z
dc.date.issued	2019-12-05
dc.description.abstract	Named Entity Recognition (NER) is a challenging Natural Language Processing task for a language as rich as Portuguese. When applied to a specific domain, the task acquires a new layer of complexity, handling a lexicon particular to the domain in question. In this work, it is studied the Legal domain, targeting specifically the Brazilian Labor Law. Architectures based on Deep Learning, with word representations based on static word embeddings and language models have shown state-of-the-art performance for the NER task. In this work it is used a model based on Deep Neural Networks, evaluating different forms of word representations. The evaluated models are applied to Portuguese language, for both Legal and general domains. To this end, language models based on the ELMo architecture were trained for both domains, as well as static word embeddings, specific for the Legal domain. In this work, it is verified the best type of pre-trained word embeddings for each domain, after performing a comparative study between the types of word embeddings applied to the NER task. For the training of the Legal domain NER models, ELMo and static word embeddings, two different corpora were produced and annotated, based on a collection of public documents from the Brazilian Labor Court. For the Portuguese general domain NER model, a new state-of-the-art result was achieved for the HAREM benchmark, with 83.22% F-Score for the selective scenario, and 78.04% for the total scenario. For the Brazilian Labor Law domain, a model with 93.81% F-Score was obtained.	eng
dc.description.provenance	Submitted by Luciana Ferreira (lucgeral@gmail.com) on 2020-01-06T14:08:58Z No. of bitstreams: 2 Dissertação - Pedro Vitor Quinta de Castro - 2019.pdf: 1941412 bytes, checksum: c5467726f2cd684553e007670b8443ec (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)	eng
dc.description.provenance	Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2020-01-07T11:57:54Z (GMT) No. of bitstreams: 2 Dissertação - Pedro Vitor Quinta de Castro - 2019.pdf: 1941412 bytes, checksum: c5467726f2cd684553e007670b8443ec (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)	eng
dc.description.provenance	Made available in DSpace on 2020-01-07T11:57:54Z (GMT). No. of bitstreams: 2 Dissertação - Pedro Vitor Quinta de Castro - 2019.pdf: 1941412 bytes, checksum: c5467726f2cd684553e007670b8443ec (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2019-12-05	eng
dc.description.resumo	Reconhecimento de Entidades Nomeadas (REN) é uma tarefa desafiadora em Processamento de Linguagem Natural, para uma língua tão rica quanto o Português. Quando aplicada em um domínio específico, a tarefa adquire uma nova camada de complexidade, por tratar de um léxico muito particular ao domínio trabalhado. O domínio estudado neste trabalho é o do Direito, voltado especificamente para a Justiça do Trabalho do Brasil. Arquiteturas baseadas em Aprendizado Profundo, com representações de palavras baseadas em vetores estáticos de palavras e modelos de linguagem, têm demonstrado um desempenho em nível de estado da arte para a tarefa de REN. Neste trabalho é utilizado um modelo baseado em Redes Neurais Profundas, avaliando diferentes formas de representação de palavras. São avaliados modelos tanto para o domínio do Direito quanto para a língua portuguesa em um contexto geral. Para tanto, foram treinados modelos de linguagem baseados na arquitetura ELMo para os dois domínios, assim como vetores estáticos de palavras específicos para o domínio do Direito. Neste trabalho também verificou-se os melhores tipos de vetores para cada domínio, a partir de uma série de análises comparativas entre os vetores aplicados na tarefa de REN. Para os treinos dos modelos de REN, ELMo e vetores estáticos do domínio jurídico foram produzidos e anotados em corpora específicos deste domínio, a partir da coleta de documentos públicos da Justiça do Trabalho do Brasil. Para o modelo de REN do domínio geral da língua portuguesa, atingiu-se um novo estado da arte no benchmark do HAREM, com 83.22% de F-Score para o cenário seletivo, e 78.04% para o cenário total. Para o domínio trabalhista brasileiro, foi obtido um modelo com 93.81% de F-Score.	eng
dc.format	application/pdf	*
dc.identifier.citation	CASTRO, P. V. Q. Aprendizagem profunda para reconhecimento de entidades nomeadas em domínio jurídico. 2019. 125 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2019.	eng
dc.identifier.uri	http://repositorio.bc.ufg.br/tede/handle/tede/10276
dc.language	por	eng
dc.publisher	Universidade Federal de Goiás	eng
dc.publisher.country	Brasil	eng
dc.publisher.department	Instituto de Informática - INF (RG)	eng
dc.publisher.initials	UFG	eng
dc.publisher.program	Programa de Pós-graduação em Ciência da Computação (INF)	eng
dc.rights	Acesso Aberto
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject	Reconhecimento de entidades nomeadas	por
dc.subject	Processamento de linguagem natural	por
dc.subject	Deep learning	por
dc.subject	Redes neurais	por
dc.subject	Língua portuguesa	por
dc.subject	Direito do trabalho	por
dc.subject	Named entity recognition	eng
dc.subject	Natural language processing	eng
dc.subject	Deep learning	eng
dc.subject	Neural networks	eng
dc.subject	Portuguese language	eng
dc.subject	Labor law	eng
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	eng
dc.title	Aprendizagem profunda para reconhecimento de entidades nomeadas em domínio jurídico	eng
dc.title.alternative	Deep learning for named entity recognition in legal domain	eng
dc.type	Dissertação	eng

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: Dissertação - Pedro Vitor Quinta de Castro - 2019.pdf
Tamanho:: 1.85 MB
Formato:: Adobe Portable Document Format
Descrição:

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 2.11 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Baixar

Coleções

Mestrado em Ciência da Computação (INF)