Decomposição de tarefas para problemas de linguagem natural: segmentação de hashtags e anotação de texto argumentativo

dc.contributor.advisor-co1Silva, Nádia Félix Felipe da
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/7864834001694765
dc.contributor.advisor1Nascimento, Hugo Alexandre Dantas do
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/2920005922426876
dc.contributor.referee1Nascimento, Hugo Alexandre Dantas do
dc.contributor.referee1Latteshttp://lattes.cnpq.br/2920005922426876
dc.contributor.referee2Martins, Wellington Santos
dc.contributor.referee2Latteshttp://lattes.cnpq.br/3041686206689904
dc.contributor.referee3Dias, Márcio de Souza
dc.contributor.referee3Latteshttp://lattes.cnpq.br/0095510023252013
dc.contributor.referee4Alencar, Wanderley de Souza
dc.contributor.referee4Latteshttp://lattes.cnpq.br/5491185436975801
dc.contributor.referee5Rosa, Thierson Couto
dc.contributor.referee5Latteshttp://lattes.cnpq.br/4414718560764818
dc.creatorInuzuka, Marcelo Akira
dc.creator.Latteshttp://lattes.cnpq.br/0701953063536783
dc.date.accessioned2025-07-01T18:37:27Z
dc.date.available2025-07-01T18:37:27Z
dc.date.issued2025-04-24
dc.description.abstractCorpus annotation is essential for training Natural Language Processing (NLP) models, yet it faces challenges such as high cognitive complexity, annotator inconsistency, and elevated costs. This thesis proposes task decomposition as a methodological strategy to modularize complex NLP processes, promoting greater conceptual clarity, scalability, and reproducibility. Initially focused on Argument Mapping, the research redirected its scope due to the infeasibility of the original task, concentrating on the identification of reusable patterns applicable to annotation and automation stages. Guidelines, a hierarchical decomposition algorithm, and artifacts such as annotated datasets and the Argmap platform — which supports collaborative annotation with quality control — were developed. The approach was validated through three empirical case studies: hashtag segmentation, keyphrase curation, and annotation of argumentative structures. Results demonstrate that decomposition improves consistency among agents (human or automatic), guideline clarity, and automation feasibility. The thesis also introduces the Recruiter–Selector architectural pattern, which structures tasks into two independent modules — candidate generation and final selection — applicable to both annotation workflows and algorithms based on Large Language Models (LLMs). It concludes that decomposition driven by reusable patterns enhances efficiency and reliability in corpus construction and the development of robust NLP systems, contributing to the systematization of annotation processes and their integration with automatic solutionseng
dc.description.resumoA anotação de corpora é essencial para o treinamento de modelos de Processamento de Linguagem Natural (PLN), mas enfrenta desafios como alta complexidade cognitiva, inconsistência entre anotadores e custos elevados. Esta tese propõe a decomposição de tarefas como uma estratégia metodológica para modularizar processos complexos em PLN, promovendo maior clareza conceitual, escalabilidade e reprodutibilidade. Inicialmente centrada no Mapeamento de Argumentos, a pesquisa redirecionou seu escopo devido à inviabilidade da tarefa original, concentrando-se na identificação de padrões reutilizáveis aplicáveis a etapas de anotação e automação. Foram desenvolvidas diretrizes, um algoritmo de decomposição hierárquica e artefatos como conjuntos de dados anotados e a plataforma Argmap, que oferece suporte à anotação colaborativa com controle de qualidade. A abordagem foi validada por meio de três estudos de caso: segmentação de hashtags, curadoria de frases-chave e anotação de estruturas argumentativas. Os resultados demonstram que a decomposição melhora a consistência entre agentes (humanos ou automáticos), a clareza das diretrizes e a viabilidade de automação. A tese também propõe o padrão arquitetural Recrutador–Selecionador, que estrutura tarefas em dois módulos independentes — geração de candidatos e seleção final —, aplicável tanto a fluxos de anotação quanto a algoritmos baseados em Large Language Model (LLM)s. Conclui-se que a decomposição orientada por padrões reutilizáveis aprimora a eficiência e a confiabilidade na construção de corpora e no desenvolvimento de sistemas robustos em PLN, contribuindo para a sistematização de processos anotativos e sua integração com soluções automáticas
dc.identifier.citationINUZUKA, M. A. Decomposição de tarefas para problemas de linguagem natural: segmentação de hashtags e anotação de texto argumentativo. 2025. 293 f. Tese (Doutorado em Ciência da Computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2025.
dc.identifier.urihttps://repositorio.bc.ufg.br/tede/handle/tede/14460
dc.languagePortuguêspor
dc.publisherUniversidade Federal de Goiáspor
dc.publisher.countryBrasilpor
dc.publisher.departmentInstituto de Informática - INF (RMG)
dc.publisher.initialsUFGpor
dc.publisher.programPrograma de Pós-graduação em Ciência da Computação (INF)
dc.rightsAcesso Aberto
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectAnotação de corpuspor
dc.subjectProcessamento de Linguagem Naturalpor
dc.subjectQualidade de dadospor
dc.subjectPadrões reutilizáveispor
dc.subjectLLMspor
dc.subjectDecomposição de tarefaspor
dc.subjectCorpus annotationeng
dc.subjectNatural Language Processingeng
dc.subjectData qualityeng
dc.subjectReusable patternseng
dc.subjectTask decompositioneng
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.titleDecomposição de tarefas para problemas de linguagem natural: segmentação de hashtags e anotação de texto argumentativo
dc.title.alternativeTask decomposition to natural language problems: hashtag segmentation and annotation argumentativeeng
dc.typeTese

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Tese - Marcelo Akira Inuzuka - 2025.pdf
Tamanho:
11.73 MB
Formato:
Adobe Portable Document Format

Licença do Pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: