Decomposição de tarefas para problemas de linguagem natural: segmentação de hashtags e anotação de texto argumentativo
| dc.contributor.advisor-co1 | Silva, Nádia Félix Felipe da | |
| dc.contributor.advisor-co1Lattes | http://lattes.cnpq.br/7864834001694765 | |
| dc.contributor.advisor1 | Nascimento, Hugo Alexandre Dantas do | |
| dc.contributor.advisor1Lattes | http://lattes.cnpq.br/2920005922426876 | |
| dc.contributor.referee1 | Nascimento, Hugo Alexandre Dantas do | |
| dc.contributor.referee1Lattes | http://lattes.cnpq.br/2920005922426876 | |
| dc.contributor.referee2 | Martins, Wellington Santos | |
| dc.contributor.referee2Lattes | http://lattes.cnpq.br/3041686206689904 | |
| dc.contributor.referee3 | Dias, Márcio de Souza | |
| dc.contributor.referee3Lattes | http://lattes.cnpq.br/0095510023252013 | |
| dc.contributor.referee4 | Alencar, Wanderley de Souza | |
| dc.contributor.referee4Lattes | http://lattes.cnpq.br/5491185436975801 | |
| dc.contributor.referee5 | Rosa, Thierson Couto | |
| dc.contributor.referee5Lattes | http://lattes.cnpq.br/4414718560764818 | |
| dc.creator | Inuzuka, Marcelo Akira | |
| dc.creator.Lattes | http://lattes.cnpq.br/0701953063536783 | |
| dc.date.accessioned | 2025-07-01T18:37:27Z | |
| dc.date.available | 2025-07-01T18:37:27Z | |
| dc.date.issued | 2025-04-24 | |
| dc.description.abstract | Corpus annotation is essential for training Natural Language Processing (NLP) models, yet it faces challenges such as high cognitive complexity, annotator inconsistency, and elevated costs. This thesis proposes task decomposition as a methodological strategy to modularize complex NLP processes, promoting greater conceptual clarity, scalability, and reproducibility. Initially focused on Argument Mapping, the research redirected its scope due to the infeasibility of the original task, concentrating on the identification of reusable patterns applicable to annotation and automation stages. Guidelines, a hierarchical decomposition algorithm, and artifacts such as annotated datasets and the Argmap platform — which supports collaborative annotation with quality control — were developed. The approach was validated through three empirical case studies: hashtag segmentation, keyphrase curation, and annotation of argumentative structures. Results demonstrate that decomposition improves consistency among agents (human or automatic), guideline clarity, and automation feasibility. The thesis also introduces the Recruiter–Selector architectural pattern, which structures tasks into two independent modules — candidate generation and final selection — applicable to both annotation workflows and algorithms based on Large Language Models (LLMs). It concludes that decomposition driven by reusable patterns enhances efficiency and reliability in corpus construction and the development of robust NLP systems, contributing to the systematization of annotation processes and their integration with automatic solutions | eng |
| dc.description.resumo | A anotação de corpora é essencial para o treinamento de modelos de Processamento de Linguagem Natural (PLN), mas enfrenta desafios como alta complexidade cognitiva, inconsistência entre anotadores e custos elevados. Esta tese propõe a decomposição de tarefas como uma estratégia metodológica para modularizar processos complexos em PLN, promovendo maior clareza conceitual, escalabilidade e reprodutibilidade. Inicialmente centrada no Mapeamento de Argumentos, a pesquisa redirecionou seu escopo devido à inviabilidade da tarefa original, concentrando-se na identificação de padrões reutilizáveis aplicáveis a etapas de anotação e automação. Foram desenvolvidas diretrizes, um algoritmo de decomposição hierárquica e artefatos como conjuntos de dados anotados e a plataforma Argmap, que oferece suporte à anotação colaborativa com controle de qualidade. A abordagem foi validada por meio de três estudos de caso: segmentação de hashtags, curadoria de frases-chave e anotação de estruturas argumentativas. Os resultados demonstram que a decomposição melhora a consistência entre agentes (humanos ou automáticos), a clareza das diretrizes e a viabilidade de automação. A tese também propõe o padrão arquitetural Recrutador–Selecionador, que estrutura tarefas em dois módulos independentes — geração de candidatos e seleção final —, aplicável tanto a fluxos de anotação quanto a algoritmos baseados em Large Language Model (LLM)s. Conclui-se que a decomposição orientada por padrões reutilizáveis aprimora a eficiência e a confiabilidade na construção de corpora e no desenvolvimento de sistemas robustos em PLN, contribuindo para a sistematização de processos anotativos e sua integração com soluções automáticas | |
| dc.identifier.citation | INUZUKA, M. A. Decomposição de tarefas para problemas de linguagem natural: segmentação de hashtags e anotação de texto argumentativo. 2025. 293 f. Tese (Doutorado em Ciência da Computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2025. | |
| dc.identifier.uri | https://repositorio.bc.ufg.br/tede/handle/tede/14460 | |
| dc.language | Português | por |
| dc.publisher | Universidade Federal de Goiás | por |
| dc.publisher.country | Brasil | por |
| dc.publisher.department | Instituto de Informática - INF (RMG) | |
| dc.publisher.initials | UFG | por |
| dc.publisher.program | Programa de Pós-graduação em Ciência da Computação (INF) | |
| dc.rights | Acesso Aberto | |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
| dc.subject | Anotação de corpus | por |
| dc.subject | Processamento de Linguagem Natural | por |
| dc.subject | Qualidade de dados | por |
| dc.subject | Padrões reutilizáveis | por |
| dc.subject | LLMs | por |
| dc.subject | Decomposição de tarefas | por |
| dc.subject | Corpus annotation | eng |
| dc.subject | Natural Language Processing | eng |
| dc.subject | Data quality | eng |
| dc.subject | Reusable patterns | eng |
| dc.subject | Task decomposition | eng |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | |
| dc.title | Decomposição de tarefas para problemas de linguagem natural: segmentação de hashtags e anotação de texto argumentativo | |
| dc.title.alternative | Task decomposition to natural language problems: hashtag segmentation and annotation argumentative | eng |
| dc.type | Tese |