BM25 x Vila Sésamo: avaliando modelos Sentence-BERT para Recuperação de Informação no cenário legislativo brasileiro

dc.creatorVitório, Douglas Álisson Marques de Sá
dc.creatorPereira, Ellen Polliana Ramos Souza
dc.creatorSantos, José Antônio Pedro dos
dc.creatorCarvalho, André Carlos Ponce de Leon Ferreira de
dc.creatorOliveira, Adriano Lorena Inácio de
dc.creatorSilva, Nadia Felix Felipe da
dc.date.accessioned2026-03-03T21:07:03Z
dc.date.available2026-03-03T21:07:03Z
dc.date.issued2025
dc.description.abstractBERT-based models have been largely used, becoming the state-of-the-art for many Natural Language Processing tasks and for Information Retrieval. The Sentence-BERT architecture allowed these models to be easily used for the semantic search of documents, as it generates contextual embeddings that can be compared using similairty measures. To further investigate the application of BERT-based models for Information Retrieval, this work assessed 12 publicly available Sentence-BERT models for documents re- trieval within the Brazilian legislative scenario. Two BM25 variants were used as baseline: Okapi BM25 and BM25L. BM25L achieved better results, considering statistical significance, even in the scenario in which the documents were not preprocessed, while only one language model, fine-tuned using Brazilian legislative data, could reach a similar performance for one of the three used datasets.
dc.description.resumoModelos baseados em BERT vêm sendo largamente utilizados, tornando-se o estado da arte para muitas tarefas de Processamento de Linguagem Natural e também para Recuperação de Informação. A arquitetura Sentence-BERT permitiu que esses modelos fossem facilmente utilizados para a busca semântica de documentos, já que ela gera embeddings contextuais que podem ser comparados através de medidas de similaridade. Para melhor investigar a aplicação de modelos baseados em BERT para Recuperação de Informação, este trabalho avaliou 12 modelos Sentence-BERT, disponíveis publicamente, para a recuperação de documentos no cenário legislativo brasileiro. Duas variantes do algoritmo BM25 foram utilizadas como baseline: Okapi BM25 e BM25L. O BM25L alcançou melhores resultados, com significância estatística, mesmo no cenário em que os documentos não foram pré-processados, enquanto que apenas um dos modelos de linguagem, ajustado usando dados legislativos brasileiros, obteve um desempenho similar para uma das três bases de dados utilizadas.
dc.identifier.citationVITÓRIO, Douglas Álisson Marques de Sá et al. BM25 x Vila Sésamo: avaliando modelos Sentence-BERT para Recuperação de Informação no cenário legislativo brasileiro. Linguamática, Braga, v. 17, n. 1, p. 17-33, 2025. DOI: 10.21814/lm.17.1.474. Disponível em: https://linguamatica.com/index.php/linguamatica/pt/article/view/474. Acesso em: 17 fev. 2026.
dc.identifier.doi10.21814/lm.17.1.474
dc.identifier.issne- 1647-0818
dc.identifier.urihttps://repositorio.bc.ufg.br//handle/ri/29813
dc.language.isoeng
dc.publisher.countryPortugal
dc.publisher.departmentInstituto de Informática - INF (RMG)
dc.rightsAcesso Aberto
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectRecuperação de informação
dc.subjectDocumentos legislativos
dc.subjectModelos de linguagem
dc.subjectBERT
dc.subjectBM25
dc.subjectInformation retrieval
dc.subjectLegislative documents
dc.subjectLanguage models
dc.titleBM25 x Vila Sésamo: avaliando modelos Sentence-BERT para Recuperação de Informação no cenário legislativo brasileiro
dc.title.alternativeBM25 vs. Sesame Street: assessing Sentence-BERT models for Information Retrieval within the Brazilian legislative scenario
dc.typeArtigo

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Artigo - Douglas Álisson Marques de Sá Vitório - 2025.pdf
Tamanho:
5.83 MB
Formato:
Adobe Portable Document Format

Licença do Pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: