BM25 x Vila Sésamo: avaliando modelos Sentence-BERT para Recuperação de Informação no cenário legislativo brasileiro

Vitório, Douglas Álisson Marques de Sá; Pereira, Ellen Polliana Ramos Souza; Santos, José Antônio Pedro dos; Carvalho, André Carlos Ponce de Leon Ferreira de; Oliveira, Adriano Lorena Inácio de; Silva, Nadia Felix Felipe da

doi:10.21814/lm.17.1.474

BM25 x Vila Sésamo: avaliando modelos Sentence-BERT para Recuperação de Informação no cenário legislativo brasileiro

dc.creator	Vitório, Douglas Álisson Marques de Sá
dc.creator	Pereira, Ellen Polliana Ramos Souza
dc.creator	Santos, José Antônio Pedro dos
dc.creator	Carvalho, André Carlos Ponce de Leon Ferreira de
dc.creator	Oliveira, Adriano Lorena Inácio de
dc.creator	Silva, Nadia Felix Felipe da
dc.date.accessioned	2026-03-03T21:07:03Z
dc.date.available	2026-03-03T21:07:03Z
dc.date.issued	2025
dc.description.abstract	BERT-based models have been largely used, becoming the state-of-the-art for many Natural Language Processing tasks and for Information Retrieval. The Sentence-BERT architecture allowed these models to be easily used for the semantic search of documents, as it generates contextual embeddings that can be compared using similairty measures. To further investigate the application of BERT-based models for Information Retrieval, this work assessed 12 publicly available Sentence-BERT models for documents re- trieval within the Brazilian legislative scenario. Two BM25 variants were used as baseline: Okapi BM25 and BM25L. BM25L achieved better results, considering statistical significance, even in the scenario in which the documents were not preprocessed, while only one language model, fine-tuned using Brazilian legislative data, could reach a similar performance for one of the three used datasets.
dc.description.resumo	Modelos baseados em BERT vêm sendo largamente utilizados, tornando-se o estado da arte para muitas tarefas de Processamento de Linguagem Natural e também para Recuperação de Informação. A arquitetura Sentence-BERT permitiu que esses modelos fossem facilmente utilizados para a busca semântica de documentos, já que ela gera embeddings contextuais que podem ser comparados através de medidas de similaridade. Para melhor investigar a aplicação de modelos baseados em BERT para Recuperação de Informação, este trabalho avaliou 12 modelos Sentence-BERT, disponíveis publicamente, para a recuperação de documentos no cenário legislativo brasileiro. Duas variantes do algoritmo BM25 foram utilizadas como baseline: Okapi BM25 e BM25L. O BM25L alcançou melhores resultados, com significância estatística, mesmo no cenário em que os documentos não foram pré-processados, enquanto que apenas um dos modelos de linguagem, ajustado usando dados legislativos brasileiros, obteve um desempenho similar para uma das três bases de dados utilizadas.
dc.identifier.citation	VITÓRIO, Douglas Álisson Marques de Sá et al. BM25 x Vila Sésamo: avaliando modelos Sentence-BERT para Recuperação de Informação no cenário legislativo brasileiro. Linguamática, Braga, v. 17, n. 1, p. 17-33, 2025. DOI: 10.21814/lm.17.1.474. Disponível em: https://linguamatica.com/index.php/linguamatica/pt/article/view/474. Acesso em: 17 fev. 2026.
dc.identifier.doi	10.21814/lm.17.1.474
dc.identifier.issn	e- 1647-0818
dc.identifier.uri	https://repositorio.bc.ufg.br//handle/ri/29813
dc.language.iso	eng
dc.publisher.country	Portugal
dc.publisher.department	Instituto de Informática - INF (RMG)
dc.rights	Acesso Aberto
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject	Recuperação de informação
dc.subject	Documentos legislativos
dc.subject	Modelos de linguagem
dc.subject	BERT
dc.subject	BM25
dc.subject	Information retrieval
dc.subject	Legislative documents
dc.subject	Language models
dc.title	BM25 x Vila Sésamo: avaliando modelos Sentence-BERT para Recuperação de Informação no cenário legislativo brasileiro
dc.title.alternative	BM25 vs. Sesame Street: assessing Sentence-BERT models for Information Retrieval within the Brazilian legislative scenario
dc.type	Artigo

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: Artigo - Douglas Álisson Marques de Sá Vitório - 2025.pdf
Tamanho:: 5.83 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.71 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Baixar

Coleções

INF - Artigos publicados em periódicos