BM25 x Vila Sésamo: avaliando modelos Sentence-BERT para Recuperação de Informação no cenário legislativo brasileiro
| dc.creator | Vitório, Douglas Álisson Marques de Sá | |
| dc.creator | Pereira, Ellen Polliana Ramos Souza | |
| dc.creator | Santos, José Antônio Pedro dos | |
| dc.creator | Carvalho, André Carlos Ponce de Leon Ferreira de | |
| dc.creator | Oliveira, Adriano Lorena Inácio de | |
| dc.creator | Silva, Nadia Felix Felipe da | |
| dc.date.accessioned | 2026-03-03T21:07:03Z | |
| dc.date.available | 2026-03-03T21:07:03Z | |
| dc.date.issued | 2025 | |
| dc.description.abstract | BERT-based models have been largely used, becoming the state-of-the-art for many Natural Language Processing tasks and for Information Retrieval. The Sentence-BERT architecture allowed these models to be easily used for the semantic search of documents, as it generates contextual embeddings that can be compared using similairty measures. To further investigate the application of BERT-based models for Information Retrieval, this work assessed 12 publicly available Sentence-BERT models for documents re- trieval within the Brazilian legislative scenario. Two BM25 variants were used as baseline: Okapi BM25 and BM25L. BM25L achieved better results, considering statistical significance, even in the scenario in which the documents were not preprocessed, while only one language model, fine-tuned using Brazilian legislative data, could reach a similar performance for one of the three used datasets. | |
| dc.description.resumo | Modelos baseados em BERT vêm sendo largamente utilizados, tornando-se o estado da arte para muitas tarefas de Processamento de Linguagem Natural e também para Recuperação de Informação. A arquitetura Sentence-BERT permitiu que esses modelos fossem facilmente utilizados para a busca semântica de documentos, já que ela gera embeddings contextuais que podem ser comparados através de medidas de similaridade. Para melhor investigar a aplicação de modelos baseados em BERT para Recuperação de Informação, este trabalho avaliou 12 modelos Sentence-BERT, disponíveis publicamente, para a recuperação de documentos no cenário legislativo brasileiro. Duas variantes do algoritmo BM25 foram utilizadas como baseline: Okapi BM25 e BM25L. O BM25L alcançou melhores resultados, com significância estatística, mesmo no cenário em que os documentos não foram pré-processados, enquanto que apenas um dos modelos de linguagem, ajustado usando dados legislativos brasileiros, obteve um desempenho similar para uma das três bases de dados utilizadas. | |
| dc.identifier.citation | VITÓRIO, Douglas Álisson Marques de Sá et al. BM25 x Vila Sésamo: avaliando modelos Sentence-BERT para Recuperação de Informação no cenário legislativo brasileiro. Linguamática, Braga, v. 17, n. 1, p. 17-33, 2025. DOI: 10.21814/lm.17.1.474. Disponível em: https://linguamatica.com/index.php/linguamatica/pt/article/view/474. Acesso em: 17 fev. 2026. | |
| dc.identifier.doi | 10.21814/lm.17.1.474 | |
| dc.identifier.issn | e- 1647-0818 | |
| dc.identifier.uri | https://repositorio.bc.ufg.br//handle/ri/29813 | |
| dc.language.iso | eng | |
| dc.publisher.country | Portugal | |
| dc.publisher.department | Instituto de Informática - INF (RMG) | |
| dc.rights | Acesso Aberto | |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
| dc.subject | Recuperação de informação | |
| dc.subject | Documentos legislativos | |
| dc.subject | Modelos de linguagem | |
| dc.subject | BERT | |
| dc.subject | BM25 | |
| dc.subject | Information retrieval | |
| dc.subject | Legislative documents | |
| dc.subject | Language models | |
| dc.title | BM25 x Vila Sésamo: avaliando modelos Sentence-BERT para Recuperação de Informação no cenário legislativo brasileiro | |
| dc.title.alternative | BM25 vs. Sesame Street: assessing Sentence-BERT models for Information Retrieval within the Brazilian legislative scenario | |
| dc.type | Artigo |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- Artigo - Douglas Álisson Marques de Sá Vitório - 2025.pdf
- Tamanho:
- 5.83 MB
- Formato:
- Adobe Portable Document Format
Licença do Pacote
1 - 1 de 1
Carregando...
- Nome:
- license.txt
- Tamanho:
- 1.71 KB
- Formato:
- Item-specific license agreed upon to submission
- Descrição: