Seleção adaptativa de proxies com amostragem de Thompson e métodos Bayesianos
dc.contributor.advisor-co1 | Marques, Thyago Carvalho | |
dc.contributor.advisor-co1Lattes | http://lattes.cnpq.br/1763926064124591 | |
dc.contributor.advisor1 | Brito, Leonardo da Cunha | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/6660680440182900 | |
dc.contributor.referee1 | Brito, Leonardo da Cunha | |
dc.contributor.referee2 | Marques, Thyago Carvalho | |
dc.contributor.referee3 | Ramos, Jhonata Emerick | |
dc.contributor.referee4 | Pires, Sandrerley Ramos | |
dc.creator | Souza, Paulo Henrique Cardoso de | |
dc.creator.Lattes | https://lattes.cnpq.br/6496117848227720 | |
dc.date.accessioned | 2025-10-01T19:34:37Z | |
dc.date.available | 2025-10-01T19:34:37Z | |
dc.date.issued | 2025-09-18 | |
dc.description.abstract | This study investigated strategies for proxy selection in automated data capture systems, comparing traditional approaches with adaptive Bayesian strategies. The main goal was to evaluate the operational efficiency, stability, and adaptive capacity of different selection algorithms in both controlled and real environments. The methodology involved controlled simulations in four distinct scenarios (intermittent proxies, blocked proxies, permanently failed proxies, and heterogeneous proxies) and experimental validation in a real operational environment with 10 different robots performing public data capture from various domains over one week, processing 549,114 requests. Seven strategies were evaluated: four Bayesian (Beta, Gamma, Normal, Chi-Square), one deterministic (Exponential Backoff), and two basic (Round Robin and Random). The simulation results demonstrated the consistent superiority of Bayesian strategies, with the Beta distribution achieving success rates above 99% in critical scenarios and maintaining leadership in the real environment with an average rate of 76.00%. The stability analysis revealed significantly lower coefficients of variation for Bayesian strategies (0.191–0.334) compared to the basic ones (0.498–0.668). The temporal analysis showed that Bayesian strategies wasted 2.5 times fewer resources than basic approaches, demonstrating superior operational efficiency. The Beta distribution stood out for its exceptional ability to differentiate between resources and adapt over time, as evidenced by the detailed analysis of probability distributions. Beyond direct applications in data capture, the developed techniques show significant potential for adaptive anti-scraping systems, where the ability to identify suspicious behavioral patterns and dynamically adapt to evasion techniques can enhance protection mechanisms against automated activities that violate web resource usage policies. It is concluded that Bayesian strategies, particularly the Beta distribution, provide significant operational advantages for data capture systems and transformative potential for the development of adaptive countermeasures in web protection. | eng |
dc.description.resumo | Este trabalho investigou estratégias de seleção de proxies para sistemas de captura de dados automatizada, comparando abordagens tradicionais com estratégias Bayesianas adaptativas. O objetivo principal foi avaliar a eficiência operacional, estabilidade e capacidade adaptativa de diferentes algoritmos de seleção em ambientes controlados e reais. A metodologia compreendeu simulações controladas em quatro cenários distintos (proxies intermitentes, bloqueados, permanentemente falhos e heterogêneos) e validação experimental em ambiente operacional real com 10 robôs diferentes realizando captura de dados públicos de diferentes domínios durante uma semana, processando 549.114 requisições. Foram avaliadas sete estratégias: quatro Bayesianas (Beta, Gamma, Normal, Chi-Quadrado), uma determinística (Exponential Backoff) e duas básicas (Round Robin e Aleatória). Os resultados das simulações demonstraram superioridade consistente das estratégias Bayesianas, com a distribuição Beta alcançando taxas de sucesso superiores a 99% em cenários críticos e mantendo liderança em ambiente real com 76,00% de taxa média. A análise de estabilidade revelou coeficientes de variação significativamente menores para estratégias Bayesianas (0,191-0,334) comparadas às básicas (0,498-0,668). A análise temporal evidenciou que estratégias Bayesianas desperdiçaram 2,5 vezes menos recursos que abordagens básicas, demonstrando eficiência operacional superior. A distribuição Beta destacou-se pela capacidade excepcional de diferenciação entre recursos e adaptação temporal, conforme evidenciado pela análise detalhada das distribuições de probabilidade. Além das aplicações diretas em captura de dados, as técnicas desenvolvidas apresentam potencial significativo para sistemas anti-scraping adaptativos, onde a capacidade de identificação de padrões comportamentais suspeitos e adaptação dinâmica a técnicas de evasão podem aprimorar mecanismos de proteção contra atividades automatizadas que violem políticas de uso de recursos web. Conclui-se que estratégias Bayesianas, especialmente a distribuição Beta, oferecem vantagens operacionais significativas para sistemas de captura de dados e potencial transformador para desenvolvimento de contramedidas adaptativas em proteção web. | |
dc.identifier.uri | https://repositorio.bc.ufg.br/tede/handle/tede/14757 | |
dc.language | Português | por |
dc.publisher | Universidade Federal de Goiás | por |
dc.publisher.country | Brasil | por |
dc.publisher.department | Escola de Engenharia Elétrica, Mecânica e de Computação - EMC (RMG) | |
dc.publisher.initials | UFG | por |
dc.publisher.program | Programa de Pós-graduação em Engenharia Elétrica e da Computação (EMC) | |
dc.relation.references | SOUZA, P. H. C. Seleção adaptativa de proxies com amostragem de Thompson e métodos Bayesianos. 2025. 109 f. Dissertação (Mestrado em Engenharia Elétrica e de Computação) - Escola de Engenharia Elétrica, Mecânica e de Computação, Universidade Federal de Goiás, Goiânia, 2025. | |
dc.rights | Acesso Aberto | |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
dc.subject | Seleção de proxies | por |
dc.subject | Estratégias bayesianas | por |
dc.subject | Distribuição beta | por |
dc.subject | Captura de dados automatizada | por |
dc.subject | Aprendizado probabilístico | por |
dc.subject | Proxy selection | eng |
dc.subject | Bayesian strategies | eng |
dc.subject | Beta distribution | eng |
dc.subject | Automated data capture | eng |
dc.subject | Probabilistic learning | eng |
dc.subject.cnpq | ENGENHARIAS::ENGENHARIA ELETRICA | |
dc.title | Seleção adaptativa de proxies com amostragem de Thompson e métodos Bayesianos | |
dc.title.alternative | Adaptive proxy selection with Thompson sampling and Bayesian methods | eng |
dc.type | Dissertação |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- Dissertação - Paulo Henrique Cardoso de Souza - 2025.pdf
- Tamanho:
- 12.56 MB
- Formato:
- Adobe Portable Document Format
Licença do Pacote
1 - 1 de 1
Carregando...
- Nome:
- license.txt
- Tamanho:
- 1.71 KB
- Formato:
- Item-specific license agreed upon to submission
- Descrição: