Seleção adaptativa de proxies com amostragem de Thompson e métodos Bayesianos

dc.contributor.advisor-co1Marques, Thyago Carvalho
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/1763926064124591
dc.contributor.advisor1Brito, Leonardo da Cunha
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/6660680440182900
dc.contributor.referee1Brito, Leonardo da Cunha
dc.contributor.referee2Marques, Thyago Carvalho
dc.contributor.referee3Ramos, Jhonata Emerick
dc.contributor.referee4Pires, Sandrerley Ramos
dc.creatorSouza, Paulo Henrique Cardoso de
dc.creator.Latteshttps://lattes.cnpq.br/6496117848227720
dc.date.accessioned2025-10-01T19:34:37Z
dc.date.available2025-10-01T19:34:37Z
dc.date.issued2025-09-18
dc.description.abstractThis study investigated strategies for proxy selection in automated data capture systems, comparing traditional approaches with adaptive Bayesian strategies. The main goal was to evaluate the operational efficiency, stability, and adaptive capacity of different selection algorithms in both controlled and real environments. The methodology involved controlled simulations in four distinct scenarios (intermittent proxies, blocked proxies, permanently failed proxies, and heterogeneous proxies) and experimental validation in a real operational environment with 10 different robots performing public data capture from various domains over one week, processing 549,114 requests. Seven strategies were evaluated: four Bayesian (Beta, Gamma, Normal, Chi-Square), one deterministic (Exponential Backoff), and two basic (Round Robin and Random). The simulation results demonstrated the consistent superiority of Bayesian strategies, with the Beta distribution achieving success rates above 99% in critical scenarios and maintaining leadership in the real environment with an average rate of 76.00%. The stability analysis revealed significantly lower coefficients of variation for Bayesian strategies (0.191–0.334) compared to the basic ones (0.498–0.668). The temporal analysis showed that Bayesian strategies wasted 2.5 times fewer resources than basic approaches, demonstrating superior operational efficiency. The Beta distribution stood out for its exceptional ability to differentiate between resources and adapt over time, as evidenced by the detailed analysis of probability distributions. Beyond direct applications in data capture, the developed techniques show significant potential for adaptive anti-scraping systems, where the ability to identify suspicious behavioral patterns and dynamically adapt to evasion techniques can enhance protection mechanisms against automated activities that violate web resource usage policies. It is concluded that Bayesian strategies, particularly the Beta distribution, provide significant operational advantages for data capture systems and transformative potential for the development of adaptive countermeasures in web protection.eng
dc.description.resumoEste trabalho investigou estratégias de seleção de proxies para sistemas de captura de dados automatizada, comparando abordagens tradicionais com estratégias Bayesianas adaptativas. O objetivo principal foi avaliar a eficiência operacional, estabilidade e capacidade adaptativa de diferentes algoritmos de seleção em ambientes controlados e reais. A metodologia compreendeu simulações controladas em quatro cenários distintos (proxies intermitentes, bloqueados, permanentemente falhos e heterogêneos) e validação experimental em ambiente operacional real com 10 robôs diferentes realizando captura de dados públicos de diferentes domínios durante uma semana, processando 549.114 requisições. Foram avaliadas sete estratégias: quatro Bayesianas (Beta, Gamma, Normal, Chi-Quadrado), uma determinística (Exponential Backoff) e duas básicas (Round Robin e Aleatória). Os resultados das simulações demonstraram superioridade consistente das estratégias Bayesianas, com a distribuição Beta alcançando taxas de sucesso superiores a 99% em cenários críticos e mantendo liderança em ambiente real com 76,00% de taxa média. A análise de estabilidade revelou coeficientes de variação significativamente menores para estratégias Bayesianas (0,191-0,334) comparadas às básicas (0,498-0,668). A análise temporal evidenciou que estratégias Bayesianas desperdiçaram 2,5 vezes menos recursos que abordagens básicas, demonstrando eficiência operacional superior. A distribuição Beta destacou-se pela capacidade excepcional de diferenciação entre recursos e adaptação temporal, conforme evidenciado pela análise detalhada das distribuições de probabilidade. Além das aplicações diretas em captura de dados, as técnicas desenvolvidas apresentam potencial significativo para sistemas anti-scraping adaptativos, onde a capacidade de identificação de padrões comportamentais suspeitos e adaptação dinâmica a técnicas de evasão podem aprimorar mecanismos de proteção contra atividades automatizadas que violem políticas de uso de recursos web. Conclui-se que estratégias Bayesianas, especialmente a distribuição Beta, oferecem vantagens operacionais significativas para sistemas de captura de dados e potencial transformador para desenvolvimento de contramedidas adaptativas em proteção web.
dc.identifier.urihttps://repositorio.bc.ufg.br/tede/handle/tede/14757
dc.languagePortuguêspor
dc.publisherUniversidade Federal de Goiáspor
dc.publisher.countryBrasilpor
dc.publisher.departmentEscola de Engenharia Elétrica, Mecânica e de Computação - EMC (RMG)
dc.publisher.initialsUFGpor
dc.publisher.programPrograma de Pós-graduação em Engenharia Elétrica e da Computação (EMC)
dc.relation.referencesSOUZA, P. H. C. Seleção adaptativa de proxies com amostragem de Thompson e métodos Bayesianos. 2025. 109 f. Dissertação (Mestrado em Engenharia Elétrica e de Computação) - Escola de Engenharia Elétrica, Mecânica e de Computação, Universidade Federal de Goiás, Goiânia, 2025.
dc.rightsAcesso Aberto
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectSeleção de proxiespor
dc.subjectEstratégias bayesianaspor
dc.subjectDistribuição betapor
dc.subjectCaptura de dados automatizadapor
dc.subjectAprendizado probabilísticopor
dc.subjectProxy selectioneng
dc.subjectBayesian strategieseng
dc.subjectBeta distributioneng
dc.subjectAutomated data captureeng
dc.subjectProbabilistic learningeng
dc.subject.cnpqENGENHARIAS::ENGENHARIA ELETRICA
dc.titleSeleção adaptativa de proxies com amostragem de Thompson e métodos Bayesianos
dc.title.alternativeAdaptive proxy selection with Thompson sampling and Bayesian methodseng
dc.typeDissertação

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Dissertação - Paulo Henrique Cardoso de Souza - 2025.pdf
Tamanho:
12.56 MB
Formato:
Adobe Portable Document Format

Licença do Pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: