Combate à Pirataria de Cartuchos HP no Mercado Livre
N/D
Autores
Oliveira, André Pereira de
Silva, Julia Almeida
Pini, Luiz Eduardo Herreros
Paves, Rafael Gordon
Orientador
Sandmann, Humberto R.
Co-orientadores
Citações na Scopus
Tipo de documento
Trabalho de Conclusão de Curso
Data
2025
Arquivos
Resumo
Este projeto apresenta uma solução automatizada para apoiar a HP Inc. no combate à pirataria de cartuchos de tinta na plataforma do Mercado Livre. Atualmente, o processo de triagem é realizado manualmente e não atende ao volume e a rotatividade de anúncios, o que permite a permanência de ofertas suspeitas na plataforma, que por sua vez, provocam perdas financeiras e, até mesmo, danos na reputação da HP. O projeto integra: coleta, consolidação e priorização de anúncios com indícios de falsificação. Para a coleta, emprega-se web scraping a fim de obter dados da oferta, tais como título, preço, vendedor, avaliações e comentários. Na consolidação, é feito o processamento da normalização dos dados e proposto um cálculo de score de risco. Já a priorização foi definida em conjunto com a HP a partir de critérios como preço abaixo do referencial, nota média, menções de falsificação nos comentários e a quantidade de unidades vendidas como proxy de impacto. A arquitetura da solução contempla módulos de scraper, backend e frontend, com dashboard e filtros que viabilizam análise rápida e acompanhamento de vendedores recorrentes. Diversos desafios são apresentados, entre os desatacados estão limites e bloqueios impostos pelo marketplace e a necessidade de uma solução para escalar com robustez e conformidade. Ao final, resultados indicam ganho de eficiência na triagem e delineiam a evolução para testes automatizados, uso de LLM (Large Language Models) na classificação de comentários. Uma expansão futura poderia contemplar a análise de outras famílias de produtos.
This project presents an automated solution to support HP Inc. in combating ink cartridge piracy on the Mercado Livre online marketplace. Currently, the screening process is carried out manually and does not meet the volume and turnover of listings, which allows suspicious offers to remain on the platform. This, in turn, causes financial losses and even damages HP’s reputation. The project integrates: data collection, consolidation, and prioritization of listings with indications of counterfeiting. For the collection stage, web scraping is employed to extract data such as title, price, seller, ratings, and comments. During the consolidation stage, data normalization processing is performed and a risk score calculation is proposed. As for prioritization, it was defined jointly with HP based on criteria such as price below the reference values, average rating, mentions of counterfeiting in comments, and the number of units sold as a proxy for impact. The solution architecture includes scraper, backend, and frontend modules, featuring a dashboard and filters that enable quick analysis and monitoring of recurring sellers. Several challenges are presented, among which are request limits and blocks imposed by the marketplace and the need for another solution to ensure scalability, robustness, and compliance. Finally, results indicate efficiency gains in the screening process and outline the evolution toward automated testing and the use of LLMs (Large Language Models) in comment classification. A future expansion could include the analysis of other product families.
This project presents an automated solution to support HP Inc. in combating ink cartridge piracy on the Mercado Livre online marketplace. Currently, the screening process is carried out manually and does not meet the volume and turnover of listings, which allows suspicious offers to remain on the platform. This, in turn, causes financial losses and even damages HP’s reputation. The project integrates: data collection, consolidation, and prioritization of listings with indications of counterfeiting. For the collection stage, web scraping is employed to extract data such as title, price, seller, ratings, and comments. During the consolidation stage, data normalization processing is performed and a risk score calculation is proposed. As for prioritization, it was defined jointly with HP based on criteria such as price below the reference values, average rating, mentions of counterfeiting in comments, and the number of units sold as a proxy for impact. The solution architecture includes scraper, backend, and frontend modules, featuring a dashboard and filters that enable quick analysis and monitoring of recurring sellers. Several challenges are presented, among which are request limits and blocks imposed by the marketplace and the need for another solution to ensure scalability, robustness, and compliance. Finally, results indicate efficiency gains in the screening process and outline the evolution toward automated testing and the use of LLMs (Large Language Models) in comment classification. A future expansion could include the analysis of other product families.
Palavras-chave
Pirataria online; Web scraping; Classificação de Risco; Mercado Livre; Priorização de Anúncios; Online Piracy; Risk Classification; Listings Prioritazation
Titulo de periódico
Texto completo
Título de Livro
URL na Scopus
Sinopse
Objetivos de aprendizagem
Idioma
Português
Notas
Projeto elaborado para a empresa HP.
Membros da banca
Sandmann, Humberto R.
Menezes, Carlos Eduardo Dantas de
Durão, Luiz Fernando Cardoso dos Santos
Área do Conhecimento CNPQ
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
ENGENHARIAS
ENGENHARIAS
