Fornaciali, MichelOliveira, Erik Leonardo Soares deBarranco, Marcelo RabelloSilva, Marcos Vinícius daSouza, Thomas Chiari Ciocchetti de2025-04-092024https://repositorio.insper.edu.br/handle/11224/7562Projeto realizado para a empresa Dell Technologies - Mentor: Pedro Henrique PereiraO formato PDF (Portable Document Format) é amplamente utilizado devido ao baixo consumo de memória e à facilidade de visualização das informações. No entanto, sua estrutura não padronizada traz desafios significativos para a extração automática de dados estruturados, especialmente em contextos corporativos, como o da Dell, onde o volume de documentos é alto e a diversidade de formatos é ampla. Este projeto, desenvolvido como parte de um Capstone, visa identificar e analisar tecnologias atuais de extração de dados aplicadas a PDFs semi-estruturados, propondo uma metodologia que integre um fluxo completo de processamento de dados para lidar com diferentes estruturas e elementos. O objetivo é extrair informações essenciais, através de texto, tabelas e imagens, de forma automatizada e confiável, e aplicar inteligência artificial generativa para facilitar a consulta e geração de informações relevantes desses documentos.Digital63 p.PortuguêsExtração de Dados de DocumentosExtração de Dados de PDFGeração de Insights com IA GenerativaRetrieval Augmented GenerationDoc Explorer Linguistic & Layout: Explorando Ferramentas de Inteligência Artificial para Extração de Informações de Documentos Semi Estruturadosbachelor thesis