Doc Explorer Linguistic & Layout: Explorando Ferramentas de Inteligência Artificial para Extração de Informações de Documentos Semi Estruturados
Autores
Oliveira, Erik Leonardo Soares de
Barranco, Marcelo Rabello
Silva, Marcos Vinícius da
Souza, Thomas Chiari Ciocchetti de
Orientador
Fornaciali, Michel
Co-orientadores
Citações na Scopus
Tipo de documento
Trabalho de Conclusão de Curso
Data
2024
Resumo
O formato PDF (Portable Document Format) é amplamente utilizado devido ao baixo
consumo de memória e à facilidade de visualização das informações. No entanto, sua
estrutura não padronizada traz desafios significativos para a extração automática de dados
estruturados, especialmente em contextos corporativos, como o da Dell, onde o volume de
documentos é alto e a diversidade de formatos é ampla. Este projeto, desenvolvido como
parte de um Capstone, visa identificar e analisar tecnologias atuais de extração de dados
aplicadas a PDFs semi-estruturados, propondo uma metodologia que integre um fluxo
completo de processamento de dados para lidar com diferentes estruturas e elementos. O
objetivo é extrair informações essenciais, através de texto, tabelas e imagens, de forma
automatizada e confiável, e aplicar inteligência artificial generativa para facilitar a consulta e
geração de informações relevantes desses documentos.
Palavras-chave
Extração de Dados de Documentos; Extração de Dados de PDF; Geração de Insights com IA Generativa; Retrieval Augmented Generation
Titulo de periódico
URL da fonte
Título de Livro
URL na Scopus
Sinopse
Objetivos de aprendizagem
Idioma
Português
Notas
Projeto realizado para a empresa Dell Technologies - Mentor: Pedro Henrique Pereira
Membros da banca
Área do Conhecimento CNPQ
ENGENHARIAS
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO