Doc Explorer Linguistic & Layout: Explorando Ferramentas de Inteligência Artificial para Extração de Informações de Documentos Semi Estruturados
N/D
Autores
Oliveira, Erik Leonardo Soares de
Barranco, Marcelo Rabello
Silva, Marcos Vinícius da
Souza, Thomas Chiari Ciocchetti de
Orientador
Fornaciali, Michel
Co-orientadores
Citações na Scopus
Tipo de documento
Trabalho de Conclusão de Curso
Data
2024
Resumo
O formato PDF (Portable Document Format) é amplamente utilizado devido ao baixo
consumo de memória e à facilidade de visualização das informações. No entanto, sua
estrutura não padronizada traz desafios significativos para a extração automática de dados
estruturados, especialmente em contextos corporativos, como o da Dell, onde o volume de
documentos é alto e a diversidade de formatos é ampla. Este projeto, desenvolvido como
parte de um Capstone, visa identificar e analisar tecnologias atuais de extração de dados
aplicadas a PDFs semi-estruturados, propondo uma metodologia que integre um fluxo
completo de processamento de dados para lidar com diferentes estruturas e elementos. O
objetivo é extrair informações essenciais, através de texto, tabelas e imagens, de forma
automatizada e confiável, e aplicar inteligência artificial generativa para facilitar a consulta e
geração de informações relevantes desses documentos.
Palavras-chave
Extração de Dados de Documentos; Extração de Dados de PDF; Geração de Insights com IA Generativa; Retrieval Augmented Generation
Titulo de periódico
URL da fonte
Título de Livro
URL na Scopus
Idioma
Português
Notas
Projeto realizado para a empresa Dell Technologies - Mentor: Pedro Henrique Pereira
Membros da banca
Área do Conhecimento CNPQ
ENGENHARIAS
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO