Doc Explorer Linguistic & Layout: Explorando Ferramentas de Inteligência Artificial para Extração de Informações de Documentos Semi Estruturados

N/D

Autores

Oliveira, Erik Leonardo Soares de
Barranco, Marcelo Rabello
Silva, Marcos Vinícius da
Souza, Thomas Chiari Ciocchetti de

Orientador

Fornaciali, Michel

Co-orientadores

Citações na Scopus

Tipo de documento

Trabalho de Conclusão de Curso

Data

2024

Unidades Organizacionais

Resumo

O formato PDF (Portable Document Format) é amplamente utilizado devido ao baixo consumo de memória e à facilidade de visualização das informações. No entanto, sua estrutura não padronizada traz desafios significativos para a extração automática de dados estruturados, especialmente em contextos corporativos, como o da Dell, onde o volume de documentos é alto e a diversidade de formatos é ampla. Este projeto, desenvolvido como parte de um Capstone, visa identificar e analisar tecnologias atuais de extração de dados aplicadas a PDFs semi-estruturados, propondo uma metodologia que integre um fluxo completo de processamento de dados para lidar com diferentes estruturas e elementos. O objetivo é extrair informações essenciais, através de texto, tabelas e imagens, de forma automatizada e confiável, e aplicar inteligência artificial generativa para facilitar a consulta e geração de informações relevantes desses documentos.

Palavras-chave

Extração de Dados de Documentos; Extração de Dados de PDF; Geração de Insights com IA Generativa; Retrieval Augmented Generation

Titulo de periódico

URL da fonte

Título de Livro

URL na Scopus

Idioma

Português

Notas

Projeto realizado para a empresa Dell Technologies - Mentor: Pedro Henrique Pereira

Membros da banca

Fornaciali, Michel
Santana, Andre Luiz Maciel

Área do Conhecimento CNPQ

ENGENHARIAS

CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO

Citação

Avaliação

Revisão

Suplementado Por

Referenciado Por