Doc Explorer Linguistic & Layout: Explorando Ferramentas de Inteligência Artificial para Extração de Informações de Documentos Semi Estruturados

Imagem de Miniatura

Autores

Oliveira, Erik Leonardo Soares de
Barranco, Marcelo Rabello
Silva, Marcos Vinícius da
Souza, Thomas Chiari Ciocchetti de

Orientador

Fornaciali, Michel

Co-orientadores

Citações na Scopus

Tipo de documento

Trabalho de Conclusão de Curso

Data

2024

Unidades Organizacionais

Resumo

O formato PDF (Portable Document Format) é amplamente utilizado devido ao baixo consumo de memória e à facilidade de visualização das informações. No entanto, sua estrutura não padronizada traz desafios significativos para a extração automática de dados estruturados, especialmente em contextos corporativos, como o da Dell, onde o volume de documentos é alto e a diversidade de formatos é ampla. Este projeto, desenvolvido como parte de um Capstone, visa identificar e analisar tecnologias atuais de extração de dados aplicadas a PDFs semi-estruturados, propondo uma metodologia que integre um fluxo completo de processamento de dados para lidar com diferentes estruturas e elementos. O objetivo é extrair informações essenciais, através de texto, tabelas e imagens, de forma automatizada e confiável, e aplicar inteligência artificial generativa para facilitar a consulta e geração de informações relevantes desses documentos.

Palavras-chave

Extração de Dados de Documentos; Extração de Dados de PDF; Geração de Insights com IA Generativa; Retrieval Augmented Generation

Titulo de periódico

URL da fonte

Título de Livro

URL na Scopus

Sinopse

Objetivos de aprendizagem

Idioma

Português

Notas

Projeto realizado para a empresa Dell Technologies - Mentor: Pedro Henrique Pereira

Membros da banca

Fornaciali, Michel
Santana, Andre Luiz Maciel

Área do Conhecimento CNPQ

ENGENHARIAS

CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO

Citação

Avaliação

Revisão

Suplementado Por

Referenciado Por