Extração, Estruturação e Interpretação Automatizada de Notícias: Um Modelo Baseado em Aprendizado Profundo, Reconhecimento Ótico de Caracteres e Alocação Latente de Dirichlet

Imagem de Miniatura

Autores

Oehling, Klaus Colletti

Co-orientadores

Citações na Scopus

Tipo de documento

Relatório de Iniciação Científica

Data

2025

Unidades Organizacionais

Resumo

Este relatório de iniciação científica desenvolve um método automatizado para extração, estruturação e interpretação de notícias veiculadas no jornal impresso O Estado de S. Paulo, no período de 2001 a 2023. A pesquisa integra o estudo macroeconômico de expectativas fiscais apresentado em Fiscal Shocks or Fiscal News? Evidence from Daily Fiscal Expectations (Bandeira; Bonomo; Carvalho; Mendes, 2025). A metodologia adotada consistiu, inicialmente, na construção de um conjunto de dados anotado por meio da ferramenta Label Studio, na qual foram criadas caixas delimitadoras com regiões correspondentes a títulos, textos, tipos, notas, autores, subtítulos e outros nas capas e páginas da seção de economia do periódico. Esse corpus serviu de base para treinar um modelo de aprendizado profundo com a biblioteca LayoutParser, permitindo a detecção automática das estruturas jornalísticas. Mais adiante, foi implementado um algoritmo autoral para agrupar coerentemente caixas delimitadoras da mesma notícia e aplicar o Reconhecimento Ótico de Caracteres (OCR) ao conteúdo extraído. Por fim, utilizou-se a modelagem de tópicos via Alocação Latente de Dirichlet (LDA) para identificar e classificar notícias fiscais. A série temporal resultante demonstra forte alinhamento com eventos fiscais relevantes das últimas décadas.

This scientific initiation report develops an automated method for extracting, structuring, and interpreting news articles published in the print edition of O Estado de S. Paulo from 2001 to 2023. The research is part of the macroeconomic study on fiscal expectations presented in Fiscal Shocks or Fiscal News? Evidence from Daily Fiscal Expectations (Bandeira; Bonomo; Carvalho; Mendes, 2025). The adopted methodology initially involved building an annotated dataset using the Label Studio tool, in which bounding boxes were created to identify regions corresponding to headlines, main texts, types, notes, authors, subtitles, and others on the front pages and economy section pages of the newspaper. This corpus was used to train a deep learning model via the LayoutParser library, enabling the automatic detection of journalistic structures. Subsequently, a custom algorithm was implemented to coherently group bounding boxes belonging to the same article and to apply Optical Character Recognition (OCR) to the extracted content. Finally, topic modeling using Latent Dirichlet Allocation (LDA) was employed to identify and classify fiscal news articles. The resulting time series shows strong alignment with major fiscal events from recent decades.

Palavras-chave

LayoutParser; OCR; Modelagem de Tópicos; Notícia Fiscal; Jornal; Topic Modeling; Fiscal News; Newspaper

Titulo de periódico

URL da fonte

Título de Livro

URL na Scopus

Sinopse

Objetivos de aprendizagem

Idioma

Português

Notas

Membros da banca

Área do Conhecimento CNPQ

CIENCIAS SOCIAIS APLICADAS

CIENCIAS SOCIAIS APLICADAS::ECONOMIA

Citação

Avaliação

Revisão

Suplementado Por

Referenciado Por