Extração, Estruturação e Interpretação Automatizada de Notícias: Um Modelo Baseado em Aprendizado Profundo, Reconhecimento Ótico de Caracteres e Alocação Latente de Dirichlet

dc.contributor.advisorMIGUEL MARIA CHARTERS DE OLIVEIRA BANDEIRA DA SILVA
dc.contributor.authorOehling, Klaus Colletti
dc.date.accessioned2025-10-13T12:30:29Z
dc.date.issued2025
dc.description.abstractEste relatório de iniciação científica desenvolve um método automatizado para extração, estruturação e interpretação de notícias veiculadas no jornal impresso O Estado de S. Paulo, no período de 2001 a 2023. A pesquisa integra o estudo macroeconômico de expectativas fiscais apresentado em Fiscal Shocks or Fiscal News? Evidence from Daily Fiscal Expectations (Bandeira; Bonomo; Carvalho; Mendes, 2025). A metodologia adotada consistiu, inicialmente, na construção de um conjunto de dados anotado por meio da ferramenta Label Studio, na qual foram criadas caixas delimitadoras com regiões correspondentes a títulos, textos, tipos, notas, autores, subtítulos e outros nas capas e páginas da seção de economia do periódico. Esse corpus serviu de base para treinar um modelo de aprendizado profundo com a biblioteca LayoutParser, permitindo a detecção automática das estruturas jornalísticas. Mais adiante, foi implementado um algoritmo autoral para agrupar coerentemente caixas delimitadoras da mesma notícia e aplicar o Reconhecimento Ótico de Caracteres (OCR) ao conteúdo extraído. Por fim, utilizou-se a modelagem de tópicos via Alocação Latente de Dirichlet (LDA) para identificar e classificar notícias fiscais. A série temporal resultante demonstra forte alinhamento com eventos fiscais relevantes das últimas décadas.pt
dc.description.abstractThis scientific initiation report develops an automated method for extracting, structuring, and interpreting news articles published in the print edition of O Estado de S. Paulo from 2001 to 2023. The research is part of the macroeconomic study on fiscal expectations presented in Fiscal Shocks or Fiscal News? Evidence from Daily Fiscal Expectations (Bandeira; Bonomo; Carvalho; Mendes, 2025). The adopted methodology initially involved building an annotated dataset using the Label Studio tool, in which bounding boxes were created to identify regions corresponding to headlines, main texts, types, notes, authors, subtitles, and others on the front pages and economy section pages of the newspaper. This corpus was used to train a deep learning model via the LayoutParser library, enabling the automatic detection of journalistic structures. Subsequently, a custom algorithm was implemented to coherently group bounding boxes belonging to the same article and to apply Optical Character Recognition (OCR) to the extracted content. Finally, topic modeling using Latent Dirichlet Allocation (LDA) was employed to identify and classify fiscal news articles. The resulting time series shows strong alignment with major fiscal events from recent decades.en
dc.formatDigital
dc.format.extent40 p.
dc.identifier.urihttps://repositorio.insper.edu.br/handle/11224/8066
dc.language.isoPortuguês
dc.subjectLayoutParseren
dc.subjectOCRen
dc.subjectModelagem de Tópicospt
dc.subjectNotícia Fiscalpt
dc.subjectJornalpt
dc.subjectTopic Modelingen
dc.subjectFiscal Newsen
dc.subjectNewspaperen
dc.titleExtração, Estruturação e Interpretação Automatizada de Notícias: Um Modelo Baseado em Aprendizado Profundo, Reconhecimento Ótico de Caracteres e Alocação Latente de Dirichlet
dc.typereport
dspace.entity.typePublication
local.subject.cnpqCIENCIAS SOCIAIS APLICADAS
local.subject.cnpqCIENCIAS SOCIAIS APLICADAS::ECONOMIA
local.typeRelatório de Iniciação Científica
relation.isAdvisorOfPublicatione069f4e5-cea5-4576-a664-ba0de500c8fd
relation.isAdvisorOfPublication.latestForDiscoverye069f4e5-cea5-4576-a664-ba0de500c8fd

Arquivos

Pacote original

Agora exibindo 1 - 2 de 2
Imagem de Miniatura
Nome:
PIBIC_Relatório Final - Klaus Colletti.pdf
Tamanho:
2.67 MB
Formato:
Adobe Portable Document Format
N/D
Nome:
Autorização_Klaus Colletti Oehling.pdf
Tamanho:
149.57 KB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
N/D
Nome:
license.txt
Tamanho:
236 B
Formato:
Item-specific license agreed upon to submission
Descrição: