Aplicação de árvores de regressão aditivas bayesianas no desenvolvimento de modelos de escore de crédito no Brasil

Brito Filho, Daniel Alves De

Aplicação de árvores de regressão aditivas bayesianas no desenvolvimento de modelos de escore de crédito no Brasil

dc.contributor.advisor	RINALDO ARTES
dc.contributor.author	Brito Filho, Daniel Alves De
dc.coverage.spatial	São Paulo	pt_BR
dc.creator	Brito Filho, Daniel Alves De
dc.date.accessioned	2021-09-13T03:17:57Z
dc.date.accessioned	2017-12-13T12:54:43Z
dc.date.available	2021-09-13T03:17:57Z
dc.date.available	2016
dc.date.available	2017-12-13T12:54:43Z
dc.date.issued	2016
dc.date.submitted	2016
dc.description.abstract	A análise de crédito é uma atividade fundamental para as instituições financeiras. Os modelos de escore de crédito tornaram-se uma ferramenta importante, devido à necessidade de padronização e agilidade nas análises de crédito, existindo situações em que a aprovação ou recusa do crédito é totalmente automatizada. Segundo Thomas (2009), a técnica mais utilizada na construção de modelos de escore de crédito é a regressão logística. Por outro lado, outras técnicas, reunidas sob o termo aprendizado de máquina, têm sido aplicadas em modelos de classificação. Como podemos observar em Kruppa et al. (2013) e Lessmann et al. (2015), esses modelos têm apresentado resultados superiores aos modelos de regressão logística. Este trabalho propõe uma comparação entre o modelo de regressão logística e os modelos de aprendizado de máquina BART e Random Forests. Para o desenvolvimento dos modelos foi utilizada uma base de dados fornecida pela empresa Serasa Experian contendo informações do bureau de crédito referente a clientes de operações de crédito direto ao consumidor no varejo. Para a avaliação da performance dos modelos foram utilizadas a estatística de Kolmogorov-Smirnov e o coeficiente de Gini. Também foi gerado um intervalo de confiança para a métrica área sob a curva (AUC) para testar a hipótese dos modelos possuírem a mesma performance. Como principal resultado, a análise realizada confirma a superioridade do modelo BART sobre o modelo de regressão logística no banco de dados analisado. Além disso, os resultados sugerem que o modelo Random Forests é superior ao modelo de regressão logística somente quando ajustado na amostra balanceada analisada, dado que a performance da regressão logística melhorou quanto ajustado na base de desenvolvimento desbalanceada. Os melhores modelos BART ajustados, tanto na amostra balanceada quanto na amostra desbalanceada, foram superiores ao modelo Random Forests, nos dados analisados. Porém, o modelo BART padrão e Random Forests apresentaram performance similar e não podemos afirmar que um modelo foi superior ao outro.	pt_BR
dc.description.other	The credit risk assessment is a vital activity for any financial institution. The credit scoring models become an important tool due to the standardization and speed necessities on the credit process, having situations where the credit approval or rejection is fully automated. According to Thomas (2009), the logistic regression has been the most used technique to build up credit scoring models. This paper proposes a comparison between the logistic regression model and models created using machine learning techniques BART and Random Forests. The database used to develop these models was provided by Serasa Experian, which was related to retail credit transactions for consumers. The performance of these models was assessed using the Kolmogorov-Smirnov statistic and the Gini coefficient. A confidence internal was also generated to the area under curve (AUC) metric also to support models performance comparison. The main result of this paper confirms the superiority of the machine learning model BART against the logistic regression. On the other hand, results suggest a superiority of the machine learning model Random Forests model against the logistic regression only when fitted in the under sampling data base, however, the logistic regression improved when fitted in the unbalanced development data base with bias correction and its performance was the same of the Random Forests model. The best chosen BART models, fitted in both the under sampling data base and the unbalanced data base, have had a better performance against the Random Forests model. However, the standard BART model presented similar results against Random Forests and we could not conclude which one was better than the other.	pt_BR
dc.format.extent	65 p.	pt_BR
dc.identifier.uri	https://repositorio.insper.edu.br/handle/11224/1720
dc.language.iso	Português	pt_BR
dc.rights.uri	TODOS OS DOCUMENTOS DESSA COLEÇÃO PODEM SER ACESSADOS, MANTENDO-SE OS DIREITOS DOS AUTORES PELA CITAÇÃO DA ORIGEM.	pt_BR
dc.subject	Escore de crédito	pt_BR
dc.subject	Aprendizado de máquina	pt_BR
dc.subject	Regressão logística	pt_BR
dc.subject	BART	pt_BR
dc.subject	Random forests	pt_BR
dc.subject	Credit scoring	pt_BR
dc.subject	Machine learning	pt_BR
dc.subject	Logistic regression	pt_BR
dc.title	Aplicação de árvores de regressão aditivas bayesianas no desenvolvimento de modelos de escore de crédito no Brasil	pt_BR
dc.type	master thesis
dspace.entity.type	Publication
local.contributor.boardmember	Barroso, Lúcia
local.contributor.boardmember	ANDREA MARIA ACCIOLY FONSECA MINARDI
local.type	Dissertação	pt_BR
relation.isAdvisorOfPublication	8b791c94-f3e5-4e04-af26-594195a8f576
relation.isAdvisorOfPublication.latestForDiscovery	8b791c94-f3e5-4e04-af26-594195a8f576
relation.isBoardMemberOfPublication	4f89a841-117c-473d-8798-96eb2d9ce1cf
relation.isBoardMemberOfPublication.latestForDiscovery	4f89a841-117c-473d-8798-96eb2d9ce1cf

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1

Nome:: DANIEL ALVES DE BRITO FILHO_Trabalho.pdf
Tamanho:: 1.53 MB
Formato:: Adobe Portable Document Format
Descrição:: TEXTO COMPLETO

Baixar

Licença do pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.71 KB
Formato:: Plain Text
Descrição:

Baixar

Coleções

Mestrado Profissional em Economia