Skip to content

felipecsr/ml-risco-credito-simplificado

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

12 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Python Scikit-learn LightGBM Status

📊 Modelo Preditivo para Análise de Risco de Crédito


💥 O Problema de Negócio

Uma instituição financeira precisa de um método eficiente para avaliar o risco de inadimplência de seus clientes. A análise manual é lenta e subjetiva, resultando em perdas financeiras por concessão de crédito a clientes de alto risco e perda de oportunidades ao negar clientes com bom potencial. O desafio é criar um modelo que possa prever a probabilidade de inadimplência de forma rápida e precisa.


🎯 A Solução Proposta

Desenvolvimento de um pipeline de Machine Learning para classificação de clientes em "bons" ou "maus" pagadores. A solução aborda o ciclo completo de um projeto de Data Science:

  1. ETL e Pré-processamento: Carga, limpeza e transformação dos dados para prepará-los para a modelagem.
  2. Análise Exploratória (EDA): Investigação dos dados para entender as variáveis e suas relações com a inadimplência.
  3. Modelagem e Avaliação: Treinamento de dois modelos de classificação — uma Regressão Logística como baseline e um LightGBM como modelo final — e avaliação de sua performance com métricas adequadas (AUC e Acurácia) para otimizar a tomada de decisão.

O projeto foi realizado com dados reais da competição Home Credit - Credit Risk Model Stability da plataforma Kaggle.


🛠️ Tecnologias Utilizadas

  • Linguagem & Bibliotecas Principais: Python (Pandas, Numpy, Scikit-learn, LightGBM, Matplotlib, Seaborn)
  • Ambiente de Desenvolvimento: Jupyter Notebook

✅ Análise Completa, Resultados e Entregáveis

O projeto resultou em um modelo final (LightGBM) com boa capacidade preditiva (AUC de 0.73) e em dois entregáveis que documentam todo o processo técnico e estratégico. O principal insight do modelo é visualizado abaixo.

Principal Insight: Fatores Determinantes de Risco

A análise de correlação das variáveis revelou que atrasos recentes em pagamentos (mesmo de 1-6 dias) e comportamentos proativos de quitação antecipada são os indicadores mais fortes para predição de inadimplência. As variáveis relacionadas a atrasos apresentam correlação positiva com o risco, enquanto pagamentos antecipados mostram correlação negativa, fornecendo um direcionamento claro e actionable para a estratégia de aprovação de crédito da companhia.

Gráfico de Importância das Variáveis Correlações com o target de inadimplência: barras azuis representam fatores protetivos (pagamentos antecipados, valores médios maiores) que reduzem o risco, enquanto barras vermelhas indicam fatores de risco (atrasos de 1-6 dias, histórico de atrasos) que aumentam a probabilidade de inadimplência.Tentar novamenteO Claude pode cometer erros. Confira sempre as respostas.

Para uma análise mais aprofundada, acesse os entregáveis completos:


🚀 Como Executar o Projeto

  1. Clone o repositório:
    git clone [https://github.com/felipecsr/ml-risco-credito-simplificado.git](https://github.com/felipecsr/ml-risco-credito-simplificado.git)
    cd ml-risco-credito-simplificado
  2. Instale as dependências:
    pip install -r requirements.txt
  3. Execute o Notebook: Abra e execute o arquivo modelo_risco_credito.ipynb localizado na pasta notebook/ em um ambiente Jupyter.

👨‍💻 Autor

Felipe Reis | LinkedIn | GitHub

Este projeto foi desenvolvido como um case completo para aplicar e demonstrar competências no ciclo de vida de projetos de Machine Learning, desde a preparação dos dados até a comunicação de resultados para o negócio.

About

Data Science em Ação: Análise de risco de crédito com Machine Learning, da EDA à apresentação de resultados.

Topics

Resources

License

Stars

Watchers

Forks

Contributors