Uma instituição financeira precisa de um método eficiente para avaliar o risco de inadimplência de seus clientes. A análise manual é lenta e subjetiva, resultando em perdas financeiras por concessão de crédito a clientes de alto risco e perda de oportunidades ao negar clientes com bom potencial. O desafio é criar um modelo que possa prever a probabilidade de inadimplência de forma rápida e precisa.
Desenvolvimento de um pipeline de Machine Learning para classificação de clientes em "bons" ou "maus" pagadores. A solução aborda o ciclo completo de um projeto de Data Science:
- ETL e Pré-processamento: Carga, limpeza e transformação dos dados para prepará-los para a modelagem.
- Análise Exploratória (EDA): Investigação dos dados para entender as variáveis e suas relações com a inadimplência.
- Modelagem e Avaliação: Treinamento de dois modelos de classificação — uma Regressão Logística como baseline e um LightGBM como modelo final — e avaliação de sua performance com métricas adequadas (AUC e Acurácia) para otimizar a tomada de decisão.
O projeto foi realizado com dados reais da competição Home Credit - Credit Risk Model Stability da plataforma Kaggle.
- Linguagem & Bibliotecas Principais: Python (Pandas, Numpy, Scikit-learn, LightGBM, Matplotlib, Seaborn)
- Ambiente de Desenvolvimento: Jupyter Notebook
O projeto resultou em um modelo final (LightGBM) com boa capacidade preditiva (AUC de 0.73) e em dois entregáveis que documentam todo o processo técnico e estratégico. O principal insight do modelo é visualizado abaixo.
A análise de correlação das variáveis revelou que atrasos recentes em pagamentos (mesmo de 1-6 dias) e comportamentos proativos de quitação antecipada são os indicadores mais fortes para predição de inadimplência. As variáveis relacionadas a atrasos apresentam correlação positiva com o risco, enquanto pagamentos antecipados mostram correlação negativa, fornecendo um direcionamento claro e actionable para a estratégia de aprovação de crédito da companhia.
Correlações com o target de inadimplência: barras azuis representam fatores protetivos (pagamentos antecipados, valores médios maiores) que reduzem o risco, enquanto barras vermelhas indicam fatores de risco (atrasos de 1-6 dias, histórico de atrasos) que aumentam a probabilidade de inadimplência.Tentar novamenteO Claude pode cometer erros. Confira sempre as respostas.
-
Relatório Executivo (PDF): Um resumo de alto nível focado nos resultados de negócio, ideal para stakeholders.
-
Jupyter Notebook (Análise Técnica Profunda): O "coração" do projeto, documentando passo a passo toda a jornada técnica, da análise exploratória (EDA) à interpretação do modelo.
- Clone o repositório:
git clone [https://github.com/felipecsr/ml-risco-credito-simplificado.git](https://github.com/felipecsr/ml-risco-credito-simplificado.git) cd ml-risco-credito-simplificado - Instale as dependências:
pip install -r requirements.txt
- Execute o Notebook:
Abra e execute o arquivo
modelo_risco_credito.ipynblocalizado na pastanotebook/em um ambiente Jupyter.
Felipe Reis | LinkedIn | GitHub
Este projeto foi desenvolvido como um case completo para aplicar e demonstrar competências no ciclo de vida de projetos de Machine Learning, desde a preparação dos dados até a comunicação de resultados para o negócio.