Churn Prediction — Khalid Naser

Contexte & Problème

Le secteur muséal fait face à un défi majeur : retenir ses abonnés d'une année sur l'autre. Pour un musée italien disposant d'une base de 80 000 clients, prédire qui va renouveler son abonnement et qui va churner est crucial pour cibler efficacement les actions marketing.

L'objectif de ce projet : construire un modèle de prédiction du churn capable d'identifier les clients à risque, puis utiliser ces prédictions pour optimiser une campagne de relance par téléphone — en maximisant le profit tout en minimisant les coûts d'appel.

Approche méthodologique

1

Préprocessing R

Nettoyage et fusion de 3 bases de données (clients, visites, abonnements) en R, traitement des valeurs manquantes et aberrantes, encodage des variables binaires.

2

Sélection de features

Tests statistiques pour identifier les variables les plus pertinentes pour la prédiction de churn.

3

Modélisation

Entraînement de 4 modèles de classification : Logistic Regression, Decision Tree, Random Forest, XGBoost.

4

Tuning hyperparamètres

Optimisation des paramètres de chaque modèle via GridSearch et validation croisée.

5

Évaluation ROC/AUC

Comparaison des performances via courbes ROC et matrices de confusion.

6

Courbe de profit

Calcul du profit net selon le pourcentage de population ciblée par la campagne d'appels.

Résultats clés

75.32%

Accuracy XGBoost

0.78

AUC-ROC XGBoost

30%

Population à cibler pour maximiser le profit

4

Modèles comparés

Ce que j'ai appris

Préprocessing avancé sur données réelles avec valeurs manquantes et aberrantes.
Comparaison rigoureuse de modèles de classification avec validation croisée.
Construction et interprétation d'une courbe de profit métier.
Importance du choix d'un modèle adapté à la problématique business, pas seulement aux métriques techniques.

Limitations & Améliorations possibles

Le Random Forest a tendance à classer fortement les non-churners, mais peine à identifier les vrais churners — un déséquilibre à corriger via SMOTE ou pondération des classes.
L'ajout de variables comportementales (fréquence de visite récente, événements consultés) pourrait améliorer la prédiction.
Tester des modèles plus avancés comme LightGBM ou CatBoost pour améliorer l'AUC.
Mettre en production le modèle via une API et l'intégrer à un dashboard décisionnel.