Machine Learning · Python · R · Marketing Analytics
Pipeline ML complet sur 80 000 clients d'un musée italien — préprocessing multi-sources en R, comparaison de 4 modèles de classification, tuning des hyperparamètres et optimisation d'une campagne marketing via une courbe de profit.
Le secteur muséal fait face à un défi majeur : retenir ses abonnés d'une année sur l'autre. Pour un musée italien disposant d'une base de 80 000 clients, prédire qui va renouveler son abonnement et qui va churner est crucial pour cibler efficacement les actions marketing.
L'objectif de ce projet : construire un modèle de prédiction du churn capable d'identifier les clients à risque, puis utiliser ces prédictions pour optimiser une campagne de relance par téléphone — en maximisant le profit tout en minimisant les coûts d'appel.
Nettoyage et fusion de 3 bases de données (clients, visites, abonnements) en R, traitement des valeurs manquantes et aberrantes, encodage des variables binaires.
Tests statistiques pour identifier les variables les plus pertinentes pour la prédiction de churn.
Entraînement de 4 modèles de classification : Logistic Regression, Decision Tree, Random Forest, XGBoost.
Optimisation des paramètres de chaque modèle via GridSearch et validation croisée.
Comparaison des performances via courbes ROC et matrices de confusion.
Calcul du profit net selon le pourcentage de population ciblée par la campagne d'appels.