Machine Learning · Python · Geospatial Analytics
Comparaison de 11 modèles de régression sur les données immobilières californiennes, clustering KMeans géospatial sur 50 zones, et carte Folium interactive affichant le meilleur modèle prédictif par région.
Le marché immobilier californien est l'un des plus complexes au monde. La valeur d'un bien dépend de multiples facteurs : revenus médians, proximité à l'océan, densité de population, âge des logements. Construire un modèle de prédiction fiable est difficile car aucun modèle ne fonctionne uniformément bien sur toutes les zones géographiques.
L'objectif de ce projet : benchmarker 11 modèles de régression sur le dataset California Housing, puis identifier le meilleur modèle prédictif par zone géographique en combinant Machine Learning et clustering géospatial.
Nettoyage du dataset, gestion des valeurs manquantes, encodage des variables catégorielles (ocean_proximity), normalisation des features.
Visualisations des distributions, matrices de corrélation, scatter plots pour identifier les relations clés entre variables.
Entraînement de 11 modèles : Linear Regression, Ridge, ElasticNet, KNN, SVR, Decision Tree, Random Forest, Gradient Boosting, XGBoost, ANN (MLP), Polynomial Regression.
Comparaison des modèles via RMSE et R² avec validation croisée.
Regroupement des logements en 50 clusters via KMeans basé sur la longitude et la latitude.
Visualisation cartographique du meilleur modèle prédictif pour chaque cluster géographique.