Machine Learning · Python · Geospatial Analytics

Prédiction des prix immobiliers — benchmark ML et clustering géospatial

Comparaison de 11 modèles de régression sur les données immobilières californiennes, clustering KMeans géospatial sur 50 zones, et carte Folium interactive affichant le meilleur modèle prédictif par région.

Python Scikit-learn XGBoost KMeans Folium Pandas Seaborn
Voir sur GitHub Retour aux projets
House price prediction visualization

Contexte & Problème

Le marché immobilier californien est l'un des plus complexes au monde. La valeur d'un bien dépend de multiples facteurs : revenus médians, proximité à l'océan, densité de population, âge des logements. Construire un modèle de prédiction fiable est difficile car aucun modèle ne fonctionne uniformément bien sur toutes les zones géographiques.

L'objectif de ce projet : benchmarker 11 modèles de régression sur le dataset California Housing, puis identifier le meilleur modèle prédictif par zone géographique en combinant Machine Learning et clustering géospatial.


Approche méthodologique

1

Préprocessing

Nettoyage du dataset, gestion des valeurs manquantes, encodage des variables catégorielles (ocean_proximity), normalisation des features.

2

Analyse exploratoire

Visualisations des distributions, matrices de corrélation, scatter plots pour identifier les relations clés entre variables.

3

Modélisation

Entraînement de 11 modèles : Linear Regression, Ridge, ElasticNet, KNN, SVR, Decision Tree, Random Forest, Gradient Boosting, XGBoost, ANN (MLP), Polynomial Regression.

4

Évaluation

Comparaison des modèles via RMSE et R² avec validation croisée.

5

Clustering géospatial

Regroupement des logements en 50 clusters via KMeans basé sur la longitude et la latitude.

6

Carte Folium interactive

Visualisation cartographique du meilleur modèle prédictif pour chaque cluster géographique.


Résultats clés

0.59
R² Gradient Boosting (meilleur modèle global)
73 345 $
RMSE Gradient Boosting (prix médian ~179 700 $)
11
Modèles benchmarkés
50
Clusters géospatiaux

Ce que j'ai appris


Limitations & Améliorations possibles