House Price Prediction — Khalid Naser

Contexte & Problème

Le marché immobilier californien est l'un des plus complexes au monde. La valeur d'un bien dépend de multiples facteurs : revenus médians, proximité à l'océan, densité de population, âge des logements. Construire un modèle de prédiction fiable est difficile car aucun modèle ne fonctionne uniformément bien sur toutes les zones géographiques.

L'objectif de ce projet : benchmarker 11 modèles de régression sur le dataset California Housing, puis identifier le meilleur modèle prédictif par zone géographique en combinant Machine Learning et clustering géospatial.

Approche méthodologique

1

Préprocessing

Nettoyage du dataset, gestion des valeurs manquantes, encodage des variables catégorielles (ocean_proximity), normalisation des features.

2

Analyse exploratoire

Visualisations des distributions, matrices de corrélation, scatter plots pour identifier les relations clés entre variables.

3

Modélisation

Entraînement de 11 modèles : Linear Regression, Ridge, ElasticNet, KNN, SVR, Decision Tree, Random Forest, Gradient Boosting, XGBoost, ANN (MLP), Polynomial Regression.

4

Évaluation

Comparaison des modèles via RMSE et R² avec validation croisée.

5

Clustering géospatial

Regroupement des logements en 50 clusters via KMeans basé sur la longitude et la latitude.

6

Carte Folium interactive

Visualisation cartographique du meilleur modèle prédictif pour chaque cluster géographique.

Résultats clés

0.59

R² Gradient Boosting (meilleur modèle global)

73 345 $

RMSE Gradient Boosting (prix médian ~179 700 $)

11

Modèles benchmarkés

50

Clusters géospatiaux

Ce que j'ai appris

Benchmark rigoureux de modèles ML avec validation croisée.
Importance de combiner Machine Learning et clustering pour des prédictions spatialement adaptées.
Création de visualisations cartographiques interactives avec Folium.
Pas de « modèle universellement meilleur » — la performance dépend du contexte géographique.

Limitations & Améliorations possibles

Le R² maximal de 0.59 indique une marge d'amélioration importante — l'ajout de features externes (taux d'imposition, qualité des écoles, criminalité) pourrait significativement booster la précision.
Le dataset date des années 90, des données plus récentes amélioreraient la pertinence.
Tester des approches Deep Learning (réseaux de neurones spatiaux) pour capturer les patterns géographiques complexes.
Déployer le modèle via une API REST avec une interface web interactive pour des prédictions en temps réel.