Movie Recommendation — Khalid Naser

Contexte & Problème

Les plateformes de streaming comme Netflix ou Prime Video utilisent des systèmes de recommandation sophistiqués pour suggérer des contenus adaptés à chaque utilisateur. Ces systèmes combinent généralement deux approches : le filtrage basé sur le contenu (similarité entre films) et le filtrage collaboratif (préférences d'utilisateurs similaires).

L'objectif de ce projet : construire de zéro un système de recommandation de films en deux parties — un moteur de recherche par similarité textuelle via TF-IDF, et un système de filtrage collaboratif basé sur les notes et préférences d'utilisateurs similaires, le tout avec une interface desktop Tkinter.

Approche méthodologique

1

Web scraping IMDB

Collecte automatisée des données de films depuis IMDB avec Selenium (navigation dynamique) et BeautifulSoup (parsing HTML) — titres, genres, descriptions, notes, acteurs.

2

Construction de la matrice TF-IDF

Vectorisation des descriptions et métadonnées des films via TF-IDF (Term Frequency-Inverse Document Frequency) pour mesurer la similarité textuelle entre films.

3

Moteur de recherche par similarité

Calcul de la similarité cosinus entre le film recherché et tous les films de la base — retourne les N films les plus similaires.

4

Filtrage collaboratif

Identification des utilisateurs ayant des préférences similaires via un score combiné (MRS/MRA) — recommande les films bien notés par des utilisateurs proches du profil cible.

5

Interface Tkinter

Interface graphique desktop permettant de saisir un titre, visualiser les recommandations et naviguer entre les deux modes (recherche par similarité / filtrage collaboratif).

Résultats clés

2

Approches combinées (TF-IDF + Filtrage collaboratif)

2

Sources de données (IMDB films + ratings utilisateurs)

3

Composants du système (Scraping + Moteur + Interface)

100%

Système construit from scratch

Ce que j'ai appris

Web scraping dynamique avec Selenium sur un site protégé contre le scraping.
Construction et interprétation d'une matrice TF-IDF pour la similarité textuelle.
Implémentation d'un système de filtrage collaboratif from scratch.
Développement d'une interface graphique desktop avec Tkinter.
Combinaison de deux approches de recommandation complémentaires.

Limitations & Améliorations possibles

IMDB bloque régulièrement le scraping — utiliser l'API officielle IMDB ou le dataset MovieLens serait plus stable.
Le filtrage collaboratif est limité par la taille du dataset de ratings — plus de données améliorerait les recommandations.
Déployer le système en application web avec Flask ou Streamlit pour le rendre accessible en ligne.
Intégrer des images de couverture et des liens vers les bandes-annonces dans l'interface.
Ajouter un système d'authentification pour sauvegarder les préférences utilisateur.