NLP · Python · Hugging Face · Transformers

Analyse NLP multilingue de tweets — pipeline Hugging Face

Pipeline NLP complet sur des tweets multilingues (6 langues) — nettoyage, analyse de sentiments, reconnaissance d'entités nommées, traduction automatique et classification zero-shot avec des modèles Hugging Face pré-entraînés.

Python Hugging Face Transformers HappyTextToText Pandas Matplotlib
Voir sur GitHub Retour aux projets
NLP tweet analysis visualization

Contexte & Problème

Les réseaux sociaux génèrent chaque jour des milliards de messages en dizaines de langues différentes. Analyser ce volume de données textuelles nécessite des pipelines robustes capables de traiter plusieurs langues simultanément, d'extraire des informations structurées et de classifier automatiquement les contenus.

L'objectif de ce projet : construire un pipeline NLP complet capable de traiter des tweets en 6 langues (anglais, français, espagnol, allemand, néerlandais, italien) — de la collecte et du nettoyage jusqu'à l'analyse de sentiments, la reconnaissance d'entités et la classification thématique.


Approche méthodologique

1

Nettoyage des données

Suppression des URLs, mentions, hashtags et caractères spéciaux. Normalisation du texte et filtrage des tweets non pertinents.

2

Analyse exploratoire

Distribution des langues, analyse des hashtags les plus fréquents, profils horaires de publication.

3

Analyse de sentiments

Utilisation de modèles Transformers pré-entraînés pour classifier les sentiments (positif, négatif, neutre) dans chaque langue.

4

NER multilingue

Reconnaissance d'entités nommées (personnes, organisations, lieux) sur les tweets dans leur langue d'origine.

5

Traduction automatique

Traduction de tous les tweets vers l'anglais via HappyTextToText (modèle Helsinki-NLP) pour une analyse unifiée.

6

Classification zero-shot

Classification thématique des tweets traduits via DeBERTa sans entraînement spécifique — catégories définies librement par l'utilisateur.


Résultats clés

6
Langues traitées
3
Tâches NLP combinées
100%
Tweets traduits automatiquement
DeBERTa
Modèle zero-shot

Ce que j'ai appris


Limitations & Améliorations possibles