NLP Tweets — Khalid Naser

Contexte & Problème

Les réseaux sociaux génèrent chaque jour des milliards de messages en dizaines de langues différentes. Analyser ce volume de données textuelles nécessite des pipelines robustes capables de traiter plusieurs langues simultanément, d'extraire des informations structurées et de classifier automatiquement les contenus.

L'objectif de ce projet : construire un pipeline NLP complet capable de traiter des tweets en 6 langues (anglais, français, espagnol, allemand, néerlandais, italien) — de la collecte et du nettoyage jusqu'à l'analyse de sentiments, la reconnaissance d'entités et la classification thématique.

Approche méthodologique

1

Nettoyage des données

Suppression des URLs, mentions, hashtags et caractères spéciaux. Normalisation du texte et filtrage des tweets non pertinents.

2

Analyse exploratoire

Distribution des langues, analyse des hashtags les plus fréquents, profils horaires de publication.

3

Analyse de sentiments

Utilisation de modèles Transformers pré-entraînés pour classifier les sentiments (positif, négatif, neutre) dans chaque langue.

4

NER multilingue

Reconnaissance d'entités nommées (personnes, organisations, lieux) sur les tweets dans leur langue d'origine.

5

Traduction automatique

Traduction de tous les tweets vers l'anglais via HappyTextToText (modèle Helsinki-NLP) pour une analyse unifiée.

6

Classification zero-shot

Classification thématique des tweets traduits via DeBERTa sans entraînement spécifique — catégories définies librement par l'utilisateur.

Résultats clés

6

Langues traitées

3

Tâches NLP combinées

100%

Tweets traduits automatiquement

DeBERTa

Modèle zero-shot

Ce que j'ai appris

Utilisation et chaînage de modèles pré-entraînés Hugging Face pour des tâches NLP complexes.
Gestion du multilinguisme dans un pipeline de traitement de texte.
Classification zero-shot : classifier sans données d'entraînement spécifiques grâce aux LLMs.
Traduction automatique neuronale avec Helsinki-NLP.
Extraction d'entités nommées sur des textes bruités (tweets).

Limitations & Améliorations possibles

Les modèles pré-entraînés ne sont pas fine-tunés sur des données Twitter — leur performance sur du langage familier, des abréviations et des emojis est limitée.
La traduction automatique introduit des erreurs qui peuvent fausser la classification zero-shot.
Intégrer l'API Twitter/X en temps réel pour des analyses live.
Fine-tuner un modèle de sentiment sur des données Twitter annotées pour améliorer la précision.
Ajouter une interface Streamlit pour rendre le pipeline accessible sans code.