NLP · Python · Hugging Face · Transformers
Pipeline NLP complet sur des tweets multilingues (6 langues) — nettoyage, analyse de sentiments, reconnaissance d'entités nommées, traduction automatique et classification zero-shot avec des modèles Hugging Face pré-entraînés.
Les réseaux sociaux génèrent chaque jour des milliards de messages en dizaines de langues différentes. Analyser ce volume de données textuelles nécessite des pipelines robustes capables de traiter plusieurs langues simultanément, d'extraire des informations structurées et de classifier automatiquement les contenus.
L'objectif de ce projet : construire un pipeline NLP complet capable de traiter des tweets en 6 langues (anglais, français, espagnol, allemand, néerlandais, italien) — de la collecte et du nettoyage jusqu'à l'analyse de sentiments, la reconnaissance d'entités et la classification thématique.
Suppression des URLs, mentions, hashtags et caractères spéciaux. Normalisation du texte et filtrage des tweets non pertinents.
Distribution des langues, analyse des hashtags les plus fréquents, profils horaires de publication.
Utilisation de modèles Transformers pré-entraînés pour classifier les sentiments (positif, négatif, neutre) dans chaque langue.
Reconnaissance d'entités nommées (personnes, organisations, lieux) sur les tweets dans leur langue d'origine.
Traduction de tous les tweets vers l'anglais via HappyTextToText (modèle Helsinki-NLP) pour une analyse unifiée.
Classification thématique des tweets traduits via DeBERTa sans entraînement spécifique — catégories définies librement par l'utilisateur.