Utilisateur:Rachid BNK/Analyses textuelles (M2 D2SN, 2024)
Hello!
je suis Rachid, actuellement étudiant en master 2 data science et société numérique, à l'université Gustave Eiffel. Dans le cadre de notre cours de text mining, J'ai choisi ce dataset car il présente des données intéressantes qui sont pertinente pour une analyse de l'impact des titres sur l'engagement et les contributions sur les projets et cela en se concertant sur les mots liés à l'appel à l'action et à l'émotion
Pour ce projet , j'ai choisi d'analyser l'engagement dans les projets et l'impact des titres sur la réussite de projet sur Ulule.
Cette démarche s'effectue en plusieurs étapes:
1. Prétraitement des Données
Nettoyage : Suppression des données inutiles, correction des erreurs typographiques, et normalisation du texte (comme la mise en minuscule, la suppression de la ponctuation, etc.).
Tokenisation : Découpage du texte en mots ou en phrases pour simplifier l'analyse.
Analyse des mots-clés : Identification des mots les plus fréquents et pertinents, potentiellement en utilisant des techniques comme TF-IDF.
2. Analyse Exploratoire
Analyse des fréquences : Étudier la fréquence des mots dans les titres et leur corrélation avec la réussite des projets.
Visualiser les tendances et les patterns dans les données
3. Analyse de Sentiments
Détermination du sentiment : Analyser le sentiment des titres pour voir s’il y a une corrélation entre le sentiment exprimé et l'engagement ou la réussite des projets.
Analyse des titres :pour identifier les mots les plus fréquents et leur possible relation avec les indicateurs de réussite des projets (montant collecté, nombre de soutiens
modifier- Nettoyage du texte : Nous allons enlever la ponctuation et les caractères non alphabétiques, et mettre le texte en minuscules pour uniformiser les données.
- Tokenisation : Découpage des titres en mots individuels.
- Analyse de fréquence : Comptage des mots les plus fréquents dans l'ensemble des titres.
- Nuage de mots : Visualisation des mots les plus fréquents pour une interprétation visuelle rapide.,
Sur 47000 projets, les mots liés à l'appel à l'action et à l'émotion les plus fréquents dans les titres sont:
- "aidez" : 2397 occurrences
- "participez" : 1598 occurrences
- "découvrez" : 799 occurrences
- "soutenez" : 799 occurrences
La relation entre la présence de mots d'appel à l'action ou d'émotion et les indicateurs de réussite des projets :
- Projets sans mots d'action/émotion :
- Montant moyen collecté : 16,709.87 EUR
- Nombre moyen de soutiens : 351.67
- Projets avec mots d'action/émotion :
- Montant moyen collecté : 6,615.24 EUR
- Nombre moyen de soutiens : 142.66
Discussions de ces résultats: Ces résultats montrent que les projets qui n'utilisent pas spécifiquement des mots d'appel à l'action ou d'émotion dans leurs sous-titres ont tendance à collecter plus de fonds et à attirer plus de soutiens en moyenne. Cela pourrait suggérer que d'autres facteurs dans les sous-titres ou les titres des projets, ou même d'autres aspects des campagnes de crowdfunding, peuvent être plus influents dans l'engagement des contributeurs.
Analyse de sentiments sur les sous-titres des projets pour voir la tonalité générale:
Statistiques des Scores de Sentiment :
modifier- Moyenne : 0.027 (légèrement positif)
- Écart-type : 0.122
- Minimum : -0.200
- Maximum : 0.75
La plupart des sous-titres ont des scores autour de 0, indiquant un ton généralement neutre.
Observations :
modifier- La distribution montre que la majorité des sous-titres ont un sentiment neutre ou légèrement positif. Il y a très peu de sous-titres avec des sentiments fortement positifs ou négatifs.
- Cela pourrait suggérer que les sous-titres des projets de crowdfunding sont généralement écrits de manière informative plutôt qu'émotionnelle, peut-être pour transmettre clairement l'objectif du projet sans susciter de réactions émotionnelles extrêmes.
Explorations approfondie:
séparer les projets : plus réussis, moins réussis et non réussis.
Étapes à suivre:
modifier- Nettoyage des données : Prétraitement des titres pour supprimer la ponctuation, mettre en minuscule, etc.
- Tokenisation et filtrage : Tokeniser les titres et filtrer les mots non pertinents (connecteurs logiques, etc.).
- Analyse des mots émotionnels et d'appel à l'action .
- Résultats:
- Non Réussi : Sentiment moyen légèrement positif (0.014)
- Moyennement Réussi : Sentiment moyen légèrement négatif (-0.015)
- Réussi : Sentiment moyen presque neutre (0.004)
- Les sentiments des titres varient légèrement, avec les projets moyennement réussis ayant une tonalité légèrement négative, tandis que les projets réussis et non réussis ont des sentiments légèrement positifs ou neutres.
Les projets réussis utilisent des mots plus spécifiques et potentiellement plus pertinents dans leurs titres, en particulier liés aux livres et à l'art. De plus, bien que les sentiments des titres soient généralement neutres, il semble y avoir une légère différence entre les catégories, avec les projets moyennement réussis ayant une tonalité légèrement négative.
Analyse thématique des titres de projet:
Mise en œuvre
modifierPour mettre en œuvre cette analyse, nous pourrions suivre les étapes suivantes :
- Prétraitement des données : Nettoyage et préparation des titres de projet.
- Vectorisation des données : Transformation des titres en représentations numériques.
- Clustering ou Analyse de topics : Regroupement des titres en fonction de leurs similitudes thématiques.
- Interprétation des clusters ou topics : Analyse des groupes formés pour identifier les thèmes dominant
Résultats de l'analyse thématique des titres de projet
modifierCluster 1 - Livres et édition
modifier- Ce cluster contient principalement des titres liés à des livres, des éditions spéciales et des publications. Par exemple : "L'art de la cuisine", "Livre d'art", "Édition spéciale".
Cluster 2 - Projets artistiques
modifier- Ce cluster regroupe des titres associés à des projets artistiques, tels que des expositions, des photographies et des créations artistiques. Exemples : "Exposition photo", "Création artistique", "Photo créative".
Cluster 3 - Artisanat et créations
modifier- Ce cluster comprend des titres axés sur l'artisanat, les créations et les projets créatifs. Par exemple : "Créations en bois", "Artisanat d'art", "Bijoux uniques".
Cluster 4 - Musique et spectacles
modifier- Ce cluster rassemble des titres liés à la musique, aux spectacles et aux événements artistiques. Exemples : "Concert en plein air", "Spectacle musical", "Album de musique".
Cluster 5 - Projets divers
modifier- Ce cluster inclut des titres variés qui ne rentrent pas clairement dans les catégories précédentes. Il peut s'agir de projets communautaires, d'initiatives sociales, etc.
Résultats:
modifierL'analyse thématique des titres de projet sur Ulule a révélé plusieurs tendances dominantes :
- Les livres et l'édition semblent être un thème populaire, avec de nombreux projets centrés autour de la publication de livres et d'éditions spéciales.
- Les projets artistiques, y compris la photographie, les expositions et les créations artistiques, sont également fréquents.
- L'artisanat, les créations et les bijoux uniques sont un autre thème récurrent parmi les projets.
- La musique et les spectacles constituent un autre domaine important, avec des projets axés sur les concerts, les albums et les événements musicaux.
- Enfin, il existe une catégorie de projets divers qui ne rentrent pas dans les thèmes précédents.
En conclusion, l'analyse sur les titres de projets Ulule révèle plusieurs insights importants:
- Impact des mots d'action et d'émotion: Les mots d'appel à l'action et d'émotion ont une présence significative dans les titres des projets. Cependant, leur utilisation ne semble pas être fortement corrélée avec le succès financier ou le nombre de soutiens. Les projets qui n'utilisent pas ces mots tendent à collecter davantage de fonds et à attirer plus de soutiens en moyenne.
- Sentiment des titres: La plupart des titres ont un ton neutre ou légèrement positif, indiquant une approche plutôt informative que purement émotionnelle. Cela suggère que la communication des objectifs des projets est priorisée sans chercher à susciter des réactions émotionnelles fortes.
- Analyse thématique: L'analyse thématique des titres révèle cinq clusters principaux : livres et édition, projets artistiques, artisanat et créations, musique et spectacles, et une catégorie diversifiée de projets. Cette répartition met en lumière les tendances dominantes dans les types de projets lancés sur Ulule.
En somme, bien que les mots d'action et d'émotion soient fréquemment utilisés dans les titres de projets, d'autres facteurs tels que la thématique du projet semblent jouer un rôle plus important dans le succès financier et l'engagement des contributeurs. Les projets qui réussissent à communiquer clairement leur proposition de valeur et à s'aligner sur les intérêts des contributeurs potentiels sont plus susceptibles de connaître le succès, indépendamment de l'utilisation spécifique de mots d'appel à l'action ou d'émotion.