Analyse des sentiments

Réactions sur Twitter lors de la levée de fonds Big English de 2015

L'analyse des sentiments (également appelée analyse d'opinions ) consiste à utiliser le traitement automatique du langage naturel , l'analyse textuelle , la linguistique informatique et la biométrie pour identifier, extraire, quantifier et étudier systématiquement les états affectifs et les informations subjectives. Elle est largement appliquée aux données reflétant la voix du client, telles que les avis et les réponses aux enquêtes, les médias en ligne et sociaux, ainsi que les documents relatifs à la santé, pour des applications allant du marketing au service client en passant par la médecine clinique. Grâce à l'essor des modèles de langage profonds, comme RoBERTa , il est possible d'analyser des domaines de données plus complexes, par exemple les articles de presse où les auteurs expriment généralement leurs opinions/sentiments de manière moins explicite.

l'état psychologique d'une personne sur la base de l'analyse de son comportement verbal.

Par la suite, la méthode décrite dans un brevet déposé par Volcani et Fogel s'est intéressée plus particulièrement au sentiment et a identifié des mots et expressions spécifiques dans un texte en fonction de différentes échelles émotionnelles. Un système actuel, basé sur leurs travaux et appelé EffectCheck, propose des synonymes permettant de moduler l'intensité de l'émotion suscitée sur chaque échelle.

De nombreuses études ultérieures, moins sophistiquées, se sont contentées d'une vision binaire du sentiment, du positif au négatif. C'est le cas des travaux de Turney et Pang , qui ont appliqué des méthodes différentes pour détecter la polarité des avis sur les produits et les films, respectivement. Ces travaux se situent au niveau du document. Il est également possible de classer la polarité d'un document sur une échelle multidimensionnelle, comme l'ont tenté Pang et Snyder , entre autres. Pang et Lee ont étendu la tâche de base consistant à classer une critique de film comme positive ou négative afin de prédire les notes attribuées sur une échelle de 3 ou 4 étoiles, tandis que Snyder a réalisé une analyse approfondie des avis sur les restaurants, prédisant les notes pour différents aspects de l'établissement, tels que la nourriture et l'ambiance (sur une échelle de 5 étoiles).

Les premiers pas vers la mise en commun de diverses approches (apprentissage, lexicales, basées sur les connaissances, etc.) ont été franchis lors du symposium de printemps de l'AAAI de 2004 , où des linguistes, des informaticiens et d'autres chercheurs intéressés ont aligné leurs intérêts et proposé des tâches partagées et des ensembles de données de référence pour la recherche informatique systématique sur l'affect, l'attrait, la subjectivité et le sentiment dans le texte.

Bien que la plupart des méthodes de classification statistique ignorent la classe neutre, partant du principe que les textes neutres se situent à la limite de la classification binaire, plusieurs chercheurs suggèrent que, comme pour tout problème de polarité, il est nécessaire d'identifier trois catégories. De plus, il a été démontré que certains classificateurs, tels que l' entropie maximale et les SVM peuvent tirer profit de l'introduction d'une classe neutre et améliorer la précision globale de la classification. Il existe en principe deux manières de gérer une classe neutre. Soit l'algorithme identifie d'abord le langage neutre, le filtre, puis évalue le reste en termes de sentiments positifs et négatifs ; soit il établit une classification ternaire en une seule étape . Cette seconde approche implique souvent l'estimation d'une distribution de probabilité sur l'ensemble des catégories (par exemple, les classificateurs naïfs bayésiens implémentés dans NLTK ). L’opportunité et les modalités d’utilisation d’une classe neutre dépendent de la nature des données : si celles-ci se répartissent clairement en langage neutre, négatif et positif, il est judicieux d’éliminer le langage neutre et de se concentrer sur la polarité entre sentiments positifs et négatifs. En revanche, si les données sont majoritairement neutres avec de faibles variations vers des affects positifs ou négatifs, cette stratégie rendrait plus difficile la distinction nette entre les deux pôles.

Une autre méthode pour déterminer le sentiment consiste à utiliser un système d'échelle. Les mots généralement associés à un sentiment négatif, neutre ou positif se voient attribuer un nombre sur une échelle de -10 à +10 (du plus négatif au plus positif) ou simplement de 0 à une limite supérieure positive, par exemple +4. Cela permet d'ajuster le sentiment d'un terme donné en fonction de son contexte (généralement au niveau de la phrase). Lorsqu'un texte non structuré est analysé par traitement automatique du langage naturel , chaque concept de son environnement se voit attribuer un score en fonction de la manière dont les mots exprimant un sentiment sont liés au concept et à son score associé. Ceci permet une compréhension plus fine du sentiment, car il est désormais possible d'ajuster la valeur sentimentale d'un concept en fonction des modifications qui l'entourent. Par exemple, les mots qui intensifient, atténuent ou nient le sentiment exprimé par le concept peuvent influencer son score. On peut également attribuer aux textes un score de force de sentiment positif ou négatif si l'objectif est de déterminer le sentiment présent dans un texte plutôt que sa polarité et son intensité globales.

Il existe d'autres types d'analyse des sentiments, tels que l'analyse des sentiments basée sur les aspects, l'analyse des sentiments par notation (positif, négatif, neutre), l'analyse des sentiments multilingue et la détection des émotions.

Identification de la subjectivité/objectivité

Cette tâche consiste généralement à classer un texte donné (généralement une phrase) dans l'une des deux catégories suivantes : objectif ou subjectif. Ce problème peut parfois s'avérer plus complexe que la classification de polarité. La subjectivité des mots et des expressions peut dépendre de leur contexte, et un document objectif peut contenir des phrases subjectives (par exemple, un article de presse citant des opinions). De plus, comme le souligne Su, les résultats dépendent fortement de la définition de la subjectivité utilisée lors de l'annotation des textes. Cependant, Pang a démontré que la suppression des phrases objectives d'un document avant la classification de sa polarité permettait d'améliorer les performances.

apprentissage supervisé et non supervisé . L'extraction de schémas par apprentissage automatique, appliquée à des textes annotés et non annotés, a fait l'objet de nombreuses recherches universitaires.

Cependant, les chercheurs ont identifié plusieurs difficultés liées à l'élaboration de règles fixes et pertinentes pour les expressions. Ces difficultés proviennent en grande partie de la nature même de l'information textuelle. Six défis ont été recensés : 1) les expressions métaphoriques, 2) les divergences entre les textes, 3) la sensibilité au contexte, 4) la rareté des mots représentés, 5) la sensibilité au facteur temps et 6) le volume croissant de données.

Expressions métaphoriques. La présence d'expressions métaphoriques dans le texte peut influencer les performances d'extraction. De plus, les métaphores peuvent prendre différentes formes, ce qui a pu contribuer à l'amélioration de la détection.
Discrépances dans les textes. Pour les textes obtenus sur Internet, les divergences de style d'écriture des données textuelles ciblées impliquent des genres et des styles d'écriture distincts.
Sensible au contexte. La classification peut varier en fonction de la subjectivité ou de l'objectivité des phrases précédentes et suivantes.
Caractère temporel de certaines données textuelles. La tâche est complexifiée par le caractère temporel de certaines données textuelles. Si un groupe de chercheurs souhaite confirmer une information parue dans la presse, il a besoin d'un délai plus long pour la validation croisée, au-delà duquel l'information devient obsolète.
Mots clés moins fréquents.
Volume sans cesse croissant. La tâche est également complexifiée par le volume considérable de données textuelles. Cette croissance exponentielle rend la tâche extrêmement difficile à mener à bien dans les délais impartis.

Auparavant, les recherches portaient principalement sur la classification au niveau du document. Cependant, cette méthode manque de précision, car un article peut contenir divers types d'expressions. Les données suggéraient qu'un ensemble d'articles de presse était censé être dominé par l'expression objective, alors que les résultats montrent qu'il contenait plus de 40 % d'expressions subjectives.

Pour surmonter ces difficultés, les chercheurs concluent que l'efficacité d'un classificateur dépend de la précision des modèles qu'il apprend. Les classificateurs alimentés par de grands volumes de données d'entraînement annotées surpassent ceux entraînés sur des caractéristiques subjectives moins exhaustives. Cependant, l'un des principaux obstacles à la réalisation de ce type de travaux est la génération manuelle d'un vaste ensemble de données de phrases annotées. La méthode d'annotation manuelle est moins privilégiée que l'apprentissage automatique pour trois raisons :

Variations dans la compréhension. Lors de l'annotation manuelle, des désaccords peuvent survenir entre les annotateurs quant au caractère subjectif ou objectif d'une instance, en raison de l'ambiguïté des langues.
Erreurs humaines. L'annotation manuelle est une tâche méticuleuse qui exige une concentration intense pour être menée à bien.
L’annotation manuelle est une tâche fastidieuse et chronophage. Riloff (1996) montre qu’il faut 8 heures à un annotateur pour annoter 160 textes.

Toutes ces raisons peuvent influencer l'efficacité des classifications subjectives et objectives. C'est pourquoi deux méthodes d'amorçage ont été conçues pour apprendre des structures linguistiques à partir de données textuelles non annotées. Ces deux méthodes utilisent un nombre restreint de mots-clés initiaux et des données textuelles non annotées.

Meta-bootstrapping de Riloff et Jones (1999 ) Niveau 1 : Générer des modèles d’extraction à partir de règles prédéfinies et des modèles extraits en fonction du nombre de mots-clés qu’ils contiennent. Niveau 2 : Les 5 mots les plus fréquents sont sélectionnés et ajoutés au dictionnaire. Répéter l’opération.
Basilisk ( Approche d' amorçage de l' induction de lexique sémantique par la connaissance sémantique ) de Thelen et Riloff. Étape 1 : Générer des modèles d'extraction. Étape 2 : Déplacer les meilleurs modèles du pool de modèles vers le pool de mots candidats. Étape 3 : Les 10 meilleurs mots seront marqués et ajoutés au dictionnaire. Répéter.

Globalement, ces algorithmes soulignent la nécessité d'une reconnaissance et d'une extraction automatiques de modèles dans les tâches subjectives et objectives.

Les classificateurs subjectifs et objectifs peuvent améliorer de nombreuses applications du traitement automatique du langage naturel. L'un de leurs principaux avantages est d'avoir popularisé les processus de décision fondés sur les données dans divers secteurs. Selon Liu, l'identification subjective et objective a été mise en œuvre dans les domaines du commerce, de la publicité, du sport et des sciences sociales.

Classification des avis en ligne : Dans le secteur commercial, le système de classification aide l’entreprise à mieux comprendre les commentaires sur les produits et les raisons qui sous-tendent ces avis.
Prédiction du cours des actions : Dans le secteur financier, le classificateur aide le modèle de prédiction en traitant des informations auxiliaires provenant des médias sociaux et d’autres informations textuelles disponibles sur Internet. Des études antérieures sur le cours des actions japonaises, menées par Dong et al., indiquent qu’un modèle comportant un module subjectif et un module objectif peut être plus performant qu’un modèle qui en est dépourvu.
Analyse des médias sociaux.
Classification des commentaires des étudiants.
Synthèse de documents : Le classificateur peut extraire les commentaires ciblés et recueillir les opinions émises par une entité particulière.
Réponse aux questions complexes. Le classificateur peut analyser les questions complexes en classant le sujet ou l'objectif linguistique et la cible visée. Dans l'étude de Yu et al. (2003), les chercheurs ont développé un système de regroupement au niveau de la phrase et du document permettant d'identifier les textes d'opinion.
Applications spécifiques à un domaine.
Analyse des courriels : Le classificateur subjectif et objectif détecte les spams en traçant les schémas linguistiques avec les mots cibles.

Basé sur les fonctionnalités/aspects

Il s'agit de déterminer les opinions ou les sentiments exprimés sur différentes caractéristiques ou aspects d'entités, par exemple un téléphone portable, un appareil photo numérique ou une banque. Une caractéristique ou un aspect est un attribut ou un composant d'une entité, par exemple l'écran d'un téléphone portable, le service d'un restaurant ou la qualité d'image d'un appareil photo. L'avantage de l'analyse des sentiments basée sur les caractéristiques est la possibilité de saisir les nuances concernant les objets d'intérêt. Différentes caractéristiques peuvent générer différentes réponses émotionnelles ; par exemple, un hôtel peut avoir un emplacement pratique, mais une nourriture médiocre. Ce problème comprend plusieurs sous-problèmes, tels que l'identification des entités pertinentes, l'extraction de leurs caractéristiques/aspects et la détermination du caractère positif, négatif ou neutre de l'opinion exprimée sur chaque caractéristique/aspect. L'identification automatique des caractéristiques peut être réalisée par des méthodes syntaxiques, par modélisation thématique ou par apprentissage profond . Des discussions plus détaillées sur ce niveau d'analyse des sentiments sont disponibles dans les travaux de Liu.

Classement d'intensité

Les émotions et les sentiments sont subjectifs par nature. Le degré d'émotions/sentiments exprimés dans un texte donné, au niveau du document, de la phrase ou d'un élément/aspect (c'est-à-dire l'intensité de l'opinion exprimée à propos d'un document, d'une phrase ou d'une entité), varie selon les cas. Cependant, la simple prédiction de l'émotion et du sentiment ne fournit pas toujours une information complète. Le degré ou le niveau des émotions et des sentiments joue souvent un rôle crucial dans la compréhension précise du sentiment au sein d'une même catégorie (par exemple, « bien » versus « génial »). Certaines méthodes exploitent une approche d'ensemble empilée pour prédire l'intensité des émotions et des sentiments en combinant les résultats obtenus et en utilisant des modèles d'apprentissage profond basés sur des réseaux de neurones convolutifs , des réseaux LSTM (Long Short-Term Memory) et des GRU (Gated Recurrent Units) .

Méthodes et fonctionnalités

Les approches existantes en analyse des sentiments peuvent être regroupées en trois grandes catégories : les techniques basées sur les connaissances, les méthodes statistiques et les approches hybrides. Les techniques basées sur les connaissances classent les textes par catégories affectives en fonction de la présence de mots affectifs non ambigus tels que « joyeux », « triste », « effrayé » et « ennuyé ». Certaines bases de connaissances ne se contentent pas de répertorier les mots affectifs évidents, mais attribuent également à des mots arbitraires une « affinité » probable avec des émotions particulières. Les méthodes statistiques exploitent des éléments d’ apprentissage automatique tels que l’analyse sémantique latente , les machines à vecteurs de support , le modèle « sac de mots », l’information mutuelle ponctuelle pour l’orientation sémantique, les modèles d’espace sémantique ou les modèles d’intégration de mots , et l’apprentissage profond . Les méthodes plus sophistiquées tentent de détecter l’émetteur du sentiment (c’est-à-dire la personne qui éprouve cet état affectif) et la cible (c’est-à-dire l’entité envers laquelle le sentiment est ressenti). Pour extraire l'opinion dans son contexte et identifier la caractéristique sur laquelle le locuteur s'est exprimé, on utilise les relations grammaticales entre les mots. Ces relations de dépendance grammaticale sont obtenues par une analyse syntaxique approfondie du texte. Les approches hybrides exploitent à la fois l'apprentissage automatique et des éléments de représentation des connaissances tels que les ontologies et les réseaux sémantiques afin de détecter une sémantique exprimée de manière subtile, par exemple par l'analyse de concepts qui ne véhiculent pas explicitement d'informations pertinentes, mais qui sont implicitement liés à d'autres concepts qui, eux, le font.

Les logiciels libres, ainsi qu'une gamme d'outils d'analyse des sentiments gratuits et payants, utilisent l'apprentissage automatique , les statistiques et le traitement automatique du langage naturel pour automatiser l'analyse des sentiments sur de vastes ensembles de textes, tels que les pages web, les actualités en ligne, les forums de discussion, les avis en ligne, les blogs et les réseaux sociaux. Les systèmes à base de connaissances, quant à eux, exploitent des ressources publiques pour extraire les informations sémantiques et affectives associées aux concepts du langage naturel. Le système peut ainsi contribuer au raisonnement affectif de sens commun . L'analyse des sentiments peut également être appliquée au contenu visuel, c'est-à-dire aux images et aux vidéos (voir Analyse multimodale des sentiments ). L'une des premières approches dans ce sens est SentiBank qui utilise une représentation du contenu visuel par paires adjectif-nom. Par ailleurs, la grande majorité des méthodes de classification des sentiments reposent sur le modèle du sac de mots, qui ne tient pas compte du contexte, de la grammaire ni même de l'ordre des mots . Les approches qui analysent le sentiment en fonction de la façon dont les mots composent le sens de phrases plus longues ont montré de meilleurs résultats, mais elles entraînent une surcharge d'annotation supplémentaire.

L'analyse des sentiments nécessite une intervention humaine, car les systèmes automatisés ne peuvent analyser les tendances historiques des commentateurs ni celles de la plateforme, et leurs conclusions sont souvent erronées. L'automatisation affecte environ 23 % des commentaires correctement classés par les humains . Cependant, les désaccords entre humains sont fréquents, et il est admis que ce consensus interhumain constitue une limite supérieure que les classificateurs de sentiments automatisés peuvent atteindre

Évaluation

La précision d'un système d'analyse des sentiments correspond, en principe, à sa concordance avec les jugements humains. Elle est généralement mesurée par diverses méthodes basées sur la précision et le rappel, appliquées aux deux catégories cibles de textes négatifs et positifs. Cependant, selon les recherches, les évaluateurs humains ne s'accordent généralement que dans environ 80 % des cas (voir Fiabilité inter-évaluateurs ).

En revanche, les systèmes informatiques commettent des erreurs très différentes de celles des évaluateurs humains, et les résultats ne sont donc pas entièrement comparables. Par exemple, un système informatique aura des difficultés avec les négations, les exagérations, les plaisanteries ou le sarcasme, pourtant généralement faciles à interpréter pour un lecteur humain : certaines erreurs commises par un système informatique paraîtront excessivement naïves à un humain. De manière générale, l’utilité de l’analyse des sentiments, telle que définie dans la recherche académique, pour les applications commerciales pratiques, a été remise en question, principalement parce que le modèle unidimensionnel simpliste des sentiments, allant du négatif au positif, fournit peu d’informations exploitables pour un client soucieux de l’impact du discours public sur sa marque ou sa réputation d’entreprise.

Pour mieux répondre aux besoins du marché, l'évaluation de l'analyse des sentiments s'oriente désormais vers des mesures davantage axées sur les tâches, élaborées en collaboration avec des représentants d'agences de relations publiques et des professionnels des études de marché. Dans le jeu de données d'évaluation de RepLab, par exemple, l'accent est moins mis sur le contenu du texte considéré que sur son impact sur la réputation de la marque .

L’évaluation de l’analyse des sentiments étant de plus en plus axée sur les tâches, chaque implémentation nécessite un modèle d’apprentissage distinct pour obtenir une représentation plus précise des sentiments exprimés dans un ensemble de données donné. Avec la généralisation des moteurs de réponse basés sur les modèles logiques logiques (LLM), les méthodes d’évaluation se sont étendues pour inclure des outils permettant de suivre la manière dont ces systèmes référencent les entités. Parmi les approches émergentes d’évaluation de la pondération contextuelle et des sentiments dans les résultats des LLM, on peut citer Semrush AI Visibility Toolkit et Enterprise AIO , qui analysent la présentation des entités dans les réponses générées.

Web 2.0

médias sociaux, tels que les blogs et les réseaux sociaux, a alimenté l'intérêt pour l'analyse des sentiments. Avec la multiplication des avis, des notes, des recommandations et autres formes d'expression en ligne, l'opinion en ligne est devenue une sorte de monnaie virtuelle pour les entreprises cherchant à commercialiser leurs produits, identifier de nouvelles opportunités et gérer leur réputation. Alors que les entreprises cherchent à automatiser le processus de filtrage des informations superflues, de compréhension des conversations, d'identification du contenu pertinent et d'action appropriée, nombreuses sont celles qui se tournent désormais vers l'analyse des sentiments. La situation est encore complexifiée par l'émergence de plateformes de médias sociaux anonymes telles que 4chan et Reddit . Si le Web 2.0 visait à démocratiser la publication, la prochaine étape du Web pourrait bien reposer sur la démocratisation de l'exploration des données de tout le contenu publié.

La recherche constitue un pas vers cet objectif. Plusieurs équipes de recherche universitaires du monde entier se concentrent actuellement sur la compréhension de la dynamique des sentiments dans les communautés en ligne grâce à l'analyse des sentiments.

Le problème est que la plupart des algorithmes d'analyse des sentiments utilisent des termes simples pour exprimer l'opinion sur un produit ou un service. Or, les facteurs culturels, les nuances linguistiques et les différents contextes rendent extrêmement difficile la conversion d'un texte en un simple sentiment positif ou négatif. Le fait que les humains soient souvent en désaccord sur le sentiment exprimé dans un texte illustre la difficulté pour les ordinateurs d'y parvenir correctement. Plus le texte est court, plus la tâche se complique.

Bien que la brièveté des messages puisse poser problème, l'analyse des sentiments sur Twitter a démontré que ce réseau social constitue un indicateur fiable du sentiment politique en ligne. Le sentiment politique exprimé dans les tweets correspond étroitement aux positions politiques des partis et des personnalités politiques, ce qui suggère que le contenu des messages Twitter reflète de manière plausible le paysage politique réel. De plus, l'analyse des sentiments sur Twitter s'est également révélée capable de saisir l'opinion publique concernant les cycles de reproduction humaine à l'échelle mondiale, ainsi que d'autres problèmes de santé publique tels que les effets indésirables des médicaments.

Si l'analyse des sentiments est devenue courante dans les domaines où les auteurs expriment leur opinion de manière explicite (« le film est génial »), comme sur les réseaux sociaux et dans les avis sur les produits, ce n'est que récemment que des méthodes robustes ont été développées pour d'autres domaines où le sentiment est fortement implicite ou indirect. Par exemple, dans les articles de presse – principalement en raison de l'objectivité journalistique attendue – les journalistes décrivent souvent des actions ou des événements plutôt que d'affirmer directement la polarité d'une information. Les approches antérieures, utilisant des dictionnaires ou des caractéristiques d'apprentissage automatique superficielles, étaient incapables de saisir le sens caché, mais des chercheurs ont récemment proposé une approche et un ensemble de données basés sur l'apprentissage profond, capables d'analyser les sentiments dans les articles de presse.

Des chercheurs ont utilisé l'analyse des sentiments pour analyser les publications sur la santé et la sécurité dans le secteur de la construction sur Twitter (désormais appelé X). Leurs recherches ont révélé une corrélation positive entre les mentions « J'aime » et les retweets, en termes de valence émotionnelle. D'autres études ont examiné l'impact de YouTube sur la diffusion des connaissances en matière de santé et de sécurité dans le secteur de la construction. Elles ont analysé, par le biais d'une analyse sémantique, comment les émotions influencent le comportement des utilisateurs en matière de visionnage et de commentaires. Dans une autre étude, les sentiments positifs représentaient une part écrasante de 85 % du partage de connaissances sur la sécurité et la santé dans le secteur de la construction via Instagram.

Application dans les systèmes de recommandation

systèmes de recommandation . Ces systèmes visent à prédire la préférence d'un utilisateur cible pour un article donné. Les systèmes de recommandation les plus courants fonctionnent à partir d'ensembles de données explicites. Par exemple, le filtrage collaboratif s'appuie sur la matrice de notation, tandis que le filtrage basé sur le contenu utilise les métadonnées des articles.

Sur de nombreux réseaux sociaux et sites de commerce électronique , les utilisateurs peuvent publier des avis, des commentaires ou des retours sur les produits. Ces textes constituent une source précieuse d'informations sur les opinions des utilisateurs concernant de nombreux produits. Potentiellement, pour un produit donné, ces textes peuvent révéler à la fois ses caractéristiques et aspects, ainsi que le ressenti des utilisateurs sur chacune d'elles . Les caractéristiques décrites dans le texte jouent le même rôle que les métadonnées dans le filtrage basé sur le contenu , mais elles sont plus précieuses pour les systèmes de recommandation. Étant donné que ces caractéristiques sont fréquemment mentionnées par les utilisateurs dans leurs avis, elles peuvent être considérées comme les plus importantes, car elles influencent significativement l'expérience utilisateur. En revanche, les métadonnées du produit (généralement fournies par les producteurs plutôt que par les consommateurs) peuvent ignorer des caractéristiques importantes pour les utilisateurs. Pour des produits différents présentant des caractéristiques communes, un utilisateur peut exprimer des ressentis différents. De même, une caractéristique d'un même produit peut susciter des ressentis différents selon les utilisateurs. Le ressenti des utilisateurs sur les caractéristiques peut être considéré comme une note multidimensionnelle, reflétant leurs préférences pour les produits.

En se basant sur les caractéristiques et les sentiments extraits du texte généré par l'utilisateur, un système de recommandation hybride peut être construit. Deux types de motivations peuvent inciter à recommander un article candidat à un utilisateur. Premièrement, l'article candidat partage de nombreuses caractéristiques avec les articles préférés de l'utilisateur, tandis que deuxièmement, il bénéficie d'une forte appréciation de ses caractéristiques. Pour un article préféré, il est raisonnable de penser que les articles présentant les mêmes caractéristiques auront une fonction ou une utilité similaire. Par conséquent, ces articles seront probablement préférés par l'utilisateur. En revanche, pour une caractéristique partagée par deux articles candidats, les utilisateurs peuvent avoir une opinion positive de l'un et négative de l'autre. De toute évidence, l'article le mieux évalué devrait être recommandé à l'utilisateur. Sur la base de ces deux motivations, un score de classement combinant similarité et évaluation des sentiments peut être établi pour chaque article candidat.

Outre la difficulté inhérente à l'analyse des sentiments elle-même, son application aux avis et commentaires se heurte également au problème des spams et des avis biaisés. Une piste de recherche consiste à évaluer la pertinence de chaque avis. Un avis ou un commentaire mal rédigé est peu utile aux systèmes de recommandation. De plus, un avis peut être conçu pour nuire aux ventes d'un produit, et donc être préjudiciable au système de recommandation, même s'il est bien écrit.

Les chercheurs ont également constaté que les textes générés par les utilisateurs, qu'ils soient courts ou longs, doivent être traités différemment. Un résultat intéressant montre que les avis courts sont parfois plus utiles que les avis longs , car il est plus facile d'éliminer les éléments superflus dans un texte court. Concernant les textes longs, l'augmentation de leur longueur n'entraîne pas toujours une augmentation proportionnelle du nombre de caractéristiques ou des sentiments exprimés.

Lamba et Madhusudhan introduisent une approche novatrice pour répondre aux besoins d'information des usagers des bibliothèques actuelles. Cette approche consiste à restructurer les résultats de l'analyse des sentiments issus des réseaux sociaux comme Twitter et à les proposer sous forme de service temporel consolidé, disponible en différents formats. Ils proposent également une nouvelle méthode de marketing pour les bibliothèques, s'appuyant sur l'exploration des données des réseaux sociaux et l'analyse des sentiments.

Considérations éthiques

Des questions telles que la protection de la vie privée, le consentement et les biais sont cruciales, car l'analyse des sentiments traite régulièrement des données personnelles sans le consentement explicite de l'utilisateur. Le risque de mauvaise interprétation et d'utilisation abusive des données relatives aux sentiments peut avoir un impact considérable sur les normes sociétales. Par ailleurs, l'élaboration de cadres éthiques, comme en témoignent des projets tels que SEWA, où des comités consultatifs sur la valorisation éthique et industrielle sont mis en place, est essentielle pour relever ces défis. Ces comités contribuent à garantir une utilisation responsable des technologies d'analyse des sentiments, notamment dans les applications impliquant la reconnaissance des émotions et des comportements humains. De tels cadres sont indispensables pour guider l'utilisation responsable des outils d'analyse des sentiments, en veillant à ce qu'ils promeuvent l'équité et respectent l'autonomie de l'utilisateur, et en traitant efficacement les questions éthiques, qu'elles soient courantes ou complexes.