Les pratiques et les philosophies de l'analyse de contenu varient selon les disciplines universitaires. Elles impliquent toutes une lecture ou une observation systématique de textes ou d'artefacts auxquels sont attribués des étiquettes (parfois appelées codes) pour indiquer la présence d' éléments de contenu intéressants et significatifs . En étiquetant systématiquement le contenu d'un ensemble de textes , les chercheurs peuvent analyser quantitativement les tendances de contenu à l'aide de méthodes statistiques , ou utiliser des méthodes qualitatives pour analyser la signification du contenu au sein des textes .
L'informatique est de plus en plus utilisée en analyse de contenu pour automatiser l'étiquetage (ou le codage) des documents. Des techniques informatiques simples permettent d'obtenir des données descriptives telles que la fréquence des mots et la longueur des documents. Les classificateurs d'apprentissage automatique peuvent considérablement augmenter le nombre de textes pouvant être étiquetés, mais leur utilité scientifique fait débat. Par ailleurs, de nombreux logiciels d'analyse de texte assistée par ordinateur (ATAO) sont disponibles pour analyser les textes en fonction de caractéristiques linguistiques, sémantiques et psychologiques prédéterminées.
Klaus Krippendorff , six questions doivent être abordées dans toute analyse de contenu :- Quelles données sont analysées ?
- Comment les données sont-elles définies ?
- De quelle population les données sont-elles issues ?
- Quel est le contexte pertinent ?
- Quelles sont les limites de l'analyse ?
- Que faut-il mesurer ?
L'analyse de contenu la plus simple et la plus objective s'appuie sur des caractéristiques non ambiguës du texte, telles que la fréquence des mots , la surface occupée par une colonne de journal ou la durée d'une émission de radio ou de télévision . L'analyse de la simple fréquence des mots présente toutefois des limites, car le sens d'un mot dépend du contexte. Les algorithmes KWIC ( Key Word In Context ) pallient cette difficulté en replaçant les mots dans leur contexte textuel. Cela permet de lever les ambiguïtés, notamment celles liées aux synonymes et aux homonymes .
Une étape supplémentaire de l'analyse consiste à distinguer les approches quantitatives (basées sur un dictionnaire) des approches qualitatives. Les approches quantitatives établissent une liste de catégories à partir de la fréquence d'apparition des mots et contrôlent la distribution des mots et de leurs catégories respectives dans les textes. Alors que les méthodes d'analyse de contenu quantitative transforment ainsi les observations des catégories identifiées en données statistiques quantitatives, l'analyse de contenu qualitative s'intéresse davantage à l'intentionnalité et à ses implications. Il existe de fortes similitudes entre l'analyse de contenu qualitative et l'analyse thématique .
Analyse de contenu qualitative et quantitative
L'analyse quantitative de contenu met en évidence les fréquences d'apparition et leur analyse statistique. Elle débute par la formulation d'une hypothèse, le codage étant défini avant le début de l'analyse. Ces catégories de codage sont strictement pertinentes au regard de l'hypothèse du chercheur. L'analyse quantitative adopte également une approche déductive. Des exemples de variables et de concepts d'analyse de contenu sont disponibles, par exemple, dans la base de données en libre accès DOCA . Cette base de données compile, systématise et évalue les variables d'analyse de contenu pertinentes pour les domaines et thématiques de recherche en communication et en sciences politiques.
Siegfried Kracauer critique l'analyse quantitative, affirmant qu'elle simplifie à l'excès les communications complexes pour gagner en fiabilité. L'analyse qualitative, quant à elle, s'intéresse aux subtilités des interprétations latentes, tandis que l'analyse quantitative se concentre sur les significations manifestes. Il reconnaît également un certain chevauchement entre l'analyse de contenu qualitative et quantitative. L'analyse qualitative examine les schémas plus en détail et, selon les significations latentes que le chercheur peut découvrir, l'orientation de la recherche peut être modifiée. Elle est inductive et part de questions de recherche ouvertes, contrairement à l'analyse qualitative qui repose sur une hypothèse.
Livres de codes
L'instrument de collecte de données utilisé en analyse de contenu est le guide de codage. En analyse de contenu qualitative, le guide de codage est construit et amélioré au fur et à mesure du codage, tandis qu'en analyse de contenu quantitative, il doit être élaboré et prétesté afin d'en vérifier la fiabilité et la validité avant le codage. Le guide de codage comprend des instructions détaillées à l'intention des codeurs, ainsi que des définitions claires des concepts ou variables à coder et des valeurs qui leur sont attribuées.
Outils informatiques
Avec la démocratisation des ordinateurs personnels, les méthodes d'analyse informatisées gagnent en popularité. Les réponses à des questions ouvertes, les articles de journaux, les programmes de partis politiques, les dossiers médicaux ou les observations systématiques d'expériences peuvent tous faire l'objet d'une analyse systématique des données textuelles.
En disposant du contenu des communications sous forme de textes lisibles par machine, les données d'entrée sont analysées en fonction de leur fréquence et codées en catégories afin d'en tirer des conclusions.
Computer-assisted analysis can help with large, electronic data sets by cutting out time and eliminating the need for multiple human coders to establish inter-coder reliability. However, human coders can still be employed for content analysis, as they are often more able to pick out nuanced and latent meanings in text. A study found that human coders were able to evaluate a broader range and make inferences based on latent meanings.
Reliability and validity
Robert Weber notes: "To make valid inferences from the text, it is important that the classification procedure be reliable in the sense of being consistent: Different people should code the same text in the same way". The validity, inter-coder reliability and intra-coder reliability are subject to intense methodological research efforts over long years. Neuendorf suggests that when human coders are used in content analysis at least two independent coders should be used. Reliability of human coding is often measured using a statistical measure of inter-coder reliability or "the amount of agreement or correspondence among two or more coders". Lacy and Riffe identify the measurement of inter-coder reliability as a strength of quantitative content analysis, arguing that, if content analysts do not measure inter-coder reliability, their data are no more reliable than the subjective impressions of a single reader.
According to today's reporting standards, quantitative content analyses should be published with complete codebooks and for all variables or measures in the codebook the appropriate inter-coder or inter-rater reliability coefficients should be reported based on empirical pre-tests. Furthermore, the validity of all variables or measures in the codebook must be ensured. This can be achieved through the use of established measures that have proven their validity in earlier studies. Also, the content validity of the measures can be checked by experts from the field who scrutinize and then approve or correct coding instructions, definitions and examples in the codebook.
Kinds of text
There are five types of texts in content analysis:
- written text, such as books and papers
- oral text, such as speech and theatrical performance
- iconic text, such as drawings, paintings, and icons
- audio-visual text, such as TV programs, movies, and videos
- hypertexts, which are texts found on the Internet
History
L’analyse de contenu est une recherche qui utilise la catégorisation et la classification de la parole, des textes écrits, des entretiens, des images ou d’autres formes de communication. À ses débuts, à la fin du XIXe siècle, avec l’analyse des premiers journaux, cette méthode était manuelle et consistait à compter le nombre de colonnes consacrées à un sujet. On retrouve également la trace de cette approche chez un étudiant qui étudiait les schémas narratifs dans l’œuvre de Shakespeare en 1893.
Au fil des ans, l'analyse de contenu a été appliquée à divers domaines. L'herméneutique et la philologie ont longtemps utilisé l'analyse de contenu pour interpréter les textes sacrés et profanes et, dans de nombreux cas, pour attribuer l'auteur et l'authenticité des textes .
Ces dernières années, et notamment avec l'avènement des communications de masse , l'analyse de contenu a connu un usage croissant pour analyser et comprendre en profondeur le contenu et la logique des médias. Le politologue Harold Lasswell a formulé les questions fondamentales de l'analyse de contenu dans sa version dominante du début et du milieu du XXe siècle : « Qui dit quoi, à qui, pourquoi, dans quelle mesure et avec quel effet ? » . L'accent mis par Lasswell sur une approche quantitative a finalement été repris par un autre « père » de l'analyse de contenu, Bernard Berelson , qui a proposé une définition emblématique de ce point de vue : « une technique de recherche pour la description objective, systématique et quantitative du contenu manifeste de la communication »
L'analyse quantitative de contenu a connu un regain de popularité ces dernières années grâce aux progrès technologiques, et a été appliquée avec succès dans la recherche sur la communication de masse et interpersonnelle. L'analyse de contenu des données textuelles massives produites par les nouveaux médias , notamment les médias sociaux et les appareils mobiles, s'est popularisée. Ces approches adoptent une vision simplifiée du langage qui ignore la complexité de la sémiose , le processus par lequel le sens se construit à partir du langage. Les analystes de contenu quantitatifs ont été critiqués pour limiter la portée de l'analyse de contenu à un simple dénombrement et pour appliquer les méthodologies de mesure des sciences naturelles sans s'interroger de manière critique sur leur pertinence pour les sciences sociales. À l'inverse, les analystes de contenu qualitatifs ont été critiqués pour leur manque de systématicité et leur caractère trop impressionniste. Krippendorff soutient que les approches quantitatives et qualitatives de l'analyse de contenu tendent à se chevaucher et qu'il est impossible de conclure de manière générale à la supériorité d'une approche sur l'autre.
L’analyse de contenu peut également être décrite comme l’étude des traces , c’est-à-dire des documents du passé, et des artefacts, c’est-à-dire des documents non linguistiques. Les textes sont considérés comme produits par des processus de communication au sens large du terme, acquérant souvent leur sens par abduction .
Contenu latent et manifeste
Le contenu manifeste est facilement compréhensible au premier abord. Sa signification est directe. Le contenu latent, quant à lui, est moins évident et nécessite une interprétation pour en révéler le sens ou l’implication.
Utilisations
Holsti regroupe quinze utilisations de l’analyse de contenu en trois catégories de base :
- tirer des conclusions sur les antécédents d'une communication
- décrire et déduire les caractéristiques d'une communication
- tirer des conclusions sur les effets d'une communication.
Il situe également ces usages dans le contexte du paradigme de communication de base .
Le tableau suivant présente quinze utilisations de l'analyse de contenu en fonction de leur objectif général, de l'élément du paradigme de communication auquel elles s'appliquent et de la question générale à laquelle elles sont censées répondre.
| But | Élément | Question | Utiliser |
|---|---|---|---|
| Tirer des conclusions sur les antécédents des communications | Source | OMS? |
|
| Processus d'encodage | Pourquoi? |
| |
| Décrire et déduire les caractéristiques des communications | Canal | Comment? |
|
| Message | Quoi? |
| |
| Destinataire | À qui ? |
| |
| Tirer des conclusions sur les conséquences des communications | Processus de décodage | Avec quel effet ? |
|
| Note. Objectif, élément de communication et question tirés de Holsti. Utilise principalement Berelson tel qu'adapté par Holsti. | |||
En revanche, l'application des procédures qui caractérisent l'analyse de contenu présente des limites. En particulier, si l'objectif de l'analyse peut être atteint directement, sans interférence matérielle, les techniques de mesure directe fournissent des données plus pertinentes . Ainsi, tandis que l'analyse de contenu s'efforce de décrire quantitativement des communications dont les caractéristiques sont principalement catégorielles – généralement limitées à une échelle nominale ou ordinale – via des unités conceptuelles sélectionnées (l' unification ) auxquelles sont attribuées des valeurs (la catégorisation ) pour le dénombrement , tout en contrôlant la fiabilité inter-codeurs , si la grandeur cible est manifestement déjà directement mesurable – typiquement sur une échelle d'intervalle ou de rapport – et notamment s'il s'agit d'une grandeur physique continue, alors ces cibles ne figurent généralement pas parmi celles qui nécessitent les sélections et formulations « subjectives » de l'analyse de contenu. Par exemple (issu de recherches mixtes et d'applications cliniques), les images médicales communiquent des informations diagnostiques aux médecins. L'échelle de volume de l'AVC (infarctus) utilisée en neuroimagerie , appelée ASPECTS, est divisée en 10 régions cérébrales qualitativement délimitées (de taille inégale) dans le territoire de l'artère cérébrale moyenne . Ces régions sont catégorisées comme étant au moins partiellement infarctées ou non infarctées afin de dénombrer ces dernières. Les séries publiées évaluent souvent la fiabilité inter-juges par le coefficient kappa de Cohen . Les opérations mentionnées ci-dessus (en italique ) imposent une analyse de contenu non validée à une estimation de l'étendue de l'infarctus, qui peut pourtant être mesurée plus facilement et avec plus de précision comme un volume directement sur les images. (« La précision… est la forme la plus élevée de fiabilité. » ) L’évaluation clinique concomitante, cependant, par l’ échelle NIHSS (National Institutes of Health Stroke Scale ) ou l’ échelle de Rankin modifiée (mRS), conserve la forme nécessaire d’analyse de contenu. Reconnaissant les limites potentielles de l’analyse de contenu tant pour le langage que pour les images, Klaus Krippendorffaffirme que « la compréhension… peut… ne pas se conformer du tout au processus de classification et/ou de comptage par lequel la plupart des analyses de contenu procèdent », suggérant que l’analyse de contenu pourrait déformer matériellement un message.
Élaboration du schéma de codage initial
Le processus d'élaboration du schéma de codage initial dépend de la méthode d'analyse de contenu choisie. Dans le cadre d'une analyse de contenu dirigée, les chercheurs élaborent un schéma de codage préliminaire à partir de théories ou d'hypothèses préexistantes. En revanche, avec l'approche d'analyse de contenu conventionnelle, le schéma de codage initial est élaboré à partir des données elles-mêmes.
Processus de codage conventionnel
Quelle que soit l’approche choisie, les chercheurs peuvent s’immerger dans les données pour en obtenir une vue d’ensemble. Une unité de codage cohérente et claire est essentielle, les choix allant d’un seul mot à plusieurs paragraphes et de textes à des symboles iconiques. Enfin, les chercheurs établissent les relations entre les codes en les regroupant au sein de catégories ou de thèmes spécifiques.