Classification des documents

La classification ou la catégorisation des documents est un problème à l'intersection des sciences de l'information , des bibliothèques et de l'informatique . Il s'agit d'attribuer un document à une ou plusieurs classes ou catégories . Cette tâche peut être effectuée manuellement (ou intellectuellement) ou algorithmiquement . La classification intellectuelle des documents relève principalement des sciences de l'information, tandis que la classification algorithmique est surtout du ressort des sciences de l'information et de l'informatique. Ces problématiques se recoupent toutefois, d'où l'existence de recherches interdisciplinaires en matière de classification des documents.

Les documents à classer peuvent être des textes, des images, de la musique, etc. Chaque type de document présente des problèmes de classification spécifiques. Sauf indication contraire, la classification par texte est implicite.

Les documents peuvent être classés selon leur sujet ou selon d'autres attributs (type de document, auteur, année d'impression, etc.). Dans la suite de cet article, seule la classification par sujet est abordée. Il existe deux grandes approches de la classification des documents par sujet : l'approche par le contenu et l'approche par la requête.

de sujets à des documents (« indexation par sujet »), mais comme l'a soutenu Frederick Wilfrid Lancaster , cette distinction est stérile. « Ces distinctions terminologiques, écrit-il, sont dénuées de sens et ne font que semer la confusion » (Lancaster, 2003, p. 21 ). L'idée que cette distinction est purement superficielle est également étayée par le fait qu'un système de classification peut être transformé en thésaurus et inversement (cf. Aitchison, 1986, 2004 ; Broughton, 2008 ; Riesthuis et Bliedung, 1991 ). Par conséquent, attribuer un terme de sujet à un document dans un index revient à attribuer ce document à la classe de documents indexés par ce terme (tous les documents indexés ou classés comme X appartiennent à la même classe de documents).

Classification automatique des documents

Les tâches de classification automatique de documents (CAD) peuvent être divisées en trois catégories : la classification supervisée, où un mécanisme externe (tel qu’un retour d’information humain) fournit des informations sur la classification correcte des documents ; la classification non supervisée (également appelée regroupement de documents ), où la classification doit être effectuée entièrement sans référence à des informations externes ; et la classification semi-supervisée , où certaines parties des documents sont étiquetées par le mécanisme externe. Plusieurs logiciels sont disponibles sous différents modèles de licence.

Techniques

Les techniques de classification automatique des documents comprennent :

réseau neuronal artificiel
Exploration de concepts
Arbres de décision tels que ID3 ou C4.5
Maximisation de l'espérance (EM)
Réseaux neuronaux entraînés instantanément
Indexation sémantique latente
Apprentissage à instances multiples
Classificateur naïf de Bayes
approches de traitement du langage naturel
classificateur basé sur les ensembles approximatifs
classificateur basé sur les ensembles flous
Machines à vecteurs de support (SVM)
Algorithmes des k plus proches voisins
tf–idf

Applications

Des techniques de classification ont été appliquées à

Le filtrage anti-spam est un processus qui tente de distinguer les messages indésirables des courriels légitimes.
routage des e-mails , envoi d'un e-mail envoyé à une adresse générale vers une adresse ou une boîte aux lettres spécifique en fonction du sujet
identification de la langue , détermination automatique de la langue d'un texte
classification de genre, détermination automatique du genre d'un texte
L'évaluation de la lisibilité détermine automatiquement le degré de lisibilité d'un texte, soit pour trouver des ressources adaptées à différents groupes d'âge ou types de lecteurs, soit dans le cadre d'un système plus vaste de simplification de texte.
L'analyse des sentiments consiste à déterminer l'attitude d'un orateur ou d'un auteur par rapport à un sujet donné ou la polarité contextuelle globale d'un document.
classification liée à la santé utilisant les médias sociaux dans la surveillance de la santé publique
triage d’articles, sélection d’articles pertinents pour la curation manuelle de la littérature, par exemple comme cela se fait comme première étape pour générer des bases de données d’annotations curées manuellement en biologie