classificateur linéaire

En apprentissage automatique , un classificateur linéaire prend une décision de classification pour chaque objet en fonction d'une combinaison linéaire de ses caractéristiques . Autrement dit, un classificateur linéaire est un classificateur dont les frontières de décision sont linéaires . Ces classificateurs sont performants pour des problèmes pratiques tels que la classification de documents , et plus généralement pour les problèmes comportant de nombreuses variables ( caractéristiques ), atteignant des niveaux de précision comparables à ceux des classificateurs non linéaires tout en étant plus rapides à entraîner et à utiliser.

Dans ce cas, les points pleins et vides peuvent être correctement classés par un nombre quelconque de classificateurs linéaires. H1 (bleu) les classe correctement, tout comme H2 (rouge). H2 pourrait être considéré comme « meilleur » car il est également le plus éloigné des deux groupes. H3 (vert) ne parvient pas à classer correctement les points.

Si le vecteur de caractéristiques d'entrée du classificateur est un vecteur réel , alors le score de sortie est

où est un vecteur réel de poids et f est une fonction qui convertit le produit scalaire des deux vecteurs en la sortie souhaitée. (Autrement dit, est une fonction linéaire ou de forme 1 appliquée sur R. ) Le vecteur de poids est appris à partir d'un ensemble d'exemples d'entraînement étiquetés. Souvent, f est une fonction de seuillage , qui associe toutes les valeurs de supérieures à un certain seuil à la première classe et toutes les autres valeurs à la seconde classe ; par exemple,

\ heta,\\\\0 & \ ext{otherwise}\\end{cases} "

heta ,\\0&{ ext{otherwise}}\end{cases f (x) = {\begin{matrix} 1 & si w^{T} \cdot x > θ, \\ 0 & sinon \end{matrix}

heta,\\0&{ ext{sinon}}\end{cases

L'exposant T indique la transposée et représente un seuil scalaire. Une fonction f plus complexe pourrait donner la probabilité qu'un élément appartienne à une certaine classe.

Pour un problème de classification binaire, on peut visualiser le fonctionnement d'un classificateur linéaire comme la division d'un espace d'entrée de grande dimension par un hyperplan : tous les points d'un côté de l'hyperplan sont classés comme « oui », tandis que les autres sont classés comme « non ».

Un classificateur linéaire est souvent utilisé lorsque la vitesse de classification est cruciale, car il est généralement le plus rapide, notamment lorsque la matrice est creuse. De plus, les classificateurs linéaires sont souvent très performants lorsque le nombre de dimensions de la matrice est élevé, comme dans la classification de documents , où chaque élément correspond généralement au nombre d'occurrences d'un mot dans un document (voir la matrice document-terme ). Dans ce cas, le classificateur doit être bien régularisé .

Modèles génératifs vs. modèles discriminatifs

Il existe deux grandes catégories de méthodes pour déterminer les paramètres d'un classificateur linéaire : les modèles génératifs et les modèles discriminatifs . Les méthodes génératives modélisent la distribution de probabilité conjointe , tandis que les méthodes discriminatives modélisent les fonctions de densité conditionnelle . Voici quelques exemples de tels algorithmes :

L'analyse discriminante linéaire (LDA) suppose des modèles de densité conditionnelle gaussiens
Classificateur naïf bayésien avec des modèles d'événements de Bernoulli multinomiaux ou multivariés.

La seconde catégorie de méthodes comprend les modèles discriminatifs , qui visent à maximiser la qualité de la sortie sur un ensemble d'entraînement . L'ajout de termes à la fonction de coût d'entraînement permet de régulariser facilement le modèle final. Voici quelques exemples d'entraînement discriminatif de classificateurs linéaires :

Régression logistique — estimation du maximum de vraisemblance en supposant que l'ensemble d'entraînement observé a été généré par un modèle binomial qui dépend de la sortie du classificateur.
Perceptron — un algorithme qui tente de corriger toutes les erreurs rencontrées dans l'ensemble d'entraînement
L’analyse discriminante linéaire de Fisher est un algorithme (différent de l’analyse discriminante linéaire) qui maximise le rapport entre la dispersion inter-classes et la dispersion intra-classe, sans aucune autre hypothèse. Il s’agit essentiellement d’une méthode de réduction de dimensionnalité pour la classification binaire.
Machine à vecteurs de support — un algorithme qui maximise la marge entre l'hyperplan de décision et les exemples de l'ensemble d'entraînement.

Remarque : Malgré son nom, l’analyse discriminante linéaire (LDA) n’appartient pas à la classe des modèles discriminatifs dans cette taxonomie. Cependant, son nom prend tout son sens lorsqu’on la compare à l’autre algorithme principal de réduction de dimensionnalité linéaire : l’ analyse en composantes principales (ACP). La LDA est un algorithme d’apprentissage supervisé qui utilise les étiquettes des données, tandis que l’ACP est un algorithme d’apprentissage non supervisé qui ignore les étiquettes. En résumé, ce nom est un vestige historique.

L'apprentissage discriminatif donne souvent de meilleurs résultats que la modélisation des fonctions de densité conditionnelle . Cependant, la gestion des données manquantes est souvent plus simple avec les modèles de densité conditionnelle .astuce du noyau .

Formation discriminative

L'apprentissage discriminatif des classificateurs linéaires se déroule généralement de manière supervisée , au moyen d'un algorithme d'optimisation qui reçoit un ensemble d'entraînement contenant les sorties souhaitées et une fonction de perte mesurant l'écart entre les sorties du classificateur et les sorties souhaitées. Ainsi, l'algorithme d'apprentissage résout un problème d'optimisation de la forme

où

$fonction de régularisation qui empêche les paramètres de devenir trop grands (provoquant un surapprentissage), et$
$perte charnière (pour les SVM linéaires) et la perte logarithmique (pour la régression logistique linéaire). Si la fonction de régularisation convexe , alors le problème ci-dessus est convexe . De nombreux algorithmes permettent de résoudre de tels problèmes ; parmi les plus utilisés pour la classification linéaire, on trouve la descente de gradient (stochastique) , L-BFGS, la descente de coordonnées et la méthode de Newton .$