Article de reference

Perceptron

En apprentissage automatique , le perceptron est un algorithme d' apprentissage supervisé de classificateurs binaires . Un classificateur binaire est une fonction qui détermine ...

Worldlex WikiContenu en francaisLecture gratuite

apprentissage automatique , le perceptron est un algorithme d' apprentissage supervisé de classificateurs binaires . Un classificateur binaire est une fonction qui détermine si une entrée, représentée par un vecteur de nombres, appartient ou non à une classe spécifique. Il s'agit d'un type de classificateur linéaire , c'est-à-dire un algorithme de classification qui effectue ses prédictions à partir d'une fonction de prédiction linéaire combinant un ensemble de poids avec le vecteur de caractéristiques .

La machine perceptron Mark I, première implémentation de l'algorithme du perceptron, était reliée à une caméra équipée de 20×20 photocellules au sulfure de cadmium pour produire une image de 400 pixels. Son principal élément visible est le panneau de connexion sensorielle-association, qui permet de définir différentes combinaisons de caractéristiques d'entrée. À droite se trouvent des réseaux de potentiomètres implémentant les pondérations adaptatives.

Le neurone artificiel et le réseau neuronal artificiel ont été inventés en 1943 par Warren McCulloch et Walter Pitts dans leur article fondateur « A Logical Calculus of the Ideas Immanent in Nervous Activity ».

En 1957, Frank Rosenblatt travaillait au Laboratoire aéronautique de Cornell . Il simula le perceptron sur un IBM 704. S'intéressant davantage aux implémentations matérielles , il obtint des fonds de la Division des systèmes d'information du Bureau de la recherche navale des États-Unis et du Centre de développement aérien de Rome pour construire un ordinateur analogique sur mesure, le perceptron Mark I. L'équipe de Rosenblatt l'assembla et le testa au Laboratoire aéronautique de Cornell (CAL) à Buffalo, dans l'État de New York, entre juin et le 14 décembre 1959 . Sa première démonstration publique eut lieu le 23 juin 1960. La machine s'inscrivait dans le cadre d'un projet secret de quatre ans mené par le NPIC ( Centre national d'interprétation photographique des États-Unis ) de 1963 à 1966, visant à transformer cet algorithme en un outil utile pour les photo-interprètes.

Rosenblatt a décrit en détail le perceptron dans un article de 1958. Son modèle de perceptron est composé de trois types de cellules (« unités ») : S, A et R, qui signifient respectivement « sensorielle », « association » et « réponse ». Il a présenté ses travaux lors du premier symposium international sur l’IA, intitulé « Mécanisation des processus de pensée », qui s’est tenu en novembre 1958.

Le projet de Rosenblatt a été financé par le contrat Nonr-401(40) « Programme de recherche sur les systèmes cognitifs », qui a duré de 1959 à 1970, et par le contrat Nonr-2381(00) « Projet PARA » (« PARA » signifie « Automates de perception et de reconnaissance »), qui a duré de 1957 à 1963.

En 1959, l'Institute for Defense Analysis a octroyé à son groupe un contrat de 10 000 $. En septembre 1961, l'ONR a octroyé d'autres contrats d'une valeur de 153 000 $, dont 108 000 $ étaient engagés pour 1962.

Le responsable de la recherche à l'ONR, Marvin Denicoff, a déclaré que l'ONR, et non l'ARPA , avait financé le projet Perceptron car il était peu probable que celui-ci produise des résultats technologiques à court ou moyen terme. Les financements de l'ARPA peuvent atteindre plusieurs millions de dollars, tandis que ceux de l'ONR sont de l'ordre de 10 000 dollars. Parallèlement, le directeur de l'IPTO à l'ARPA, JCR Licklider , s'intéressait aux méthodes « auto-organisées », « adaptatives » et autres méthodes bio-inspirées dans les années 1950 ; mais au milieu des années 1960, il les critiquait ouvertement, y compris le perceptron. Il privilégiait en revanche l'approche de l'intelligence artificielle logique de Simon et Newell .

Machine à perceptron Mark I

Organisation d'un cerveau biologique et d'un perceptron

Le perceptron était conçu comme une machine, et non comme un programme. Bien que sa première implémentation ait été logicielle pour l' IBM 704 , il a ensuite été implémenté dans un matériel conçu sur mesure, le perceptron Mark I, dans le cadre du projet « PARA » , destiné à la reconnaissance d'images . Cette machine est actuellement exposée au Musée national d'histoire américaine de la Smithsonian Institution .

Le perceptron Mark I comportait trois couches. Une version a été implémentée comme suit :

Un ensemble de 400 photocellules disposées en une grille 20x20, appelées « unités sensorielles » (unités S) ou « rétine d’entrée ». Chaque unité S peut être connectée à un maximum de 40 unités A.
Une couche cachée de 512 perceptrons, appelée « unités d'association » (unités A).
Une couche de sortie de huit perceptrons, appelée « unités de réponse » (unités R).

Rosenblatt a appelé ce réseau de perceptrons à trois couches l' alpha-perceptron , pour le distinguer des autres modèles de perceptrons avec lesquels il a expérimenté.

Les unités S sont connectées aux unités A de manière aléatoire (selon une table de nombres aléatoires) via un tableau de connexion (voir photo), afin d'« éliminer tout biais intentionnel du perceptron ». Les poids de connexion sont fixes et non appris. Rosenblatt insistait sur l'aléatoire des connexions, car il pensait que la rétine était connectée aléatoirement au cortex visuel et souhaitait que son perceptron reproduise la perception visuelle humaine.

Les unités A sont connectées aux unités R, avec des poids réglables codés dans des potentiomètres , et les mises à jour des poids pendant l'apprentissage ont été effectuées par des moteurs électriques. Les détails matériels sont dans un manuel d'utilisation.

Lors d'une conférence de presse organisée par la marine américaine en 1958, Rosenblatt fit des déclarations sur le perceptron qui provoquèrent une vive controverse au sein de la communauté naissante de l'IA ; se basant sur les déclarations de Rosenblatt, le New York Times rapporta que le perceptron était « l'embryon d'un ordinateur électronique qui [la marine] espère qu'il sera capable de marcher, de parler, de voir, d'écrire, de se reproduire et d'être conscient de son existence ».

La division photographique de la Central Intelligence Agency a étudié, de 1960 à 1964, l'utilisation de la machine Mark I Perceptron pour la reconnaissance de cibles en silhouette d'intérêt militaire (telles que des avions et des navires) dans des photos aériennes .

Principes de neurodynamique (1962)

Rosenblatt a décrit ses expériences avec de nombreuses variantes de la machine Perceptron dans un livre intitulé Principles of Neurodynamics (1962). Ce livre est une version publiée du rapport de 1961.

Parmi les variantes, on trouve :

« Couplage croisé » (connexions entre unités au sein d'une même couche) avec éventuellement des boucles fermées,
« rétrocouplage » (connexions d'unités d'une couche ultérieure à des unités d'une couche précédente),
perceptrons à quatre couches où les deux dernières couches ont des poids ajustables (et donc un véritable perceptron multicouche),
en intégrant des délais aux unités perceptron, afin de permettre le traitement de données séquentielles,
analyser l'audio (au lieu des images).

La machine a été expédiée de Cornell au Smithsonian en 1967, dans le cadre d'un transfert gouvernemental administré par l'Office of Naval Research.

Perceptrons (1969)

les réseaux de neurones pendant de nombreuses années, avant que l'on ne reconnaisse qu'un réseau de neurones à propagation avant comportant deux couches ou plus (également appelé perceptron multicouche ) offrait une puissance de traitement supérieure à celle des perceptrons à une seule couche (également appelés perceptrons monocouches ).

Les perceptrons monocouches ne peuvent apprendre que des motifs linéairement séparables . Pour une tâche de classification avec une fonction d'activation en escalier, un nœud unique possède une seule ligne divisant les points de données qui forment les motifs. Davantage de nœuds peuvent créer davantage de lignes de séparation, mais ces lignes doivent être combinées pour former des classifications plus complexes. Une seconde couche de perceptrons, voire des nœuds linéaires, suffit à résoudre de nombreux problèmes autrement non séparables.

En 1969, un ouvrage célèbre intitulé « Perceptrons » , de Marvin Minsky et Seymour Papert, a démontré l'impossibilité pour ces types de réseaux d'apprendre la fonction XOR . On croit souvent, à tort, qu'ils ont également conjecturé qu'un résultat similaire s'appliquerait aux réseaux de perceptrons multicouches. Or, cela est faux, car Minsky et Papert savaient déjà que les perceptrons multicouches étaient capables de générer une fonction XOR. (Pour plus d'informations, voir la page consacrée aux perceptrons dans l'ouvrage. ) Néanmoins, ce texte de Minsky et Papert, souvent mal interprété, a entraîné un net déclin de l'intérêt et du financement de la recherche sur les réseaux de neurones. Il a fallu attendre dix ans de plus pour que cette recherche connaisse un regain d'intérêt dans les années 1980. Cet ouvrage a été réédité en 1987 sous le titre « Perceptrons - Édition augmentée », où certaines erreurs de la version originale sont corrigées.des noyaux magnétiques toroïdaux . À l'époque de son achèvement, la simulation sur ordinateurs numériques était devenue plus rapide que les machines à perceptrons conçues spécifiquement à cet effet. Il mourut dans un accident de bateau en 1971.

Un programme de simulation pour réseaux neuronaux a été écrit pour IBM 7090/7094 et a été utilisé pour étudier diverses applications de reconnaissance de formes, telles que la reconnaissance de caractères , les trajectoires de particules dans les photographies de chambres à bulles ; la reconnaissance de phonèmes, de mots isolés et de la parole continue ; la vérification du locuteur ; et les mécanismes de centre d'attention pour le traitement d'images .

L' algorithme du perceptron à noyau a été introduit dès 1964 par Aizerman et al. Des garanties de marge ont été fournies pour l'algorithme du perceptron dans le cas général non séparable, d'abord par Freund et Schapire (1998) , puis plus récemment par Mohri et Rostamizadeh (2013), qui ont étendu les résultats précédents et proposé de nouvelles bornes L1 plus favorables.

Le perceptron est un modèle simplifié d'un neurone biologique . Bien que la complexité des modèles de neurones biologiques soit souvent nécessaire pour comprendre pleinement le comportement neuronal, la recherche suggère qu'un modèle linéaire de type perceptron peut produire certains comportements observés dans les neurones réels.

Les espaces de solutions des frontières de décision pour toutes les fonctions binaires et les comportements d'apprentissage sont étudiés dans

Définition

Les pondérations appropriées sont appliquées aux entrées, et la somme pondérée résultante est transmise à une fonction qui produit la sortie o.

Au sens moderne, le perceptron est un algorithme permettant d'apprendre un classificateur binaire appelé fonction de seuil : une fonction qui associe à son entrée (un vecteur à valeurs réelles ) une valeur de sortie (une seule valeur binaire ) :

où est la fonction de Heaviside (où une entrée vaut 1, la sortie 0 sinon), est un vecteur de poids réels, est le produit scalaire , où

La valeur binaire (0 ou 1) est utilisée pour effectuer une classification binaire, l'instance étant considérée comme positive ou négative. Spatialement, le biais modifie la position (mais pas l'orientation) de la frontière de décision plane .

Dans le contexte des réseaux de neurones, un perceptron est un neurone artificiel utilisant la fonction de Heaviside comme fonction d'activation. L'algorithme du perceptron est également appelé perceptron monocouche , afin de le distinguer du perceptron multicouche , terme impropre désignant un réseau de neurones plus complexe. En tant que classificateur linéaire, le perceptron monocouche est le réseau de neurones à propagation directe le plus simple .

Le pouvoir de la représentation

théorie de l'information

Du point de vue de la théorie de l'information , un perceptron unique avec K entrées a une capacité de 2K bits d'information. Ce résultat est dû à Thomas Cover .

Soit le nombre de façons de séparer linéairement N points dans un espace à K dimensions. Lorsque K est grand, ce nombre est très proche de 1 lorsque K ≠ 1 , mais très proche de 0 lorsque K ≠ 0. Autrement dit, une unité de perceptron peut presque certainement mémoriser une attribution aléatoire d'étiquettes binaires à N points lorsque K ≠ 1 , mais presque certainement pas lorsque K ≠ 0 . $2K N > 2 K$

fonction booléenne

Lorsqu'il fonctionne uniquement avec des entrées binaires, un perceptron est appelé fonction booléenne linéairement séparable , ou fonction booléenne à seuil. La séquence des nombres de fonctions booléennes à seuil sur n entrées est OEIS A000609 . La valeur n'est connue avec précision qu'à un cas près, mais l'ordre de grandeur est connu avec une grande exactitude : elle possède une borne supérieure et une borne inférieure .

Toute fonction de seuil linéaire booléenne peut être implémentée avec uniquement des poids entiers. De plus, le nombre de bits nécessaires et suffisants pour représenter un seul paramètre de poids entier est de .

théorème d'approximation universelle

du OU exclusif booléen (le fameux « problème XOR »).

Un réseau perceptron à une seule couche cachée peut apprendre à classifier avec une précision arbitraire tout sous-ensemble compact. De même, il peut également approximer avec une précision arbitraire toute fonction continue à support compact . Il s'agit essentiellement d'un cas particulier des théorèmes de George Cybenko et Kurt Hornik .

perceptron local conjonctif

Algorithme d'apprentissage pour un perceptron monocouche

Voici un exemple d'algorithme d'apprentissage pour un perceptron monocouche à une seule unité de sortie. Pour un perceptron monocouche à plusieurs unités de sortie, les poids de chaque unité étant indépendants, le même algorithme peut être appliqué à chacune d'elles.

Pour les perceptrons multicouches , qui comportent une couche cachée, des algorithmes plus sophistiqués, tels que la rétropropagation, doivent être utilisés. Si la fonction d'activation ou le processus sous-jacent modélisé par le perceptron est non linéaire , des algorithmes d'apprentissage alternatifs, comme la règle delta, peuvent être employés à condition que la fonction d'activation soit différentiable . Néanmoins, l'algorithme d'apprentissage décrit ci-dessous fonctionne souvent, même pour les perceptrons multicouches avec des fonctions d'activation non linéaires.

Lorsqu'on combine plusieurs perceptrons dans un réseau neuronal artificiel, chaque neurone de sortie fonctionne indépendamment des autres ; ainsi, l'apprentissage de chaque sortie peut être considéré isolément.

Définitions

Nous définissons d'abord quelques variables :

$Le taux d'apprentissage du perceptron est un nombre positif généralement inférieur à 1. Plus sa valeur est élevée, plus les variations de poids risquent d'être volatiles.$
est l' ensemble d'entraînement d' échantillons, où :
- $est le ème vecteur d'entrée de l' espace euclidien à -dimensions .$
- $est la valeur de sortie souhaitée du perceptron pour cette entrée.$

Nous présentons les valeurs des caractéristiques comme suit :

$est la valeur de la ème caractéristique du ème vecteur d'entrée d'entraînement .$
$.$

Pour représenter les poids :

$est la ème valeur du vecteur de poids, à multiplier par la valeur de la ème caractéristique d'entrée.$
Parce que , il s'agit effectivement d'un biais que nous utilisons à la place de la constante de biais .

Pour illustrer la dépendance temporelle de , nous utilisons :

$est le poids à ce moment-là .$

Mesures

Pour chaque exemple j de notre ensemble d'entraînement D, effectuez les étapes suivantes sur l'entrée et la sortie souhaitée : Calculer la sortie avec le vecteur de poids actuel : Mettre à jour les poids :, pour toutes les fonctionnalités , est le taux d'apprentissage . Incrémenter le compteur de temps :

Pour l'apprentissage hors ligne , la deuxième étape peut être répétée jusqu'à ce que l'erreur d'itération soit inférieure à un seuil d'erreur spécifié par l'utilisateur , ou jusqu'à ce qu'un nombre prédéterminé d'itérations ait été effectué, où s représente à nouveau la taille de l'ensemble d'échantillons.

L'algorithme met à jour les poids après chaque échantillon d'entraînement à l'étape 2b, bien que l'on puisse noter que les poids restent inchangés chaque fois que .

Convergence d'un perceptron sur un ensemble de données linéairement séparables

Un perceptron simple est un classificateur linéaire . Il ne peut atteindre un état stable que si tous les vecteurs d'entrée sont correctement classés. Si l'ensemble d'apprentissage $linéairement séparable , c'est-à-dire si les exemples positifs ne peuvent être séparés des exemples négatifs par un hyperplan, l'algorithme ne converge pas puisqu'il n'existe pas de solution. Par conséquent, si la séparabilité linéaire de l'ensemble d'apprentissage n'est pas connue a priori, il convient d'utiliser l'une des variantes d'apprentissage ci-dessous. Une analyse détaillée et des extensions du théorème de convergence sont présentées au chapitre 11 de *Perceptrons* (1969).$

La séparabilité linéaire est testable en temps , où est le nombre de points de données et est la dimension de chaque point.

Si l'ensemble d'entraînement est linéairement séparable, alors le perceptron convergera après avoir commis un nombre fini d'erreurs. Le théorème est démontré par Rosenblatt et al.

La démonstration simple qui suit est due à Novikoff (1962). Elle repose sur le fait que le vecteur de pondération est toujours ajusté d'une valeur bornée dans une direction avec laquelle son produit scalaire est négatif , et peut donc être majoré par

Si , l'argument est symétrique, donc nous l'omettons.

WLOG , , puis , , et .

Par hypothèse, nous avons une séparation avec des marges : Ainsi,

De plus , puisque le perceptron a commis une erreur, et donc

Depuis nos débuts , après avoir commis des erreurs, mais aussi

En combinant les deux, nous avons

Bien que l'algorithme du perceptron garantisse la convergence vers une solution dans le cas d'un ensemble d'apprentissage linéairement séparable, il peut néanmoins choisir n'importe quelle solution, et les problèmes peuvent admettre plusieurs solutions de qualité variable. Le perceptron de stabilité optimale , aujourd'hui plus connu sous le nom de machine à vecteurs de support linéaire , a été conçu pour résoudre ce problème (Krauth et Mezard , 1987).

théorème de cyclage du perceptron

Lorsque l'ensemble de données n'est pas linéairement séparable, il est impossible pour un perceptron unique de converger. Cependant, nous disposons toujours de

Cela a été démontré en premier lieu par Bradley Efron .

Apprendre une fonction booléenne

Considérons un ensemble de données où les x appartiennent à Ω , c'est-à-dire aux sommets d'un hypercube n-dimensionnel centré à l'origine, et Ω = 0. Autrement dit, tous les points de données avec x positif ont x = 0, et inversement. D'après le théorème de convergence du perceptron, un perceptron converge après avoir commis au plus Ω erreurs.

Si l'on devait écrire un programme logique pour effectuer la même tâche, chaque exemple positif montrerait qu'une des coordonnées est correcte, et chaque exemple négatif montrerait que son complément est un exemple positif. En collectant tous les exemples positifs connus, on finit par éliminer toutes les coordonnées sauf une, et l'ensemble de données est alors considéré comme appris.

Cette borne est asymptotiquement optimale dans le pire des cas. Dans ce cas, le premier exemple présenté est entièrement nouveau et fournit bits d'information, mais chaque exemple suivant diffère légèrement des précédents et fournit 1 bit chacun. Après exemples, il reste bits d'information, ce qui est suffisant pour le perceptron (avec bits d'information).

Cependant, elle n'est pas optimale en termes d'espérance si les exemples sont présentés de manière uniforme et aléatoire, puisque le premier donnerait bits, le deuxième bits, et ainsi de suite, prenant des exemples au total.

Variantes

L'algorithme de poche avec cliquet (Gallant, 1990) résout le problème de stabilité de l'apprentissage du perceptron en conservant la meilleure solution rencontrée jusqu'à présent. Il renvoie ensuite cette solution plutôt que la dernière solution trouvée. Il peut également être utilisé pour des ensembles de données non séparables, lorsque l'objectif est de trouver un perceptron avec un faible taux d'erreurs de classification. Cependant, ces solutions apparaissent de manière purement stochastique ; l'algorithme de poche ne les approche donc ni progressivement au cours de l'apprentissage, ni ne garantit leur apparition en un nombre donné d'itérations.

L'algorithme de Maxover (Wendemuth, 1995) est « robuste » en ce sens qu'il converge indépendamment de toute connaissance préalable de la séparabilité linéaire des données. Dans le cas de données linéairement séparables, il résout le problème d'apprentissage, et si souhaité, avec une stabilité optimale ( marge maximale entre les classes). Pour les données non séparables, il fournit une solution avec un nombre d'erreurs de classification calculable suffisamment faible. Dans tous les cas, l'algorithme converge progressivement vers la solution au cours de l'apprentissage, sans mémoriser les états précédents et sans sauts stochastiques. La convergence est globale pour les données séparables et locale pour les données non séparables.

Le perceptron à vote (Freund et Schapire, 1999) est une variante utilisant plusieurs perceptrons pondérés. L'algorithme démarre un nouveau perceptron à chaque fois qu'un exemple est mal classé, en initialisant le vecteur de poids avec les poids finaux du dernier perceptron. Chaque perceptron reçoit également un poids supplémentaire correspondant au nombre d'exemples correctement classés avant d'en classer un incorrectement. Au final, le résultat est un vote pondéré de tous les perceptrons.

Dans les problèmes séparables, l'apprentissage du perceptron peut également viser à trouver la marge de séparation maximale entre les classes. Le perceptron dit de stabilité optimale peut être déterminé par des méthodes itératives d'apprentissage et d'optimisation, telles que l'algorithme Min-Over (Krauth et Mezard, 1987) ou l'AdaTron (Anlauf et Biehl, 1989) . L'AdaTron exploite la convexité du problème d'optimisation quadratique correspondant. Le perceptron de stabilité optimale, associé à l' astuce du noyau , constitue le fondement conceptuel des machines à vecteurs de support .

Le perceptron α utilisait en outre une couche de prétraitement à poids aléatoires fixes, avec des unités de sortie seuillées. Cela lui permettait de classifier des motifs analogiques en les projetant dans un espace binaire . En effet, pour un espace de projection de dimension suffisamment élevée, les motifs peuvent devenir linéairement séparables.

Une autre méthode pour résoudre les problèmes non linéaires sans recourir à plusieurs couches consiste à utiliser des réseaux d'ordre supérieur (unité sigma-pi). Dans ce type de réseau, chaque élément du vecteur d'entrée est multiplié par chaque paire d'entrées (réseau du second ordre). Ce type de réseau peut être étendu à un réseau d'ordre n .

Le réceptron est une généralisation du modèle perceptron qui intègre les interactions non linéaires entre les entrées. Un seul réceptron est capable de classifier des fonctions booléennes non linéaires.

Il convient toutefois de rappeler que le meilleur classificateur n'est pas nécessairement celui qui classe parfaitement toutes les données d'entraînement. En effet, si l'on impose la contrainte a priori que les données proviennent de distributions gaussiennes équivariantes, la séparation linéaire dans l'espace d'entrée est optimale et la solution non linéaire est surajustée .

Parmi les autres algorithmes de classification linéaire, on peut citer Winnow , la machine à vecteurs de support et la régression logistique .

perceptron multiclasse

Comme la plupart des techniques d'entraînement de classificateurs linéaires, le perceptron se généralise naturellement à la classification multiclasse . Ici, les entrées et les sorties sont tirées d'ensembles arbitraires. Une fonction de représentation des caractéristiques associe à chaque paire entrée/sortie possible un vecteur de caractéristiques réel de dimension finie. Comme précédemment, ce vecteur est multiplié par un vecteur de poids , mais le score résultant sert désormais à choisir parmi plusieurs sorties possibles.

L'apprentissage itère à nouveau sur les exemples, prédisant une sortie pour chacun, laissant les poids inchangés lorsque la sortie prédite correspond à la cible, et les modifiant dans le cas contraire. La mise à jour devient :

Cette formulation de rétroaction multiclasse se réduit au perceptron original lorsque est un vecteur à valeurs réelles, est choisi parmi , et .

Pour certains problèmes, les représentations et les caractéristiques d'entrée/sortie peuvent être choisies de manière à ce que la solution puisse être trouvée efficacement même si elle est choisie parmi un ensemble très grand, voire infini.

Depuis 2002, l’entraînement des perceptrons est devenu populaire dans le domaine du traitement automatique du langage naturel pour des tâches telles que l’étiquetage morphosyntaxique et l’analyse syntaxique (Collins, 2002). Il a également été appliqué à des problèmes d’apprentissage automatique à grande échelle dans un contexte de calcul distribué .

Rosenblatt, Frank (1958), Le perceptron : un modèle probabiliste pour le stockage et l'organisation de l'information dans le cerveau, Cornell Aeronautical Laboratory, Psychological Review, v65, n° 6, pp. 386–408. doi : 10.1037/h0042519 .

Rosenblatt, Frank (1962), Principes de neurodynamique. Washington, DC : Spartan Books.

Minsky, ML et Papert, SA 1969. Perceptrons . Cambridge, MA : MIT Press.

Gallant, SI (1990). Algorithmes d'apprentissage basés sur le perceptron. IEEE Transactions on Neural Networks, vol. 1, no. 2, pp. 179–191.

Olazaran Rodriguez, José Miguel. Une sociologie historique de la recherche sur les réseaux neuronaux . Thèse de doctorat. Université d'Édimbourg, 1991.

Mohri, Mehryar et Rostamizadeh, Afshin (2013). Bornes d'erreur du perceptron arXiv:1305.0208, 2013.

Novikoff, AB (1962). Sur les preuves de convergence sur les perceptrons. Symposium sur la théorie mathématique des automates, 12, 615–622. Institut polytechnique de Brooklyn.

Widrow, B. , Lehr, MA, " 30 ans de réseaux neuronaux adaptatifs : perceptron, Madaline et rétropropagation ," Proc. IEEE , vol 78, no 9, pp. 1415–1442, (1990).

Collins, M. 2002. Méthodes d'entraînement discriminatives pour les modèles de Markov cachés : théorie et expériences avec l'algorithme du perceptron dans les actes de la conférence sur les méthodes empiriques en traitement automatique du langage naturel (EMNLP '02).

Yin, Hongfeng (1996), Algorithmes et analyses basés sur le perceptron, Bibliothèque Spectrum, Université Concordia, Canada