Base de données MNIST

La base de données MNIST ( Modified National Institute of Standards and Technology database ) est une vaste base de données de chiffres manuscrits couramment utilisée pour l'entraînement de divers systèmes de traitement d'images . Elle est également largement utilisée pour l'entraînement et les tests en apprentissage automatique . Elle a été créée en « remixant » les échantillons des jeux de données originaux du NIST. Ses créateurs ont estimé que, puisque le jeu de données d'entraînement du NIST provenait d' employés du Bureau du recensement américain , tandis que le jeu de données de test provenait d' élèves de lycée américains , il n'était pas adapté aux expériences d'apprentissage automatique. De plus, les images en noir et blanc du NIST ont été normalisées pour tenir dans un cadre de délimitation de 28 × 28 pixels et anticrénelées , ce qui a introduit des niveaux de gris.

La base de données MNIST contient 60 000 images d'entraînement et 10 000 images de test. La moitié des ensembles d'entraînement et l'autre moitié des ensembles de test proviennent de l'ensemble de données d'entraînement du NIST, tandis que l'autre moitié provient de l'ensemble de données de test du NIST. Les créateurs originaux de la base de données conservent une liste de certaines des méthodes testées. Dans leur article original, ils utilisent une machine à vecteurs de support pour obtenir un taux d'erreur de 0,8 %.

L'ensemble de données MNIST original contient au moins 4 étiquettes erronées.

Histoire

Base de données USPS

En 1988, un ensemble de données de chiffres provenant du service postal américain (USPS) a été constitué. Il contenait des images en niveaux de gris de 16 × 16 pixels, numérisées à partir de codes postaux manuscrits figurant sur le courrier américain transitant par le bureau de poste de Buffalo, dans l'État de New York . L'ensemble d'entraînement comprenait 7 291 images et l'ensemble de test 2 007, soit un total de 9 298 images. Les deux ensembles contenaient des données ambiguës, non classables et mal classées. Cet ensemble de données a servi à entraîner et à évaluer le réseau LeNet de 1989.

La tâche est plutôt difficile. Sur l'ensemble de test, deux humains ont commis des erreurs à un taux moyen de 2,5 %.

Base de données spéciale

À la fin des années 1980, le Bureau du recensement s'intéressait à la numérisation automatique des formulaires de recensement manuscrits et a donc sollicité le Groupe de reconnaissance d'images (IRG) du NIST pour évaluer les systèmes de reconnaissance optique de caractères (OCR ). Plusieurs années de travaux ont abouti à la création de plusieurs « bases de données spéciales » et de jeux de données de référence. La base de données spéciale 1 (SD-1), publiée en mai 1990, la base de données spéciale 3 (SD-3), publiée en février 1992, et la base de données spéciale 7 (SD-7), ou données de test NIST 1 (TD-1), publiée en avril 1992, revêtent une importance particulière pour le MNIST . Elles ont été distribuées sur CD-ROM ISO-9660 . Elles ont été obtenues en demandant à des personnes d'écrire sur des « formulaires d'échantillons d'écriture manuscrite » (HSF), puis en numérisant ces HSF et en segmentant les caractères alphanumériques. Chaque personne a rempli un seul HSF.

Chaque formulaire HSF comporte plusieurs champs de saisie, dans lesquels les personnes étaient invitées à écrire. Il y a 34 champs : nom et date, ville/état, 28 champs numériques, un champ en majuscules, un champ en minuscules et un paragraphe de texte constitutionnel libre . Chaque formulaire HSF a été numérisé à une résolution de 300 points par pouce (11,8 points par millimètre).

Les fichiers SD-1 et SD-3 ont été construits à partir du même ensemble de fiches de recensement par 2 100 des 3 400 agents recenseurs permanents dans le cadre du recensement américain de 1990. [ Le fichier SD-1 contenait les champs de saisie de données segmentés, mais pas les caractères alphanumériques segmentés. Le fichier SD-3 contenait des images binaires de 128 × 128 pixels numérisées à partir des caractères alphanumériques segmentés, soit 223 125 chiffres, 44 951 lettres majuscules et 45 313 lettres minuscules.

Le jeu de données de test SD-7 (ou TD-1) contenait 58 646 images binaires de 128 × 128 pixels, écrites par 500 lycéens de Bethesda, dans le Maryland . Ces derniers ont été décrits comme « des élèves de lycée suivant un cours de mathématiques et de sciences, dans le cadre d'un court exercice en classe » Chaque image est associée à un identifiant numérique unique permettant d'identifier son auteur. SD-7 a été initialement distribué sans étiquettes sur CD-ROM, les étiquettes étant ultérieurement disponibles sur disquettes. Il ne contenait pas les HSF (High-Stream Functions). La difficulté de SD-7 était telle que le taux d'erreur humaine était de 1,5 %

SD-3 était beaucoup plus net et plus facile à reconnaître que les images de SD-7. Le sept barré européen ( 7 ) est bien plus fréquent dans SD-7 que dans SD-3. On a supposé que SD-3 avait été produit par des personnes plus motivées que celles qui avaient produit SD-7. De plus, le segmentateur de caractères de SD-3 était plus ancien que celui de SD-7 et échouait plus souvent. On a supposé que les cas les plus difficiles avaient été filtrés lors de la construction de SD-3, car ces cas ne passaient même pas le filtre du segmentateur. Il a été constaté que les systèmes d'apprentissage automatique entraînés et validés sur SD-3 subissaient des baisses de performance significatives sur SD-7, passant d'un taux d'erreur inférieur à 1 % à environ 10 %.

En 1992, le NIST et le Bureau du recensement ont organisé un concours et une conférence afin d'évaluer les meilleures pratiques dans ce domaine. Lors du concours, les équipes devaient recevoir SD-3 comme ensemble d'entraînement avant le 23 mars, SD-7 comme ensemble de test avant le 13 avril, et soumettre un ou plusieurs systèmes de classification de SD-7 avant le 27 avril. Au total, 45 algorithmes ont été soumis par 26 entreprises issues de 7 pays différents. Les 27 et 28 mai, tous les participants se sont réunis à Gaithersburg, dans le Maryland, à l'occasion de la première conférence sur les systèmes de reconnaissance optique de caractères (OCR) du recensement. Des observateurs du FBI , de l'IRS et de l'USPS étaient présents. Le système gagnant n'utilisait pas SD-3 pour l'entraînement, mais un ensemble d'entraînement propriétaire beaucoup plus vaste ; il n'a donc pas été affecté par le changement de distribution. Parmi les 25 entrées qui ont utilisé SD-3 pour l'entraînement, l'entrée gagnante était un classificateur de plus proche voisin utilisant une métrique fabriquée à la main qui est invariante aux transformations euclidiennes .

SD-19 a été publié en 1995, sous forme de compilation de SD-1, SD-3, SD-7 et de données supplémentaires. Il contenait 814 255 images binaires de caractères alphanumériques et des images binaires de 4 169 HSF, dont les 500 HSF utilisées pour générer SD-7. Il a été mis à jour en 2016.

MNIST

La base de données MNIST a été constituée avant l'été 1994 Elle a été construite en mélangeant des images binaires de 128x128 pixels issues des bases de données SD-3 et SD-7. Plus précisément, toutes les images de SD-7 ont d'abord été réparties en un ensemble d'entraînement et un ensemble de test, chacun provenant de 250 scripteurs. Cela a permis d'obtenir près de 30 000 images dans chaque ensemble. Des images supplémentaires provenant de SD-3 ont ensuite été ajoutées jusqu'à ce que chaque ensemble contienne exactement 60 000 images

Chaque image a été redimensionnée pour tenir dans un cadre de 20x20 pixels tout en conservant son rapport hauteur/largeur, puis lissée en niveaux de gris. Elle a ensuite été transformée en une image de 28x28 pixels par translation jusqu'à ce que le centre de gravité des pixels soit au centre de l'image. Le processus de sous-échantillonnage a été reconstitué en détail.

L'ensemble d'entraînement et l'ensemble de test comportaient tous deux initialement 60 000 échantillons, mais 50 000 échantillons de l'ensemble de test ont été écartés, et seuls les échantillons indexés de 24 476 à 34 475 ont été utilisés, ce qui ne donne que 10 000 échantillons dans l'ensemble de test.

Versions ultérieures

En 2019, l'ensemble de test complet de 60 000 images de MNIST a été restauré pour construire QMNIST, qui comporte 60 000 images dans l'ensemble d'entraînement et 60 000 dans l'ensemble de test.

MNIST étendu (EMNIST) est un jeu de données plus récent, développé et publié par le NIST pour succéder (définitivement) à MNIST, publié en 2017. MNIST ne comprenait que des images de chiffres manuscrits. EMNIST a été constitué à partir de toutes les images de SD-19, converties au même format 28x28 pixels, selon le même procédé que les images MNIST. Par conséquent, les outils compatibles avec MNIST devraient fonctionner sans modification avec EMNIST.

Fashion MNIST a été créé en 2017 comme une alternative plus exigeante à MNIST. L'ensemble de données se compose de 70 000 images en niveaux de gris de 28 × 28 pixels représentant des produits de mode répartis en 10 catégories.

Performance

Certains chercheurs ont obtenu des performances quasi humaines sur la base de données MNIST, en utilisant un ensemble de réseaux neuronaux ; dans le même article, les auteurs obtiennent des performances deux fois supérieures à celles des humains sur d’autres tâches de reconnaissance. Le taux d’erreur le plus élevé répertorié sur le site web original de la base de données est de 12 %, obtenu à l’aide d’un classificateur linéaire simple sans prétraitement.

En 2004, un taux d'erreur optimal de 0,42 pour cent a été atteint sur la base de données par des chercheurs utilisant un nouveau classificateur appelé LIRA, qui est un classificateur neuronal à trois couches de neurones basé sur les principes du perceptron de Rosenblatt .

Certaines études ont eu recours à l'augmentation de données pour accroître la taille de l'ensemble de données d'entraînement et, par conséquent, améliorer les performances. Les systèmes utilisés dans ces cas sont généralement des réseaux de neurones et les distorsions appliquées sont généralement des distorsions affines ou élastiques . Ces systèmes peuvent parfois obtenir d'excellents résultats ; l'un d'eux a atteint un taux d'erreur de 0,39 % sur la base de données.

En 2011, des chercheurs utilisant un système de réseaux de neurones similaire ont rapporté un taux d'erreur de 0,27 %, améliorant ainsi le meilleur résultat précédent. En 2013, une approche basée sur la régularisation des réseaux de neurones à l'aide de DropConnect a permis d'atteindre un taux d'erreur de 0,21 %. En 2016, la meilleure performance obtenue avec un réseau de neurones convolutif unique était un taux d'erreur de 0,25 %. En août 2018, la meilleure performance d'un réseau de neurones convolutif unique entraîné sur les données d'entraînement MNIST sans augmentation de données était de 0,25 %. Par ailleurs, le Centre de calcul parallèle de Khmelnytskyï (Ukraine) a obtenu un ensemble de seulement 5 réseaux de neurones convolutifs performant sur MNIST avec un taux d'erreur de 0,21 %.

Classificateurs

Voici un tableau répertoriant certaines des méthodes d'apprentissage automatique utilisées sur l'ensemble de données et leurs taux d'erreur, par type de classificateur :

Taper	Classificateur	Augmentation des données	Prétraitement	Taux d'erreur (%)
classificateur linéaire	classificateur linéaire par paires	transformation affine	Désalignement	7.6
K plus proches voisins	K-NN avec transformations rigides	?	Aucun	0,96
K plus proches voisins	K-NN avec déformation non linéaire (P2DHMDM)	?	Bords déplaçables	0,52
Souches renforcées	Produit de souches sur les caractéristiques de Haar	?	Caractéristiques de Haar	0,87
Classificateur non linéaire	40 PCA + classificateur quadratique	transformation affine	Aucun	3.3
Forêt aléatoire	Forêts aléatoires unifiées rapides pour la survie, la régression et la classification (RF-SRC)	?	importance statistique simple des pixels	2.8
Machine à vecteurs de support (SVM)	SVM virtuel , polygone de degré 9, gigue de 2 pixels	?	Désalignement	0,56
Perceptron multicouche (MLP)	2 couches 784-800-10	Aucun	Aucun	1.6
	2 couches 784-800-10	transformation affine	Aucun	1.1
	2 couches 784-800-10	Déformation élastique	Aucun	0,7
	3 couches 784-1000-500-10	Distorsion élastique et transformation affine	Aucun	0,49
	6 couches 784-2500-2000-1500-1000-500-10	Distorsion élastique et transformation affine	Aucun	0,35
Réseau neuronal convolutif (CNN)	6 couches 784-40-80-500-1000-2000-10	Oui	Aucun	0,31
	6 couches 784-50-100-500-1000-10-10	Oui	Aucun	0,27
	13 couches 64-128(5x)-256(3x)-512-2048-256-256-10	Aucun	Aucun	0,25
	Comité des 35 CNN, 1-20-P-40-P-150-10	Déformation élastique	Normalisations de largeur	0,23
	Comité de 5 CNN, 6 couches 784-50-100-500-1000-10-10	Oui	Aucun	0,21
	Comité de 20 CNNS avec des réseaux de compression et d'excitation	Oui	Aucun	0,17
	Ensemble de 3 CNN avec des tailles de noyau variables	Rotation et translation	Aucun	0,09