Aperçu de la reconnaissance d'objets

Cette illustration met en évidence que, si certaines images sont plus faciles à reconnaître, d'autres sont plus difficiles à identifier.

La reconnaissance d'objets est une technologie de vision par ordinateur permettant de trouver et d'identifier des objets dans une image ou une séquence vidéo. L'être humain reconnaît aisément une multitude d'objets dans les images, malgré les variations possibles de leur apparence selon le point de vue, leur taille, leur échelle, ou encore leur translation ou rotation. Il est même possible de reconnaître des objets partiellement masqués. Cette tâche reste un défi pour les systèmes de vision par ordinateur. Les algorithmes de correspondance de formes sont couramment utilisés pour identifier des pièces sur les images d'inspection, mais ils nécessitent des calculs mathématiques très complexes. De nombreuses approches ont été développées au cours des dernières décennies.Détection des contours

Croquis primitif

Marr, Mohan et Nevatia

Lowe

Olivier Faugeras

Reconnaissance par parties

Thomas Binford )
Geons ( Irving Biederman )
Dickinson, Forsyth et Ponce

Méthodes basées sur l'apparence

Utilisez des exemples d'images (appelées modèles ou exemplaires) des objets pour effectuer la reconnaissance.
Les objets ont une apparence différente selon les conditions :
- Changements d'éclairage ou de couleur
- Changements de direction du regard
- Changements de taille/forme
Il est peu probable qu'un seul exemple soit concluant. Cependant, il est impossible de représenter toutes les apparences d'un objet.

Correspondance des bords

Utilise des techniques de détection de contours, telles que la détection de contours de Canny , pour trouver les contours.
Les variations de luminosité et de couleur n'ont généralement que peu d'effet sur les contours de l'image.
Stratégie:
1. Détection des contours dans le modèle et l'image
2. Comparez les images des bords pour trouver le modèle
3. Il faut tenir compte de l'éventail des positions possibles du modèle
Mesures :
- Bien – compte le nombre de bords qui se chevauchent. Peu robuste aux changements de forme.
- Mieux encore : compter le nombre de pixels de bord du modèle situés à une certaine distance d’un bord de l’image recherchée.
- Il est préférable de déterminer la distribution de probabilité de la distance au bord le plus proche dans l'image recherchée (si le gabarit est correctement positionné). Il faut ensuite estimer la probabilité que chaque position du gabarit génère une image.

Recherche par division et conquête

Stratégie:
- Considérons toutes les positions comme un ensemble (une cellule dans l'espace des positions).
- Déterminer la limite inférieure du score à la meilleure position dans la cellule
- Si la limite est trop grande, élaguer la cellule
- Si la limite n'est pas trop grande, divisez la cellule en sous-cellules et essayez chaque sous-cellule de manière récursive.
- Le processus s'arrête lorsque la cellule est « suffisamment petite ».
Contrairement à la recherche multi-résolution, cette technique garantit la découverte de toutes les correspondances répondant au critère (en supposant que la borne inférieure soit précise).
Trouver la limite :
- Pour trouver la limite inférieure du meilleur score, examinez le score de la position du modèle représentée par le centre de la cellule.
- Soustraire la variation maximale de la position « centrale » pour toute autre position dans la cellule (se produit aux coins de la cellule).
Les complexités découlent de la détermination des limites de la distance.eigenfaces ).
Les bases de modèles sont une collection de modèles géométriques des objets qui doivent être reconnus

Méthodes basées sur les caractéristiques

les caractéristiques de l'image .

La contrainte principale est qu'une seule position de l'objet doit permettre de prendre en compte toutes les correspondances possibles.

méthodes permettant d'extraire des caractéristiques des objets à reconnaître et des images à analyser.

taches de surface
coins
bords linéaires

Arbres d'interprétation

Une méthode pour rechercher des correspondances possibles consiste à parcourir un arbre.
Chaque nœud de l'arbre représente un ensemble de correspondances.
- Le nœud racine représente un ensemble vide
- Chaque autre nœud est l'union des correspondances du nœud parent et d'une correspondance supplémentaire.
- Le caractère générique est utilisé pour les fonctionnalités sans correspondance.
Les nœuds sont « élagués » lorsque l'ensemble des correspondances est irréalisable.
- Un nœud élagué n'a pas d'enfants
Historiquement significatif et encore utilisé, mais moins fréquemment

Émettre une hypothèse et la tester

Idée générale :
- Émettre l'hypothèse d'une correspondance entre un ensemble de caractéristiques d'image et un ensemble de caractéristiques d'objet.
- Utilisez ensuite cela pour formuler une hypothèse concernant la projection du repère de l'objet vers le repère de l'image.
- Utilisez cette hypothèse de projection pour générer un rendu de l'objet. Cette étape est généralement appelée rétroprojection.
- Comparez le rendu à l'image et, si les deux sont suffisamment similaires, acceptez l'hypothèse.
Obtention d'une hypothèse :
- Il existe différentes manières de formuler des hypothèses.
- Lorsque les paramètres intrinsèques de la caméra sont connus, l'hypothèse équivaut à une position et une orientation hypothétiques – une pose – pour l'objet.
- Utiliser les contraintes géométriques
- Établir une correspondance entre les petits ensembles de caractéristiques de l'objet et chaque sous-ensemble de points de l'image de taille appropriée. (Ce sont les hypothèses.)
Trois approches fondamentales :
- Obtention d'hypothèses par cohérence de pose
- Obtention d'hypothèses par regroupement de poses
- Obtention d'hypothèses à l'aide d'invariants
Recherche de dépenses également redondante, mais qui peut être améliorée par randomisation et/ou regroupement.
- Randomisation
  - Examiner de petits ensembles de caractéristiques d'image jusqu'à ce que la probabilité de manquer l'objet devienne faible.
  - Pour chaque ensemble de caractéristiques d'image, tous les ensembles de caractéristiques de modèle correspondants possibles doivent être pris en compte.
  - Formule:
    (1 – W ^c ) ^k = Z
    - W = la fraction des points d'image qui sont « bons » (w ~ m/n)
    - c = le nombre de correspondances nécessaires
    - k = le nombre d'essais
    - Z = la probabilité que chaque essai utilise une (ou plusieurs) correspondance(s) incorrecte(s)
- Regroupement
  - Si nous pouvons identifier des groupes de points susceptibles de provenir du même objet, nous pouvons réduire le nombre d'hypothèses à examiner.

Cohérence de la pose

Également appelé alignement, puisque l'objet est aligné sur l'image
Les correspondances entre les caractéristiques de l'image et celles du modèle ne sont pas indépendantes – Contraintes géométriques
Un petit nombre de correspondances permet de déterminer la position de l'objet ; les autres doivent être cohérentes avec cela.
Idée générale :
- Si nous formulons l'hypothèse d'une correspondance entre un groupe suffisamment important de caractéristiques d'image et un groupe suffisamment important de caractéristiques d'objet, alors nous pouvons récupérer les paramètres manquants de la caméra à partir de cette hypothèse (et ainsi rendre le reste de l'objet).
Stratégie:
- Générer des hypothèses à partir d'un petit nombre de correspondances (par exemple, des triplets de points pour la reconnaissance 3D).
- Projetez d'autres caractéristiques du modèle dans l'image ( rétroprojection ) et vérifiez les correspondances supplémentaires.
Utilisez le nombre minimal de correspondances nécessaires pour obtenir des poses d'objets discrètes.

Regroupement de poses

Idée générale :
- Chaque objet donne lieu à de nombreux ensembles de correspondances correctes, chacun ayant (à peu près) la même pose.
- Votez pour la pose. Utilisez un tableau accumulateur qui représente l'espace de pose pour chaque objet.
- Il s'agit essentiellement d'une transformation de Hough
Stratégie:
- Pour chaque objet, configurez un tableau accumulateur qui représente l'espace de pose – chaque élément du tableau accumulateur correspond à un « seau » dans l'espace de pose.
- Ensuite, prenez chaque groupe d'images et émettez l'hypothèse d'une correspondance entre celui-ci et chaque groupe d'images de chaque objet.
- Pour chacune de ces correspondances, déterminez les paramètres de pose et effectuez une entrée dans le tableau accumulateur pour l'objet actuel à la valeur de pose.
- Si le tableau accumulateur d'un objet contient un grand nombre de votes, cela peut être interprété comme une preuve de la présence de cet objet à cette position.
- Les preuves peuvent être vérifiées à l'aide d'une méthode de vérification.
Notez que cette méthode utilise des ensembles de correspondances, plutôt que des correspondances individuelles.
- La mise en œuvre est plus facile, car chaque ensemble donne un petit nombre de poses d'objets possibles.
Amélioration
- La robustesse de cette méthode face au bruit peut être améliorée en ne comptabilisant pas les votes pour les objets dans des positions où le vote est manifestement peu fiable.
§ Par exemple, dans les cas où, si l'objet était dans cette pose, le groupe de cadres d'objet serait invisible.
- Ces améliorations suffisent à obtenir des systèmes fonctionnels.

Invariance

Il existe des propriétés géométriques invariantes aux transformations de la caméra.
Plus facile à mettre en œuvre pour les images d'objets plans, mais peut également être appliquée à d'autres cas.

Hachage géométrique

Un algorithme qui utilise des invariants géométriques pour voter en faveur d'hypothèses sur les objets.
Similaire au regroupement de poses, mais au lieu de voter sur la pose, nous votons maintenant sur la géométrie.
Une technique initialement développée pour faire correspondre des caractéristiques géométriques (vues affines non calibrées de modèles plans) à une base de données de telles caractéristiques
Largement utilisé pour la reconnaissance de formes, la CAO/FAO et l'imagerie médicale.
Il est difficile de choisir la taille des seaux.
Il est difficile de définir précisément ce que signifie « suffisant ». Par conséquent, il existe un risque que la table soit encombrée.

Transformation de caractéristiques invariantes d'échelle (SIFT)

Les points clés des objets sont d'abord extraits d'un ensemble d'images de référence et stockés dans une base de données.
Un objet est reconnu dans une nouvelle image en comparant individuellement chaque caractéristique de la nouvelle image à cette base de données et en trouvant des caractéristiques correspondantes candidates en fonction de la distance euclidienne de leurs vecteurs de caractéristiques.
Lowe (2004)

Fonctionnalités robustes accélérées (SURF)

Un détecteur et descripteur d'images robuste
La version standard est plusieurs fois plus rapide que SIFT et, selon ses auteurs, elle est plus robuste face aux différentes transformations d'images que SIFT.
Basé sur des sommes de réponses approximatives d'ondelettes de Haar 2D et utilisant efficacement des images intégrales.
Bay et al. (2008)

Sac de représentations de mots

Les algorithmes génétiques peuvent fonctionner sans connaissance préalable d'un ensemble de données donné et développer des procédures de reconnaissance sans intervention humaine. Un projet récent a atteint une précision de 100 % sur les ensembles de données de référence d'images de motos, de visages, d'avions et de voitures de Caltech et une précision de 99,4 % sur les ensembles de données d'images d'espèces de poissons.

Autres approches

Reconnaissance et reconstruction d'objets 3D
Reconnaissance d'objets bio-inspirée
Réseaux de neurones artificiels et apprentissage profond, en particulier les réseaux de neurones convolutifs
Contexte
Modèles d'objets 3D explicites et implicites
Grammaires stochastiques
Apprentissage par transfert intraclasse
Catégorisation d'objets à partir de la recherche d'images
Réflectance
Forme à partir de l'ombrage
Correspondance de modèles
Texture
Modèles thématiques
Apprentissage non supervisé
Distribution de Bingham

Applications

Les méthodes de reconnaissance d'objets ont les applications suivantes :

Reconnaissance d'activité
Annotation automatique d'images
Reconnaissance automatique de cibles
Diagnostic assisté par ordinateur
Panoramas d'images
Tatouage numérique d'images
Localisation globale des robots
Détection du visage
Reconnaissance optique de caractères
Contrôle de la qualité de la fabrication
Recherche d'images basée sur le contenu
Systèmes de stationnement automatisés
Positionnement et suivi visuels
Stabilisation vidéo
Détection des piétons
Assistance intelligente à la vitesse (dans les voitures et autres véhicules)

Enquêtes

Daniilides et Eklundh, Edelman.
Roth, Peter M. et Winter, Martin (2008). « Méthodes d'évaluation de l'apparence pour la reconnaissance d'objets » (PDF) . Rapport technique . ICG-TR-01/08. Archivé de l'original (PDF) le 21 septembre 2015. .