La reconnaissance d'objets est une technologie de vision par ordinateur permettant de trouver et d'identifier des objets dans une image ou une séquence vidéo. L'être humain reconnaît aisément une multitude d'objets dans les images, malgré les variations possibles de leur apparence selon le point de vue, leur taille, leur échelle, ou encore leur translation ou rotation. Il est même possible de reconnaître des objets partiellement masqués. Cette tâche reste un défi pour les systèmes de vision par ordinateur. Les algorithmes de correspondance de formes sont couramment utilisés pour identifier des pièces sur les images d'inspection, mais ils nécessitent des calculs mathématiques très complexes. De nombreuses approches ont été développées au cours des dernières décennies.Détection des contours
Reconnaissance par parties
- Thomas Binford )
- Geons ( Irving Biederman )
- Dickinson, Forsyth et Ponce
Méthodes basées sur l'apparence
- Utilisez des exemples d'images (appelées modèles ou exemplaires) des objets pour effectuer la reconnaissance.
- Les objets ont une apparence différente selon les conditions :
- Changements d'éclairage ou de couleur
- Changements de direction du regard
- Changements de taille/forme
- Il est peu probable qu'un seul exemple soit concluant. Cependant, il est impossible de représenter toutes les apparences d'un objet.
Correspondance des bords
- Utilise des techniques de détection de contours, telles que la détection de contours de Canny , pour trouver les contours.
- Les variations de luminosité et de couleur n'ont généralement que peu d'effet sur les contours de l'image.
- Stratégie:
- Détection des contours dans le modèle et l'image
- Comparez les images des bords pour trouver le modèle
- Il faut tenir compte de l'éventail des positions possibles du modèle
- Mesures :
- Bien – compte le nombre de bords qui se chevauchent. Peu robuste aux changements de forme.
- Mieux encore : compter le nombre de pixels de bord du modèle situés à une certaine distance d’un bord de l’image recherchée.
- Il est préférable de déterminer la distribution de probabilité de la distance au bord le plus proche dans l'image recherchée (si le gabarit est correctement positionné). Il faut ensuite estimer la probabilité que chaque position du gabarit génère une image.
Recherche par division et conquête
- Stratégie:
- Considérons toutes les positions comme un ensemble (une cellule dans l'espace des positions).
- Déterminer la limite inférieure du score à la meilleure position dans la cellule
- Si la limite est trop grande, élaguer la cellule
- Si la limite n'est pas trop grande, divisez la cellule en sous-cellules et essayez chaque sous-cellule de manière récursive.
- Le processus s'arrête lorsque la cellule est « suffisamment petite ».
- Contrairement à la recherche multi-résolution, cette technique garantit la découverte de toutes les correspondances répondant au critère (en supposant que la borne inférieure soit précise).
- Trouver la limite :
- Pour trouver la limite inférieure du meilleur score, examinez le score de la position du modèle représentée par le centre de la cellule.
- Soustraire la variation maximale de la position « centrale » pour toute autre position dans la cellule (se produit aux coins de la cellule).
- Les complexités découlent de la détermination des limites de la distance.eigenfaces ).
- Les bases de modèles sont une collection de modèles géométriques des objets qui doivent être reconnus
Méthodes basées sur les caractéristiques
- taches de surface
- coins
- bords linéaires
Arbres d'interprétation
- Une méthode pour rechercher des correspondances possibles consiste à parcourir un arbre.
- Chaque nœud de l'arbre représente un ensemble de correspondances.
- Le nœud racine représente un ensemble vide
- Chaque autre nœud est l'union des correspondances du nœud parent et d'une correspondance supplémentaire.
- Le caractère générique est utilisé pour les fonctionnalités sans correspondance.
- Les nœuds sont « élagués » lorsque l'ensemble des correspondances est irréalisable.
- Un nœud élagué n'a pas d'enfants
- Historiquement significatif et encore utilisé, mais moins fréquemment
Émettre une hypothèse et la tester
- Idée générale :
- Émettre l'hypothèse d'une correspondance entre un ensemble de caractéristiques d'image et un ensemble de caractéristiques d'objet.
- Utilisez ensuite cela pour formuler une hypothèse concernant la projection du repère de l'objet vers le repère de l'image.
- Utilisez cette hypothèse de projection pour générer un rendu de l'objet. Cette étape est généralement appelée rétroprojection.
- Comparez le rendu à l'image et, si les deux sont suffisamment similaires, acceptez l'hypothèse.
- Obtention d'une hypothèse :
- Il existe différentes manières de formuler des hypothèses.
- Lorsque les paramètres intrinsèques de la caméra sont connus, l'hypothèse équivaut à une position et une orientation hypothétiques – une pose – pour l'objet.
- Utiliser les contraintes géométriques
- Établir une correspondance entre les petits ensembles de caractéristiques de l'objet et chaque sous-ensemble de points de l'image de taille appropriée. (Ce sont les hypothèses.)
- Trois approches fondamentales :
- Obtention d'hypothèses par cohérence de pose
- Obtention d'hypothèses par regroupement de poses
- Obtention d'hypothèses à l'aide d'invariants
- Recherche de dépenses également redondante, mais qui peut être améliorée par randomisation et/ou regroupement.
- Randomisation
- Examiner de petits ensembles de caractéristiques d'image jusqu'à ce que la probabilité de manquer l'objet devienne faible.
- Pour chaque ensemble de caractéristiques d'image, tous les ensembles de caractéristiques de modèle correspondants possibles doivent être pris en compte.
- Formule:
- (1 – W c ) k = Z
- W = la fraction des points d'image qui sont « bons » (w ~ m/n)
- c = le nombre de correspondances nécessaires
- k = le nombre d'essais
- Z = la probabilité que chaque essai utilise une (ou plusieurs) correspondance(s) incorrecte(s)
- Regroupement
- Si nous pouvons identifier des groupes de points susceptibles de provenir du même objet, nous pouvons réduire le nombre d'hypothèses à examiner.
- Randomisation
Cohérence de la pose
- Également appelé alignement, puisque l'objet est aligné sur l'image
- Les correspondances entre les caractéristiques de l'image et celles du modèle ne sont pas indépendantes – Contraintes géométriques
- Un petit nombre de correspondances permet de déterminer la position de l'objet ; les autres doivent être cohérentes avec cela.
- Idée générale :
- Si nous formulons l'hypothèse d'une correspondance entre un groupe suffisamment important de caractéristiques d'image et un groupe suffisamment important de caractéristiques d'objet, alors nous pouvons récupérer les paramètres manquants de la caméra à partir de cette hypothèse (et ainsi rendre le reste de l'objet).
- Stratégie:
- Générer des hypothèses à partir d'un petit nombre de correspondances (par exemple, des triplets de points pour la reconnaissance 3D).
- Projetez d'autres caractéristiques du modèle dans l'image ( rétroprojection ) et vérifiez les correspondances supplémentaires.
- Utilisez le nombre minimal de correspondances nécessaires pour obtenir des poses d'objets discrètes.
- Idée générale :
- Chaque objet donne lieu à de nombreux ensembles de correspondances correctes, chacun ayant (à peu près) la même pose.
- Votez pour la pose. Utilisez un tableau accumulateur qui représente l'espace de pose pour chaque objet.
- Il s'agit essentiellement d'une transformation de Hough
- Stratégie:
- Pour chaque objet, configurez un tableau accumulateur qui représente l'espace de pose – chaque élément du tableau accumulateur correspond à un « seau » dans l'espace de pose.
- Ensuite, prenez chaque groupe d'images et émettez l'hypothèse d'une correspondance entre celui-ci et chaque groupe d'images de chaque objet.
- Pour chacune de ces correspondances, déterminez les paramètres de pose et effectuez une entrée dans le tableau accumulateur pour l'objet actuel à la valeur de pose.
- Si le tableau accumulateur d'un objet contient un grand nombre de votes, cela peut être interprété comme une preuve de la présence de cet objet à cette position.
- Les preuves peuvent être vérifiées à l'aide d'une méthode de vérification.
- Notez que cette méthode utilise des ensembles de correspondances, plutôt que des correspondances individuelles.
- La mise en œuvre est plus facile, car chaque ensemble donne un petit nombre de poses d'objets possibles.
- Amélioration
- La robustesse de cette méthode face au bruit peut être améliorée en ne comptabilisant pas les votes pour les objets dans des positions où le vote est manifestement peu fiable.
- § Par exemple, dans les cas où, si l'objet était dans cette pose, le groupe de cadres d'objet serait invisible.
- Ces améliorations suffisent à obtenir des systèmes fonctionnels.
- Il existe des propriétés géométriques invariantes aux transformations de la caméra.
- Plus facile à mettre en œuvre pour les images d'objets plans, mais peut également être appliquée à d'autres cas.
- Un algorithme qui utilise des invariants géométriques pour voter en faveur d'hypothèses sur les objets.
- Similaire au regroupement de poses, mais au lieu de voter sur la pose, nous votons maintenant sur la géométrie.
- Une technique initialement développée pour faire correspondre des caractéristiques géométriques (vues affines non calibrées de modèles plans) à une base de données de telles caractéristiques
- Largement utilisé pour la reconnaissance de formes, la CAO/FAO et l'imagerie médicale.
- Il est difficile de choisir la taille des seaux.
- Il est difficile de définir précisément ce que signifie « suffisant ». Par conséquent, il existe un risque que la table soit encombrée.
- Les points clés des objets sont d'abord extraits d'un ensemble d'images de référence et stockés dans une base de données.
- Un objet est reconnu dans une nouvelle image en comparant individuellement chaque caractéristique de la nouvelle image à cette base de données et en trouvant des caractéristiques correspondantes candidates en fonction de la distance euclidienne de leurs vecteurs de caractéristiques.
- Lowe (2004)
- Un détecteur et descripteur d'images robuste
- La version standard est plusieurs fois plus rapide que SIFT et, selon ses auteurs, elle est plus robuste face aux différentes transformations d'images que SIFT.
- Basé sur des sommes de réponses approximatives d'ondelettes de Haar 2D et utilisant efficacement des images intégrales.
- Bay et al. (2008)
Sac de représentations de mots
Autres approches
- Reconnaissance et reconstruction d'objets 3D
- Reconnaissance d'objets bio-inspirée
- Réseaux de neurones artificiels et apprentissage profond, en particulier les réseaux de neurones convolutifs
- Contexte
- Modèles d'objets 3D explicites et implicites
- Grammaires stochastiques
- Apprentissage par transfert intraclasse
- Catégorisation d'objets à partir de la recherche d'images
- Réflectance
- Forme à partir de l'ombrage
- Correspondance de modèles
- Texture
- Modèles thématiques
- Apprentissage non supervisé
- Distribution de Bingham
Applications
Les méthodes de reconnaissance d'objets ont les applications suivantes :
- Reconnaissance d'activité
- Annotation automatique d'images
- Reconnaissance automatique de cibles
- Diagnostic assisté par ordinateur
- Panoramas d'images
- Tatouage numérique d'images
- Localisation globale des robots
- Détection du visage
- Reconnaissance optique de caractères
- Contrôle de la qualité de la fabrication
- Recherche d'images basée sur le contenu
- Systèmes de stationnement automatisés
- Positionnement et suivi visuels
- Stabilisation vidéo
- Détection des piétons
- Assistance intelligente à la vitesse (dans les voitures et autres véhicules)
Enquêtes
- Daniilides et Eklundh, Edelman.
- Roth, Peter M. et Winter, Martin (2008). « Méthodes d'évaluation de l'apparence pour la reconnaissance d'objets » (PDF) . Rapport technique . ICG-TR-01/08. Archivé de l'original (PDF) le 21 septembre 2015.