Le logiciel de reconnaissance d'images, ou vision par ordinateur, permet aux applications de comprendre les images ou les vidéos. Ce logiciel prend des images en entrée, et un algorithme de vision par ordinateur fournit une sortie, telle qu'une étiquette ou une boîte de délimitation.
D'autres aspects de la reconnaissance d'images incluent la restauration d'images, la reconnaissance d'objets et la reconstruction de scènes. Ces capacités sont généralement intégrées dans des applications intelligentes.
Le logiciel de reconnaissance d'images peut être utilisé par les data scientists pour entraîner des modèles de reconnaissance d'images, ainsi que par les développeurs cherchant à ajouter des fonctionnalités de reconnaissance d'images à d'autres logiciels. Le type d'utilisateur déterminerait le format dans lequel ce logiciel est accessible, que ce soit via une bibliothèque ou un cadre d'apprentissage automatique, une API ou un SDK, ou une plateforme de bout en bout.
Ce type de logiciel doit être distingué des formes de logiciels connexes. Par exemple, bien que les plateformes de science des données et d'apprentissage automatique fournissent fréquemment des outils pour entraîner des modèles de vision par ordinateur, elles sont largement axées et non exclusivement orientées vers la reconnaissance d'images.
De plus, bien que la reconnaissance d'images soit techniquement une forme d'apprentissage automatique (ML), la catégorie d'apprentissage automatique est axée sur des outils, tels que des logiciels, des API, des SDK et des cadres, qui fournissent d'autres capacités de ML comme les moteurs de recommandation et la reconnaissance de motifs. En outre, les logiciels spécifiquement conçus pour la reconnaissance de texte peuvent être trouvés dans la catégorie de reconnaissance optique de caractères (OCR).
Bien que de nombreuses solutions de reconnaissance d'images soient polyvalentes et permettent la reconnaissance de divers types d'images et d'objets, certaines ont des focalisations particulières.
Ces focalisations incluent la détection de logos, la reconnaissance faciale, la détection d'objets et la détection de contenu explicite. De plus, certains de ces produits ne peuvent traiter que des fichiers image, tandis que d'autres peuvent également traiter des vidéos.
Enfin, bien que la plupart de ces outils fonctionnent dans le cloud (c'est-à-dire qu'il faut envoyer l'image au cloud pour qu'elle soit traitée), certains offrent la possibilité de traitement d'image en périphérie ou sur l'appareil.
Pour être inclus dans la catégorie Reconnaissance d'images, un produit doit :
Fournir un algorithme d'apprentissage profond spécifiquement pour la reconnaissance d'images
Se connecter à des pools de données d'images pour apprendre une solution ou une fonction spécifique
Consommer les données d'image en tant qu'entrée et fournir une sortie
Fournir des capacités de reconnaissance d'images à d'autres applications, processus ou services