Bildverarbeitungssoftware, oder Computer Vision, ermöglicht es Anwendungen, Bilder oder Videos zu verstehen. Diese Software nimmt Bilder als Eingabe, und ein Computer-Vision-Algorithmus liefert eine Ausgabe, wie z.B. ein Label oder einen Begrenzungsrahmen.
Einige andere Aspekte der Bilderkennung umfassen Bildrestaurierung, Objekterkennung und Szenenrekonstruktion. Diese Fähigkeiten sind typischerweise in intelligente Anwendungen eingebettet.
Bilderkennungssoftware kann von Datenwissenschaftlern verwendet werden, um Bilderkennungsmodelle zu trainieren, sowie von Entwicklern, die Bilderkennungsfunktionen zu anderer Software hinzufügen möchten. Der Typ des Benutzers würde das Format bestimmen, in dem diese Software zugänglich ist, sei es über eine maschinelle Lernbibliothek oder ein Framework, eine API oder ein SDK, oder eine End-to-End-Plattform.
Diese Art von Software sollte von verwandten Formen von Software unterschieden werden. Zum Beispiel, obwohl Datenwissenschafts- und maschinelle Lernplattformen häufig Werkzeuge zum Trainieren von Computer-Vision-Modellen bereitstellen, sind sie breit gefächert und nicht ausschließlich auf Bilderkennung ausgerichtet.
Darüber hinaus, während Bilderkennung technisch eine Form des maschinellen Lernens (ML) ist, konzentriert sich die Kategorie des maschinellen Lernens auf Werkzeuge, wie Software, APIs, SDKs und Frameworks, die andere ML-Fähigkeiten wie Empfehlungssysteme und Mustererkennung bieten. Weiterhin kann Software, die speziell für die Erkennung von Text entwickelt wurde, in der Kategorie der optischen Zeichenerkennung (OCR) gefunden werden.
Obwohl viele Bilderkennungslösungen vielseitig sind und die Erkennung verschiedener Arten von Bildern und Objekten ermöglichen, haben einige besondere Schwerpunkte.
Diese Schwerpunkte umfassen Logoerkennung, Gesichtserkennung, Objekterkennung und Erkennung von expliziten Inhalten. Darüber hinaus können einige dieser Produkte nur Bilddateien verarbeiten, während andere auch Videos verarbeiten können.
Schließlich, während die meisten dieser Werkzeuge in der Cloud arbeiten (d.h. man muss das Bild zur Verarbeitung in die Cloud senden), bieten einige die Möglichkeit zur Bildverarbeitung am Rand oder auf dem Gerät.
Um sich für die Aufnahme in die Kategorie der Bilderkennung zu qualifizieren, muss ein Produkt:
Einen Deep-Learning-Algorithmus speziell für die Bilderkennung bereitstellen
Sich mit Bilddatensammlungen verbinden, um eine spezifische Lösung oder Funktion zu erlernen
Die Bilddaten als Eingabe konsumieren und eine Ausgabe bereitstellen
Bilderkennungsfähigkeiten für andere Anwendungen, Prozesse oder Dienste bereitstellen