Introducing G2.ai, the future of software buying.Try now

Riconoscimento degli Oggetti: Cos'è e Come Funziona

Dicembre 20, 2024
da Shreya Mattoo

Il riconoscimento degli oggetti ha inaugurato un nuovo capitolo nella visione artificiale e nella robotica.

Mentre alcune aziende utilizzano il riconoscimento degli oggetti per autenticare le biometrie e verificare le credenziali dei dipendenti, altre vogliono costruire prodotti di automazione intelligente. Migliorare l'accuratezza dei dispositivi con software di riconoscimento delle immagini porterà a una migliore esperienza del consumatore e stabilità del marchio.

Ci sono stati rapidi progressi nel riconoscimento degli oggetti poiché diverse industrie come l'automotive, la sanità, l'e-commerce e il retail passano a software alimentati dall'IA. Ciò che spicca di più sono le caratteristiche come la navigazione in aree affollate, l'ottenimento di servizi più rapidi o il trasporto senza conducente e l'imaging medico che possono avere un impatto maggiore sull'umanità.

Il riconoscimento degli oggetti è un sottoinsieme dell'intelligenza artificiale che estrae informazioni necessarie o intuizioni critiche da un'immagine o un video. Mira ad aiutare un computer a vedere un'immagine esistente e scomporla in una serie di pixel per riconoscere un modello o una forma specifica.

Un algoritmo di riconoscimento degli oggetti AI di successo dipende dalla qualità dei dati necessari per addestrarlo. Più dati significano che il modello classificherà più rapidamente gli oggetti in base alle caratteristiche conosciute.

Il riconoscimento degli oggetti è un processo di pensiero umano per decifrare gli oggetti e calcolare la rappresentazione algoritmica dei vettori all'interno degli oggetti per categorizzarli.

Tipi di riconoscimento degli oggetti

Il riconoscimento degli oggetti combina quattro tecniche: riconoscimento delle immagini, localizzazione degli oggetti, rilevamento degli oggetti e segmentazione delle immagini. Il riconoscimento degli oggetti decodifica le caratteristiche e predice la categoria o classe dell'immagine attraverso un classificatore, ad esempio modelli di apprendimento automatico supervisionato come Support Vector Machine (SVM), Adaboost, Boosting o Decision Tree. Gli algoritmi di riconoscimento degli oggetti sono codificati in Darknet, un framework di rete neurale open-source scritto in C, Cuda o Python.

Ecco alcuni tipi essenziali di riconoscimento degli oggetti:

Riconoscimento delle immagini

Il riconoscimento delle immagini è un predecessore del riconoscimento degli oggetti. È una fase critica dell'intero processo, utilizzata per prevedere la categoria di qualsiasi immagine data. Ad esempio, se hai una foto di un cane nel parco, il sistema di riconoscimento delle immagini analizza le caratteristiche principali del cane: dimensione del viso, arti, tendini, ecc., e poi lo confronta con migliaia di immagini addestrate per visualizzare "cane" come output.

I 10 migliori software di riconoscimento delle immagini nel 2025

*Questi sono dieci software di riconoscimento delle immagini altamente valutati estratti dal Rapporto Grid di G2 dell'autunno 2024 a dicembre 2024.

Localizzazione degli oggetti

Questa tecnica viene utilizzata per individuare il luogo esatto di ogni tipo di oggetto in un'immagine. Se inserisci un'immagine con un cane e due gatti, crea una casella di delimitazione che racchiude tre cose: un cane e due gatti per individuare le coordinate di posizione, altezza e larghezza, insieme a una previsione di classe.

La localizzazione di un singolo oggetto identifica solo un'istanza di ogni oggetto e restituisce la sua posizione. Nell'esempio sopra, la localizzazione di un singolo oggetto restituisce il valore di un cane e un gatto, eliminando così il componente ridondante.

Rilevamento degli oggetti

Il sistema di rilevamento degli oggetti è simile al sistema di riconoscimento degli oggetti. L'obiettivo di un sistema di rilevamento degli oggetti è solo identificare e classificare tutte le occorrenze di un particolare oggetto o di un insieme di oggetti in un'immagine. Nel rilevamento degli oggetti, il sistema rileva automaticamente la presenza di un oggetto e ne prevede la classe.

Segmentazione delle immagini

Per la segmentazione delle immagini, una rete neurale o un algoritmo di apprendimento automatico viene addestrato per localizzare oggetti individuali in base ai pixel in un'immagine. Invece di creare un confine, analizza i pixel dell'oggetto individualmente e ne evidenzia la posizione per accertare la presenza dell'oggetto. Nel caso di oggetti parzialmente occlusi o nascosti, il sistema non restituisce alcun valore poiché non può trovare le controparti ombreggiate dell'immagine.

Ad esempio, se c'è una foto di un'auto, il sistema colora l'intera auto di rosso per evidenziarla insieme a una previsione di classe "auto" e un punteggio di fiducia "dell'85%". Questo output determina che il sistema è sicuro all'85% che l'oggetto nell'immagine sia un'auto.

Vuoi saperne di più su Software di Riconoscimento Immagini? Esplora i prodotti Riconoscimento delle immagini.

Riconoscimento degli oggetti vs rilevamento degli oggetti vs segmentazione delle immagini

Le differenze tra queste tecniche di visione artificiale dal suono simile possono essere confuse, specialmente quando tutte aiutano a compiere un compito simile.

or vs od vs isor-vs-od-vs-is

Il riconoscimento degli oggetti è un termine generale per descrivere un insieme di compiti di visione artificiale che coinvolgono l'identificazione di componenti di un mondo reale utilizzando la modellazione degli oggetti. Nel trattamento digitale delle immagini, il riconoscimento degli oggetti viene utilizzato per classificare oggetti tangibili e intangibili, come fa il cervello umano. Utilizza una tecnica di "estrazione delle caratteristiche" e "pooling delle regioni" per raggruppare componenti che hanno caratteristiche comuni e alimentarlo a un algoritmo semi-supervisionato per la classificazione.

Il modello di rilevamento degli oggetti è un intermediario tra il sistema e l'immagine. Assiste nella categorizzazione multi-classe degli oggetti tra diverse classi di dati conosciute dal modello. Il rilevamento degli oggetti aiuta a determinare l'essenza di un'entità in qualsiasi forma o forma: dritta, storta, occlusa, ecc. È abbastanza capace di individuare più occorrenze di una singola entità e produrre tutte le caselle di delimitazione necessarie. Non può estrapolare l'area, il volume o il perimetro dell'oggetto nell'immagine.

La segmentazione delle immagini è un'estensione del riconoscimento degli oggetti. Questa tecnica oggetti utilizzando la pixelazione di un'area particolare dell'oggetto o dell'immagine completa. È una forma più granulare di riconoscimento degli oggetti in cui l'intera immagine viene scansionata e delineata dai pixel e interpretata dal computer per trovare la categoria rilevante. Ci sono due tipi di metodi di segmentazione delle immagini:

  • Segmentazione delle istanze: Identificare i confini di ogni istanza di un oggetto e rappresentarlo con colori diversi, segnalando la classe corretta.
  • Segmentazione semantica: Etichettare ogni pixel nell'immagine (incluso lo sfondo) e impostare contrasti di illuminazione per differenziare gli oggetti l'uno dall'altro.

Riconoscimento degli oggetti vs riconoscimento delle immagini

La visione artificiale è una tecnologia stratificata, con uno o più compiti che si fondono l'uno con l'altro. Il riconoscimento degli oggetti e il riconoscimento delle immagini ne sono una testimonianza. Entrambe le tecniche hanno segnato traguardi degni di nota in molti domini con gli stessi benefici.

ir-vs-or

Riconoscimento delle Immagini Riconoscimento degli Oggetti
Il riconoscimento delle immagini prevede la classe di un'immagine o video nel suo insieme. Il riconoscimento degli oggetti identifica più oggetti in un'immagine o video con etichette definite.
Raggruppa la classe dell'immagine e gli interi descrittivi insieme per visualizzare l'output chiave. Raggruppa insieme classe, posizione, frequenza e altri fattori degli oggetti.
Gli utenti possono scansionare un codice di risposta rapida (QR) per ancorare contenuti digitali su un'immagine. Gli utenti possono far scorrere una fotocamera o uno smartphone per etichettare oggetti del mondo reale in tempo reale.
Una classe di elenco viene alimentata nel modello di addestramento per identificare le immagini. Potenti algoritmi di apprendimento automatico rilevano caratteristiche sconosciute per identificare gli oggetti.
Il modello è addestrato sull'algoritmo K-nearest neighbor A ogni oggetto viene assegnata una casella di delimitazione che prevede un punteggio di fiducia.
Nella catena di approvvigionamento, viene utilizzato per identificare determinati beni e classificarli come difettosi o non difettosi. Aiuta a eseguire il riconoscimento facciale in vari domini per rilevare intrusi e allertare il team interessato.

Come funziona il riconoscimento degli oggetti?

Un algoritmo di riconoscimento degli oggetti di successo ha due fattori influenti: l'efficienza dell'algoritmo e il numero di oggetti o caratteristiche nell'immagine. L'idea è di allineare l'immagine con l'algoritmo di apprendimento automatico ed estrarre le caratteristiche rilevanti per identificare e localizzare gli oggetti presenti in essa. Le caratteristiche possono essere di natura funzionale o geometrica.

Il risultato è sempre una previsione di classe lineare o binaria – Sì o No, qualunque sia il modello di dati che si utilizza. Ecco come funziona:

Estrazione delle caratteristiche

Gli estrattori di caratteristiche sono gli operatori che scompongono un'immagine in diverse parti deformate ed estraggono componenti sconosciuti per la classificazione. Viene principalmente ottenuto da un algoritmo di apprendimento automatico supervisionato o da un modello di rete neurale convoluzionale (CNN) addestrato come Alexnet o Inception. L'algoritmo crea una mappa delle caratteristiche dell'immagine per facilitare l'identificazione degli oggetti.

Casella di delimitazione

Ogni parte dell'immagine è racchiusa all'interno di una casella di delimitazione o casella di ancoraggio. La casella di delimitazione è statica per un'immagine ma dinamica per l'identificazione degli oggetti in un video. È un confine rettangolare che limita il movimento dell'oggetto o delle sue caratteristiche per una classificazione più semplice. Le caselle di delimitazione possono aiutare a estrarre informazioni come coordinate grafiche, punteggio di probabilità, altezza, larghezza, ecc. insieme a 25 altri elementi di dati.

Formazione dell'ipotesi

Il numero di caratteristiche dell'immagine estratte e la qualità dei dati di addestramento forniti all'algoritmo sono elementi critici della formazione dell'ipotesi. Dopo l'estrazione delle caratteristiche, il sistema genera un punteggio di probabilità e lo assegna agli oggetti presenti nell'immagine. Questo viene fatto principalmente per ridurre il carico di lavoro di un classificatore di apprendimento automatico. L'output finale viene calcolato in base al punteggio di probabilità e alla previsione di classe per ogni oggetto nell'immagine.

Verifica dell'ipotesi

A questo punto, l'ipotesi precedente viene verificata, risultando in un punteggio di classificazione medio, cioè una metrica utilizzata dall'algoritmo per calcolare le prestazioni della previsione di classe di diversi oggetti nell'immagine. Il modello AI implementato controlla le caratteristiche rilevanti dell'oggetto (forma, dimensione, colore, ecc.) e la previsione di classe dalla casella di delimitazione che racchiude l'oggetto. Una volta controllati entrambi i parametri, il sistema assegna un punteggio composito finale.

Riconoscimento e mappatura

Una volta che l'algoritmo classifica le caratteristiche, mappa le coordinate per la casella di delimitazione con l'oggetto. Queste informazioni vengono fornite a una macchina a vettori di supporto (SVM) che utilizza uno strumento di crescita del pattern frequente (FP) per prevedere la classe dell'oggetto in tempo reale. Le coordinate o gli assi vengono analizzati orizzontalmente o verticalmente, data la proporzione e la simmetria del piano.

Regressione lineare

Dopo la previsione di classe, l'immagine passa attraverso la regressione lineare per trovare il tensore esatto (contenitore di dati numerici restituito dal regressore dell'oggetto). La regressione viene eseguita utilizzando piattaforme open-source come Darknet, TensorFlow o PyTorch. L'output finale dell'algoritmo di riconoscimento degli oggetti comprende la categorizzazione della classe dell'oggetto insieme ai dettagli della sua casella di delimitazione per specificare l'esatta posizione dell'oggetto nell'immagine.

Sapevi che? La dimensione del mercato globale del riconoscimento delle immagini crescerà da 26,2 miliardi di dollari nel 2020 a 53,0 miliardi di dollari entro il 2025, con un tasso di crescita annuale composto (CAGR) del 15,1% dal 2020 al 2025!

Fonte: MarketsandMarkets

Algoritmi di riconoscimento degli oggetti

L'approccio al riconoscimento degli oggetti è principalmente duplice: algoritmi di apprendimento automatico o modelli di rete neurale convoluzionale (CNN) basati sull'apprendimento profondo. Per eseguire un compito di riconoscimento degli oggetti utilizzando un approccio di apprendimento automatico, è necessario un estrattore di caratteristiche che identifichi informazioni sull'oggetto precedentemente sconosciute per differenziare tra categorie di etichette generali.

D'altra parte, utilizzare una rete CNN per il riconoscimento degli oggetti non richiede estrazione manuale delle caratteristiche o test delle ipotesi. Può aiutare a rilevare oggetti e la loro posizione direttamente prevedendo le proprietà della casella di delimitazione che li racchiude.

Continua a leggere per scoprire alcuni algoritmi standard che possono essere utilizzati per eseguire il riconoscimento degli oggetti in vari settori.

Algoritmi di apprendimento automatico

L'apprendimento automatico è uno degli approcci più popolari per verificare la presenza di un oggetto. L'algoritmo di apprendimento automatico è un modello di dati di analisi predittiva che può essere addestrato su numerose categorie, ad esempio auto, biciclette, montagne, ecc. Diversi algoritmi di apprendimento automatico supervisionato e non supervisionato offrono molte combinazioni di estrattori di caratteristiche e set di dati modello che eseguono compiti di riconoscimento degli oggetti in modo efficiente e preciso.

Esaminiamone alcuni:

Algoritmo di Viola-Jones

L'algoritmo di Viola-Jones è uno dei framework di riconoscimento degli oggetti più popolari. Il suo obiettivo principale è consentire al sistema di vedere volti umani in una configurazione dritta utilizzando il processo seguente:

  • L'immagine catturata da una fotocamera o una webcam viene ridimensionata per creare una nuova immagine.
  • Caratteristiche come bocca o naso e la loro relazione reciproca vengono programmate manualmente e aggiunte alla nuova immagine.
  • L'algoritmo di Viola-Jones viene eseguito sulla nuova immagine per creare una serie di elementi di output che coincidono con le caratteristiche esistenti dell'oggetto.
  • Gli output vengono forniti a una macchina a vettori di supporto per identificare la classe degli oggetti nell'immagine, ad esempio il volto.

Poco dopo il lancio, l'algoritmo di Viola-Jones è stato implementato in OpenCV ed è diventato famoso come una delle tecniche di maggior successo per eseguire il riconoscimento degli oggetti. Tuttavia, una sfida che è emersa è stata che non riusciva a identificare oggetti con occlusione parziale o configurazioni deformate.

Consiglio: Un classificatore OpenCV è un approccio basato sull'apprendimento automatico utilizzato per verificare la veridicità della classe dell'oggetto attraverso la funzione a cascata. OpenCV può essere utilizzato con qualsiasi algoritmo di rilevamento degli oggetti di apprendimento automatico.

Istogramma dei Gradienti Orientati

Una versione più funzionale del precedente algoritmo, ovvero l'Istogramma dei Gradienti Orientati (HOGG), è stata rilasciata nel 2005. HOGG era un algoritmo di apprendimento automatico migliorato ampiamente utilizzato nel rilevamento dei pedoni e nell'elaborazione delle immagini per il riconoscimento degli oggetti. Ecco come funziona:

  • Il sistema visualizzava un'immagine data come una serie di pixel.
  • Per ogni pixel, calcolava quanto fosse scuro il suo gradiente rispetto al pixel circostante.
  • Una freccia veniva disegnata, puntando verso il pixel più scuro. Questo processo si ripeteva finché ogni singolo pixel non veniva sostituito.
  • Una matrice di frecce o gradienti separava l'immagine in piccoli quadrati (16x16). Ogni quadrato puntava verso il luogo in cui l'immagine era scura.
  • Le frecce che catturavano l'essenza esatta dell'oggetto sostituivano i quadrati.

hogg-imageFonte: debuggercafe.com

Il sistema confrontava l'output con l'immagine originale utilizzando metriche come la distanza euclidea o di Minkowski. In base a un valore soglia, determinava se l'immagine data fosse un oggetto o meno. HOGG divenne estremamente popolare poiché era veloce da calcolare e forniva un modello molto più stabile per il classificatore di oggetti per funzionare accuratamente.

Trasformata delle Caratteristiche Invarianti di Scala

La Trasformata delle Caratteristiche Invarianti di Scala (SIFT) è un algoritmo di visione artificiale popolare che aiuta a identificare oggetti in immagini digitali attraverso bordi angolari. Più simile a una tecnica di rilevamento dei bordi, SIFT identifica l'intera linea di scansione di un'immagine e traccia graficamente punti chiave specifici utilizzando una funzione logaritmica. Una volta che le caratteristiche sono localizzate, trasmette queste informazioni quantitative o descrittori a un classificatore per categorizzare gli oggetti e trovare la loro posizione specifica nell'immagine.

Algoritmo del Sacco di Caratteristiche

L'algoritmo del "sacco di caratteristiche" o "sacco di parole" analizza casualmente diverse caratteristiche di un oggetto per identificarne la categoria. Basato sulla tecnologia in evoluzione del Natural Language Processing (NLP), è un algoritmo di apprendimento automatico non supervisionato che interpreta caratteristiche del mondo reale, le memorizza in un dizionario e migliora il suo algoritmo per ottenere risultati migliori.

Apprendimento Profondo

L'era dell'apprendimento profondo è ufficialmente iniziata nel 2012. Con l'aumento della tecnologia automobilistica, della videosorveglianza intelligente e dei nuovi standard API, i compiti di riconoscimento degli oggetti sono diventati relativamente semplici. Tuttavia, c'è molto lavoro che viene con la risoluzione dei problemi di riconoscimento degli oggetti attraverso l'apprendimento profondo poiché richiede una sufficiente potenza di unità di elaborazione grafica (GPU) e un ampio set di dati di addestramento.

La CNN è un modello di apprendimento profondo che risolve compiti complessi di visione artificiale attraverso l'intelligenza artificiale. Il modello stesso ha specifici strati di input e output che imitano la struttura del cervello. Gli strati di questo modello rappresentano assoni, dendriti, ponti e fibre ottiche naturalmente presenti nel cervello che alimentano il sistema visivo umano. Ecco un paio di algoritmi di apprendimento profondo che hanno migliorato la portata della visione artificiale:

Rete Neurale Convoluzionale Basata su Regione (R-CNN)

La Rete Neurale Convoluzionale Basata su Regione (R-CNN) è un modello auto-addestrato ad alte prestazioni che funziona sul dataset VOC-2012 e sul dataset ILSVRC 2021.

ImageNet Large Scale Visual Recognition Challenge (ILSVRC) è una competizione accademica annuale che ha una sfida separata per problemi di classificazione delle immagini, localizzazione degli oggetti e rilevamento degli oggetti. Viene condotta con l'intento di promuovere soluzioni indipendenti e separate per ciascun compito che possono essere implementate su scala più ampia.

Di seguito è riportato un processo dettagliato di riconoscimento delle immagini attraverso R-CNN.

  • Innanzitutto, l'utente deve generare un insieme di caselle di delimitazione non categorizzate per un'immagine o "regioni candidate" utilizzando un algoritmo di ricerca selettiva.
  • A un livello elevato, il processo di ricerca selettiva guarda l'immagine attraverso una serie di finestre di diverse dimensioni.
  • Ogni regione candidata raggruppa le caratteristiche dell'immagine come forma, colore, pixel, intensità, ecc.
  • Queste mappe delle caratteristiche di un'immagine vengono passate attraverso un modello CNN pre-addestrato (Alexnet CNN) per estrarre le caratteristiche principali e calcolare gli elementi di output.
  • Una volta visualizzati gli elementi di output, vengono forniti a un classificatore SVM per classificare le etichette.
Simultaneamente, le caselle di delimitazione vengono passate attraverso un regressore per individuare le coordinate degli oggetti insieme alle loro categorie.

R-CNN-image
Fonte: machinelearningmastery.com

Limitazioni dell'algoritmo R-CNN
Sebbene R-CNN si sia dimostrato un modello significativamente più veloce per addestrare un modello di riconoscimento degli oggetti e fare previsioni, c'erano ancora alcune limitazioni alla sua funzionalità. Ecco un insieme di vincoli per R-CNN che lo hanno ostacolato nel produrre risultati accurati:

  • La ricerca selettiva, Alexnet CNN e il classificatore SVM devono essere tutti addestrati su un database di modelli e operati utilizzando grandi quantità di potenza di elaborazione grafica.
  • Addestrare una rete neurale simultaneamente su più di 2000 proposte di regioni era tedioso e richiedeva tempo.
  • Il modello compilava ogni regione candidata una per una in modo sequenziale durante il test. Poiché non scansionava l'intera immagine in una volta sola, le previsioni effettive erano parzialmente occluse e nebulose.

Sapevi che? Modelli di riconoscimento degli oggetti più efficienti sono stati recentemente proposti, ovvero Fast R-CNN, Faster R-CNN e Mask R-CNN. Questi algoritmi sono stati pre-addestrati su grandi set di dati come VGG-16 e PASCAL VOC e producono previsioni di classe all'avanguardia.

You Only Look Once (YOLO)

Proprio come l'analogia di "si vive una volta sola", YOLO è una rete neurale convoluzionale che analizza i dati una volta per tutte. È stato lanciato negli ultimi anni. Tra tutti gli approcci per eseguire compiti di riconoscimento degli oggetti, YOLO è il più accurato. Guarda un'immagine solo una volta ma in modo intelligente. L'estrazione delle caratteristiche di un'immagine o video attraverso YOLO è priva di residui e completamente senza soluzione di continuità. Riduce la probabilità assegnata dal sistema di un oggetto appartenente a una classe specifica di una certa quantità, risultando così in un modello più stabile e una classificazione accurata degli oggetti.

Ecco una panoramica standard di come funziona YOLO:

  • L'immagine è divisa in una griglia di 13*13 = 169 celle di dimensioni uguali.
  • Ogni cella dell'immagine è responsabile della previsione di fino a 5 caselle di delimitazione.
  • A un certo punto, le caselle di delimitazione si sovrappongono a frammenti di oggetti all'interno della piccola cella.
  • Una volta che si sovrappone a un oggetto, assegna un punteggio di fiducia prevedendo se la casella di delimitazione ha catturato un oggetto o meno.
  • Oltre a prevedere la presenza della casella di delimitazione, il modello YOLO assegna anche una classe specifica (ad esempio semafori, persona, auto, ecc.) a ciascuna casella di delimitazione.
  • Un totale di 169*5 o 845 caselle di delimitazione sono assegnate a diversi intervalli di fiducia nell'immagine.
  • L'intervallo di fiducia è combinato con la previsione di classe dell'oggetto.
  • In base a un numero soglia, tutte le caselle di delimitazione non necessarie vengono eliminate e l'immagine è lasciata solo con 2 o 3 caselle che si adattano perfettamente all'oggetto.
Implementazione di YOLO per il riconoscimento degli oggetti

YOLO-imageFonte: Stackoverflow.com

YOLO non è un classificatore tradizionale. La rete neurale viene eseguita una volta sull'immagine. Ogni cella nella griglia dell'immagine ha un valore di tensore specifico. In questo caso, cinque caselle di delimitazione sono previste da ciascuna cella. Ogni casella di delimitazione è responsabile dell'orchestrazione di 25 elementi di dati per l'oggetto sottostante. Questi elementi possono includere altezza, larghezza, coordinate della casella (bx, by), punteggio di probabilità o intervallo di fiducia. Pertanto, il valore del tensore, in questo caso, sarà 25*5 = 125.

La rete neurale YOLO assegna un valore di probabilità a ciascuna parte dell'immagine, rendendo più facile per il riconoscitore identificare e localizzare la presenza di oggetti nell'immagine.

Consiglio: L'ultima versione di YOLO, YOLOv2 o YOLO9000, è un rilevamento di oggetti in tempo reale a esecuzione singola che è stato addestrato su 9000 classi di oggetti e può essere incorporato in un file .mp3 o .mov per prevedere le caselle di delimitazione utilizzando pesi pre-dichiarati, classificatore softmax e ancore.

Perché l'algoritmo YOLO è importante?

Tra tutti gli approcci esistenti alla visione artificiale, YOLO dà meglio a un computer la capacità di identificare oggetti in ambienti reali e interagire con essi, quasi come fanno gli esseri umani. Poiché YOLO è una rete neurale convoluzionale, richiede molta GPU e dati di addestramento per funzionare in modo efficiente. Ecco alcuni motivi per cui YOLO è l'approccio di riconoscimento degli oggetti più preferito in vari domini di applicazione aziendale:

  • Prevede oggetti nelle immagini in tempo reale e funziona a una velocità fulminea di 45 fotogrammi al secondo (FPS).
  • Fornisce risultati accurati durante il riconoscimento degli oggetti nelle immagini.
  • Nel tempo, impara a comprendere forme e modelli in immagini sconosciute da solo per classificare la loro categoria.

Ultime tecniche di riconoscimento degli oggetti

Implementare un metodo semplice per il riconoscimento degli oggetti piuttosto che approcci di intelligenza artificiale intricati è la cosa migliore. Avere un percorso diretto ai problemi riduce la complessità cognitiva di un problema. Impedisce al modello di sistema di raccogliere più immagini.

Ecco alcune tecniche semplici di riconoscimento degli oggetti che puoi utilizzare per identificare oggetti all'interno di un'immagine:

  • Confronto di modelli: Il confronto di modelli è una tecnica in cui l'utente confronta l'immagine con un modello preesistente, mappa la somiglianza delle caratteristiche e assegna un'etichetta all'immagine. I sistemi di riconoscimento degli oggetti basati sul riconoscimento dei modelli funzionano interamente su tecniche di confronto di modelli e non richiedono alcuna formazione di ipotesi per determinare gli oggetti.
  • Trasformatore visivo: Il trasformatore visivo impiega un'architettura simile a un trasformatore su patch di un'immagine. L'immagine è divisa in patch più piccole, ciascuna proiettata su un codificatore utilizzando un classificatore lineare. L'output è un insieme standard di vettori che si incontra con un nodo di classificazione per prevedere la presenza di oggetti.

Il riconoscimento degli oggetti è lo stesso del riconoscimento facciale?

La tecnica del riconoscimento facciale e del riconoscimento degli oggetti sono due facce della stessa medaglia. Il riconoscimento facciale è una tecnologia all'avanguardia che riconosce automaticamente strutture simili a volti all'interno di un'immagine per determinarne l'identità.

In tempo reale, il riconoscimento facciale aiuta a rilevare la presenza non identificata di esseri umani o oggetti sospetti in uno spazio confinato con l'aiuto di telecamere o dispositivi incorporati. L'usabilità del riconoscimento facciale si estende a molti diversi domini industriali, come l'automazione dei processi robotici (RPA), il rilevamento delle biometrie e le operazioni di difesa.

Applicazioni del riconoscimento degli oggetti

Il riconoscimento degli oggetti è inestricabilmente legato a molte applicazioni reali in vari domini aziendali. Sono state fatte diverse iterazioni per creare e perfezionare il riconoscimento degli oggetti per i settori commerciali e non commerciali. Finora, le aziende sono state ragionevolmente riuscite a eseguire il riconoscimento degli oggetti utilizzando la tecnologia narrow AI.

Ecco alcune applicazioni reali dei sistemi di riconoscimento degli oggetti in diversi domini della ricerca industriale:

  • Sicurezza e sorveglianza: Uffici e complessi residenziali hanno utilizzato tradizionali telecamere a circuito chiuso basate sui principi del riconoscimento visivo degli oggetti. Le persone ora utilizzano anche sistemi di sicurezza per le loro attività domestiche. Mentre una telecamera esterna aiuta a controllare i visitatori, le telecamere interne aiutano a monitorare le azioni di un bambino.
  • Imaging satellitare e terrestre: Il riconoscimento degli oggetti aiuta a rilevare oggetti nelle immagini aeree e nella pressione atmosferica. Può anche permetterci di prevedere la posizione delle placche tettoniche che si muovono all'interno del nostro nucleo a causa della metamorfosi costante. L'assistenza dalla distribuzione a radiofrequenza (RFID) consente ai piloti e alle torri di controllo del traffico aereo (ATC) di mantenere una comunicazione continua tra loro.
  • Automobili a guida autonoma: Il riconoscimento degli oggetti è una parte cruciale delle automobili a guida autonoma. I veicoli alimentati con il riconoscimento degli oggetti hanno la capacità di muoversi liberamente senza che nessuno sia al controllo del volante. Per garantire una guida sicura, devono essere completamente equipaggiati con visibilità computazionale. I sensori attivi come il lidar misurano la profondità, la posizione e la distanza relativa degli oggetti che circondano i veicoli e identificano ostacoli stradali e collisioni.
  • Monitoraggio degli animali per il pollame: Il riconoscimento e l'identificazione del bestiame come maiali o qualsiasi altro bestiame in più fattorie sono ora possibili utilizzando algoritmi di visione AI e telecamere di sorveglianza a basso costo. Rispetto ad altri metodi, la visione AI aiuta a tenere sotto controllo la salute e il benessere degli animali. Questo porta a una migliore qualità del prodotto e alla redditività dei prodotti animali.
  • Interazione avanzata uomo-computer: Il riconoscimento degli oggetti stabilisce un canale di interazione tra esseri umani e computer in diversi domini applicativi. Aiuta a migliorare la comunicazione bidirezionale tra due geni intelligenti dipendenti o indipendenti e consente l'invio e la ricezione accurata di segnali.
  • Aspirapolvere robot: Il riconoscimento degli oggetti è il punto di riferimento dell'automazione dei processi robotici. Gli aspirapolvere robot come i cyborg e Roomba sono alimentati dalla tecnologia AI per pulire i pavimenti senza urtare nulla. Con l'aiuto di una telecamera integrata e di un sensore 3D, il robot riconosce gli oggetti da una distanza, li classifica come distrazioni e si dirige in una direzione diversa.

Riconoscimento degli oggetti e realtà aumentata

Il riconoscimento degli oggetti è uno dei vettori di prestazione cruciali nel processo di realtà aumentata. La realtà aumentata migliora la percezione degli utenti del mondo naturale attraverso immagini generate al computer come grafica, testo o suoni. Con l'aiuto del riconoscimento degli oggetti, diventa abbastanza semplice rilevare e manipolare elementi della vita reale per trasmettere informazioni visive rilevanti e creare esperienze altamente coinvolgenti.

Il riconoscimento degli oggetti è una tecnica basata su marcatori che aiuta a registrare una connessione con un oggetto del mondo reale e a tracciare la sua posizione in tempo reale per sovrapporre animazioni 3D sopra di esso. In altre parole, il riconoscimento degli oggetti individua punti ad alto contrasto, curve o bordi degli oggetti da diverse angolazioni per creare una presentazione virtuale davanti ai nostri occhi.

Passare il dono della visione ai computer

Anni fa, chi avrebbe pensato che l'intelligenza artificiale non sarebbe più stata conosciuta come la "quinta generazione di computer", ma come un attuale cambiamento di gioco per l'umanità?

Il riconoscimento degli oggetti passa il testimone della visione dagli esseri umani ai computer. Ha il potenziale per trasformare la sfera aziendale moderna progettando esperienze clienti all'avanguardia e sicure.

Il futuro del riconoscimento degli oggetti dipende anche dall'evoluzione della tecnologia dell'intelligenza artificiale. Proprio come la rivoluzione industriale originale, ridurrà il lavoro umano in futuro e darà potere agli esseri umani di fare ciò per cui sono meglio attrezzati: essere creativi ed empatici.

Affronta l'etichettatura dei dati come un professionista con strumenti di apprendimento attivo e riduci i costi dell'infrastruttura AI organizzativa mantenendo la massima accuratezza.

Shreya Mattoo
SM

Shreya Mattoo

Shreya Mattoo is a former Content Marketing Specialist at G2. She completed her Bachelor's in Computer Applications and is now pursuing Master's in Strategy and Leadership from Deakin University. She also holds an Advance Diploma in Business Analytics from NSDC. Her expertise lies in developing content around Augmented Reality, Virtual Reality, Artificial intelligence, Machine Learning, Peer Review Code, and Development Software. She wants to spread awareness for self-assist technologies in the tech community. When not working, she is either jamming out to rock music, reading crime fiction, or channeling her inner chef in the kitchen.