Introducing G2.ai, the future of software buying.Try now

Apprendimento Supervisionato vs. Apprendimento Non Supervisionato: Differenze Spiegate

Dicembre 20, 2024
da Alyssa Towns

Con il progresso delle invenzioni avanzate di apprendimento automatico, strategie come l'apprendimento supervisionato e non supervisionato stanno emergendo sempre più nel mercato. Mentre entrambe queste tecnologie sono efficaci per affrontare i big data, distinguere tra apprendimento supervisionato e non supervisionato all'interno del software di apprendimento automatico apre la strada a un'analisi accurata dei prodotti.  

L'apprendimento supervisionato consente agli algoritmi di prevedere tendenze non viste, mentre gli algoritmi non supervisionati rilevano sentimenti, anomalie o correlazioni all'interno dei dati di addestramento. 

Poiché entrambi gli algoritmi di ML dipendono dal tipo di dati di addestramento forniti al modello, utilizzare il software di etichettatura dei dati mappa l'esatta necessità dei servizi di etichettatura per la modellazione predittiva.

Cos'è l'apprendimento supervisionato? 

L'apprendimento supervisionato è un tipo di apprendimento automatico (ML) che utilizza set di dati etichettati per identificare i modelli e le relazioni tra dati di input e output. Richiede dati etichettati che consistono in input (o caratteristiche) e output (categorie o etichette) per farlo. Gli algoritmi analizzano le informazioni di input e poi deducono l'output desiderato.

Quando si tratta di apprendimento supervisionato, sappiamo quali tipi di output dovremmo aspettarci, il che aiuta il modello a determinare ciò che ritiene sia la risposta corretta. 

Vuoi saperne di più su Software di apprendimento automatico? Esplora i prodotti Apprendimento automatico.

Esempi di apprendimento supervisionato 

Alcune delle applicazioni più comuni dell'apprendimento supervisionato sono: 

  • Rilevamento dello spam: Come accennato in precedenza, i provider di posta elettronica utilizzano tecniche di apprendimento supervisionato per classificare il contenuto spam e non spam. Questo viene fatto in base alle caratteristiche di ciascuna email (o input), come l'indirizzo email del mittente, l'oggetto e il corpo del testo, e i modelli che il modello apprende.  
  • Riconoscimento di oggetti e immagini: Possiamo addestrare modelli su un ampio set di dati di immagini etichettate, come gatti e cani. Poi, il modello può estrarre caratteristiche come forme, colori, texture e strutture dalle immagini per imparare a riconoscere questi oggetti in futuro.  
  • Analisi del sentiment dei clienti: Le aziende possono analizzare le recensioni dei clienti per determinare il loro sentiment (ad esempio, positivo, negativo o neutro) addestrando un modello utilizzando recensioni etichettate. Il modello impara ad associare parole e caratteristiche specifiche con diversi sentimenti e può classificare di conseguenza nuove recensioni dei clienti.
  • Riconoscimento facciale: I dati supervisionati etichettati vengono utilizzati per prevedere immagini estranee da foto, video o progetti confrontandole con gli attributi nei dati di addestramento. Il modello di apprendimento automatico supervisionato rileva le caratteristiche facciali e incorpora rappresentazioni vettoriali per confrontare i risultati e ottenere la giusta conferma.  
  • Riconoscimento di oggettiL'apprendimento supervisionato viene impiegato per rilevare oggetti o elementi non autorizzati per prevenire ostruzioni in veicoli o dispositivi auto-assistiti. Richiede una supervisione umana minima per rilevare oggetti non visti e prevedere l'azione da intraprendere. 
  • Autenticazione biometrica: Grazie all'aumento dell'accuratezza e della previsione, gli algoritmi supervisionati possono anche affrontare l'autenticazione biometrica e prevedere efficacemente le credenziali dei dipendenti. Sfrutta sia i set di dati di addestramento che di test per perfezionare la generazione di output e autenticare efficacemente gli individui. 
  • Modellazione predittiva: L'apprendimento supervisionato è una strategia ampiamente accettata per prevedere tendenze e strategie nel settore commerciale. Conosciuta anche come modellazione predittiva, questi esempi includono la previsione delle vendite del prossimo trimestre, l'analisi dei dati delle campagne di marketing, la previsione delle tendenze di bilancio, la personalizzazione dei feed OTT e così via. 
  • Analisi prescrittiva: In questa tecnica, il set di dati di input viene perfezionato con inferenze umane esterne che ottimizzano la qualità dell'analisi eseguita e la generazione di output. Un output accurato porta a una migliore analisi prescrittiva che implica un memorandum più strategico e strutturato per il corso d'azione futuro. 
  • Riconoscimento ottico dei caratteri: L'apprendimento supervisionato è efficace nel analizzare e modificare il testo in formato post-dati (pdf) poiché prevede una correlazione tra variabile dipendente e indipendente e prevede etichette per il testo. Le reti neurali alimentate con apprendimento supervisionato prevedono la natura, il tono e la criticità del testo e li categorizzano in un formato modificabile.  
  • Riconoscimento vocale o riconoscimento del parlato: Questa tecnica è prominente per dettare parole pronunciate e convertirle in un comando per l'azione. Basato sul set di dati audio addestrato e testato, gli utenti possono elaborare e convertire i comandi vocali in flussi di lavoro automatizzati scritti o in tempo reale. 

Tipi di classificazione dell'apprendimento supervisionato

Esistono diversi metodi di classificazione nell'apprendimento supervisionato. Per cominciare, il set di dati viene pre-elaborato, pulito e valutato per gli outlier. I dati etichettati stabiliscono una forte correlazione tra una variabile prevista e una variabile di risultato.

Dopo la pulizia dei dati, il set di dati viene addestrato e testato sui dati etichettati disponibili per verificare l'accuratezza e classificare i dati non visti. Basandosi sull'addestramento precedente, ecco come l'apprendimento supervisionato viene utilizzato per classificare gli oggetti:

Classificazione binaria

Nella classificazione binaria, come accennato in precedenza, il set di dati viene valutato rispetto alla formazione di ipotesi. Significa che se A causa B, allora il valore dell'ipotesi nulla è vero e se no, allora l'alternativa può essere vera. La classificazione A o B è definita come classificazione binaria e ci sono cinque tipi di classificazione dell'apprendimento supervisionato

  • Regressione lineare: La regressione lineare è un metodo di analisi dei dati che comprende una variabile indipendente e una variabile dipendente che condividono una correlazione lineare e vengono fornite al modello per prevedere risultati continui. Può essere eseguita con dati nominali, discreti e continui e questi modelli possono prevedere tendenze o previsioni di vendita. 
  • Regressione logistica: La regressione logistica funziona con set di dati più grandi e semplifica la probabilità della categoria della variabile per formare modelli di buona adattabilità. Basandosi sulla distribuzione probabilistica, assegna una categoria particolare per la variabile dipendente.
  • Alberi decisionali: Gli alberi decisionali seguono una tecnica basata su nodi per categorizzare i dati in attributi e comprendere i parametri statistici per prevedere un risultato specifico. Il meccanismo degli alberi decisionali segue regole decisionali ed è impiegato nella modellazione predittiva e nell'analisi dei big data.
  • Serie temporali: Questa tecnica viene utilizzata per elaborare dati sequenziali come lingua, budget, metriche di marketing, prezzi delle azioni o dati di attribuzione delle campagne. Alcuni esempi popolari di modelli di serie temporali includono reti neurali ricorrenti, modelli di memoria a lungo termine (LSTM) e così via. 
  • Naive Bayes: Naive Bayes isola gli attributi dei dati etichettati e analizza le caratteristiche individuali, assegna la distribuzione di probabilità e verifica quale categoria è la più adatta senza sovradimensionare il modello di apprendimento automatico.

Classificazione a più classi

In questa tecnica di classificazione dell'apprendimento supervisionato, i dati non visti vengono assegnati a più (fino a tre) categorie o classi rilevanti in base all'addestramento del modello. Ci sono tre tipi di classificazione a più classi nell'apprendimento supervisionato:

  • Foresta casuale: La foresta casuale combina più alberi decisionali per rafforzare il test del modello e migliorare l'accuratezza.  Questo algoritmo viene utilizzato per prevedere correlazioni più forti, mediare previsioni o prevedere classi per set di dati grandi e diversificati. Alcuni esempi includono previsioni meteorologiche, proiezioni di vittoria di partite, previsioni economiche e così via. 
  • K-nearest neighbor: Questo algoritmo viene utilizzato per prevedere la probabilità di un singolo punto dati in base alla categoria di un gruppo eterogeneo di punti dati intorno ad esso. K-nearest neighbor è una tecnica di apprendimento supervisionato che valuta un "punteggio informativo" per "K" etichette e calcola le distanze (come quella euclidea) per prevedere la categoria più vicina.

Classificazione a più etichette

La classificazione a più etichette è una tecnica supervisionata in cui gli algoritmi prevedono più etichette come una buona adattabilità per la variabile indipendente. Combina i risultati dell'analisi dei dati e della pre-elaborazione umana per selezionare tre o più categorie rilevanti per la variabile di output.

  • Trasformazione del problema:  Con questa strategia, puoi convertire più output di etichette in un singolo output più rilevante per risolvere la confusione. Invece di più valori di classe come cane, attore, mulo, l'algoritmo assegna un output rilevante. La trasformazione del problema è essenziale per la classificazione binaria in cui abbiamo una causa e un risultato. 
  • Adattamento dell'algoritmo: Con questa tecnica, i modelli di ML possono gestire più classi in modo efficace senza sovradimensionare il modello. Gli esempi includono KNN, Naive Bayes, alberi decisionali ecc.
  • Boosting del gradiente a più etichette: Questa tecnica evidenzia il gradiente più rilevante o l'intervallo di confidenza di una variabile appartenente a una certa categoria. I gradienti che vengono evidenziati durante la fase di test sono le etichette che vengono assegnate alla fine.

Regressione a più etichette

La regressione a più etichette prevede più valori di output continui per un singolo punto dati di input. A differenza della classificazione a più etichette che assegna diverse categorie ai dati, questo approccio modella le relazioni tra caratteristiche all'interno di valori numerici (come umidità o precipitazioni) e prevede quei valori per prevedere tendenze meteorologiche per attività come atterraggio o decollo di voli, ritardi di partite e così via. 

Classificazione sbilanciata

La classificazione sbilanciata è definita come una tecnica supervisionata per gestire classificazioni di etichette disomogenee durante il processo di analisi. A causa della disparità nelle relazioni lineari, la previsione della classe finale può diventare errata. A volte, può anche mostrare il caso di falsi positivi nei dati di test che classificano in modo inaccurato i dati non visti.

Cos'è l'apprendimento non supervisionato? 

L'apprendimento non supervisionato è un tipo di apprendimento automatico che utilizza algoritmi per analizzare set di dati non etichettati senza supervisione umana. A differenza dell'apprendimento supervisionato, in cui sappiamo quali risultati aspettarci, questo metodo mira a scoprire modelli e rivelare approfondimenti sui dati senza addestramento o etichette precedenti. 

L'apprendimento non supervisionato viene utilizzato per rilevare correlazioni all'interno dei set di dati, relazioni e modelli all'interno delle variabili e tendenze nascoste e composizioni comportamentali per automatizzare il processo di etichettatura dei dati. Gli esempi includono il rilevamento delle anomalie, la riduzione della dimensionalità e così via.

Esempi di apprendimento non supervisionato 

Alcuni degli usi quotidiani dell'apprendimento non supervisionato includono i seguenti:

  • Segmentazione dei clienti: Le aziende possono utilizzare algoritmi di apprendimento non supervisionato per generare profili di persona acquirente raggruppando i tratti, i comportamenti o i modelli comuni dei loro clienti. Ad esempio, un'azienda al dettaglio potrebbe utilizzare la segmentazione dei clienti per identificare acquirenti a basso budget, acquirenti stagionali e clienti di alto valore. Con questi profili in mente, l'azienda può creare offerte personalizzate ed esperienze su misura per soddisfare le preferenze di ciascun gruppo.
  • Rilevamento delle anomalie: Nel rilevamento delle anomalie, l'obiettivo è identificare punti dati che si discostano dal resto del set di dati. Poiché le anomalie sono spesso rare e variano ampiamente, etichettarle come parte di un set di dati etichettato può essere difficile, quindi le tecniche di apprendimento non supervisionato sono ben adatte per identificare queste rarità. I modelli possono aiutare a scoprire modelli o strutture all'interno dei dati che indicano comportamenti anomali in modo che queste deviazioni possano essere annotate come anomalie. Il monitoraggio delle transazioni finanziarie per individuare comportamenti fraudolenti è un esempio principale di questo.

Tipi di clustering nell'apprendimento non supervisionato

Gli algoritmi di apprendimento non supervisionato sono più adatti per compiti complessi in cui gli utenti vogliono scoprire modelli precedentemente non rilevati nei set di dati. Tre tipi di alto livello di apprendimento non supervisionato sono il clustering, l'associazione e la riduzione della dimensionalità. Esistono diversi approcci e tecniche per questi tipi.

L'apprendimento non supervisionato viene utilizzato per rilevare relazioni interne tra punti dati non etichettati per prevedere un punteggio di incertezza e tentare di assegnare la categoria corretta tramite l'elaborazione dell'apprendimento automatico.

Clustering nell'apprendimento non supervisionato

Il clustering è una tecnica di apprendimento non supervisionato che suddivide i dati non etichettati in gruppi, o, come suggerisce il nome, cluster, basati su somiglianze o differenze tra i punti dati. Gli algoritmi di clustering cercano gruppi naturali tra i dati non categorizzati. 

Ad esempio, un algoritmo di apprendimento non supervisionato potrebbe prendere un set di dati non etichettato di vari animali terrestri, acquatici e aerei e organizzarli in cluster basati sulle loro strutture e somiglianze. 

Gli algoritmi di clustering includono i seguenti tipi: 

  • Clustering K-means:  K-means è un algoritmo ampiamente utilizzato per partizionare i dati in K-cluster che condividono caratteristiche e attributi simili. Viene calcolata la distanza di ciascun punto dati dal centroide di questi cluster. Il cluster più vicino è la categoria per quel punto dati. Questa tecnica è meglio utilizzata per la segmentazione dei clienti o l'analisi del sentiment.
  • Analisi delle componenti principali: L'analisi delle componenti principali scompone i dati in componenti meno numerosi, noti anche come componenti principali. È principalmente utilizzata per la riduzione della dimensionalità, il rilevamento delle anomalie e la riduzione dello spam. 
  • Modelli di miscele gaussiane: Questo è un modello di clustering probabilistico in cui i dati di input vengono esaminati per correlazioni interne, modelli e tendenze. L'algoritmo assegna un punteggio di probabilità per ciascun punto dati e rileva la categoria corretta. Questa tecnica è anche conosciuta come clustering morbido, poiché fornisce un'inferenza di probabilità a un punto dati.

Associazione nel clustering dell'apprendimento non supervisionato

In questo approccio basato su regole di apprendimento non supervisionato, gli algoritmi di apprendimento cercano correlazioni e relazioni "se-allora" tra i punti dati. Questa tecnica è comunemente utilizzata per analizzare le abitudini di acquisto dei clienti, consentendo alle aziende di comprendere le relazioni tra i prodotti per ottimizzare il posizionamento dei loro prodotti e le strategie di marketing mirate. 

Immagina un negozio di alimentari che vuole comprendere meglio quali articoli i loro clienti acquistano spesso insieme. Il negozio ha un set di dati contenente un elenco di viaggi di shopping, con ciascun viaggio che dettaglia quali articoli nel negozio un cliente ha acquistato. 

Esempi di regole di associazione nell'apprendimento non supervisionato

  • Personalizzazione del feed di streaming live in elenchi consigliati OTT o playlist utente
  • Studio dei dati delle campagne di marketing per rilevare comportamenti nascosti e prevedere soluzioni
  • Esecuzione di sconti e offerte personalizzati per acquirenti frequenti
  • Previsione del ricavo lordo al botteghino dopo le uscite dei film

Il negozio può sfruttare l'associazione per cercare articoli che i clienti acquistano frequentemente in un unico viaggio di shopping. Possono iniziare a dedurre regole "se-allora", come: se qualcuno compra il latte, spesso compra anche i biscotti. 

Quindi, l'algoritmo potrebbe calcolare la fiducia e la probabilità che un cliente acquisti questi articoli insieme attraverso una serie di calcoli ed equazioni. Scoprendo quali articoli i clienti acquistano insieme, il negozio di alimentari può implementare tattiche come posizionare gli articoli uno accanto all'altro per incoraggiare l'acquisto congiunto o offrire un prezzo scontato per acquistare entrambi gli articoli. Il negozio renderà lo shopping più conveniente per i suoi clienti e aumenterà le vendite. 

Riduzione della dimensionalità 

La riduzione della dimensionalità è una tecnica di apprendimento non supervisionato che riduce il numero di caratteristiche o dimensioni in un set di dati, rendendo più facile visualizzare i dati. Funziona estraendo caratteristiche essenziali dai dati e riducendo quelle irrilevanti o casuali senza compromettere l'integrità dei dati originali.

Scegliere tra apprendimento supervisionato e non supervisionato 

Selezionare il modello di addestramento adatto per raggiungere i tuoi obiettivi aziendali e gli output desiderati dipende dai tuoi dati e dal loro caso d'uso. Considera le seguenti domande quando decidi se l'apprendimento supervisionato o non supervisionato funzionerà meglio per te: 

  • Stai lavorando con un set di dati etichettato o non etichettato? Qual è la dimensione del set di dati con cui il tuo team sta lavorando? I tuoi dati sono etichettati? Oppure i tuoi data scientist hanno il tempo e l'esperienza per convalidare ed etichettare i tuoi set di dati di conseguenza se scegli questa strada? Ricorda, i set di dati etichettati sono un must se vuoi perseguire l'apprendimento supervisionato.
  • Quali problemi speri di risolvere?  Vuoi addestrare un modello per aiutarti a risolvere un problema esistente e dare un senso ai tuoi dati? Oppure vuoi lavorare con dati non etichettati per consentire all'algoritmo di scoprire nuovi modelli e tendenze? I modelli di apprendimento supervisionato funzionano meglio per risolvere un problema esistente, come fare previsioni utilizzando dati preesistenti. L'apprendimento non supervisionato funziona meglio per scoprire nuovi approfondimenti e modelli nei set di dati. 

Apprendimento supervisionato vs. non supervisionato: differenze chiave 

Ecco un riepilogo dei principali differenziatori tra apprendimento supervisionato e non supervisionato che spiega i parametri e le applicazioni di entrambi i tipi di modellazione dell'apprendimento automatico:

 

Apprendimento Supervisionato

Apprendimento Non Supervisionato

Dati di input

Richiede set di dati etichettati

Utilizza set di dati non etichettati 

Obiettivo 

Prevedere un risultato o classificare i dati di conseguenza (cioè, hai un risultato desiderato in mente)

Scoprire nuovi modelli, strutture o relazioni tra i dati

Tipi

Due tipi comuni: classificazione e regressione

Clustering, associazione e riduzione della dimensionalità

Casi d'uso comuni

Rilevamento dello spam, riconoscimento di immagini e oggetti, e analisi del sentiment dei clienti 

Segmentazione dei clienti e rilevamento delle anomalie

Supervisiona o non supervisiona, come ritieni opportuno

Che tu scelga una tecnica non supervisionata o supervisionata, l'obiettivo finale dovrebbe essere fare la previsione giusta per i tuoi dati. Mentre entrambe le strategie hanno i loro vantaggi e anomalie, richiedono risorse, infrastrutture, manodopera e qualità dei dati diverse.  Sia l'apprendimento supervisionato che non supervisionato stanno dominando le classifiche nei loro rispettivi domini, e il futuro delle industrie si basa su di essi. 

Scopri di più sui modelli di apprendimento automatico e su come addestrano, segmentano e analizzano i dati per prevedere risultati di successo.

Alyssa Towns
AT

Alyssa Towns

Alyssa Towns works in communications and change management and is a freelance writer for G2. She mainly writes SaaS, productivity, and career-adjacent content. In her spare time, Alyssa is either enjoying a new restaurant with her husband, playing with her Bengal cats Yeti and Yowie, adventuring outdoors, or reading a book from her TBR list.