Algoritmi. Algoritmico. Apprendimento automatico. Apprendimento profondo. Se stai leggendo questo articolo, è probabile che tu abbia incontrato questi termini in qualche momento. Probabilmente un algoritmo ti ha consigliato questo articolo. Il termine ombrello per tutto quanto sopra è intelligenza artificiale (AI), che prende dati di diversi tipi e ti fornisce previsioni o risposte basate su di essi. È probabile che tu abbia beneficiato di questa tecnologia in qualche modo, sia in un'applicazione di mappe, nella ricerca di immagini dal tuo rivenditore preferito, o nel completamento automatico intelligente.
Tuttavia, ti svelerò un piccolo segreto. A volte, forse la maggior parte delle volte, il successo di un qualsiasi progetto di AI non risiede nell'algoritmo che scegli. Piuttosto, la chiave sta nei dati che hai, nello stato in cui si trovano e nelle etichette che hanno.
In G2, abbiamo osservato due tendenze che evidenziano questo:
- Ascesa di strumenti focalizzati sulla fase dei dati nel percorso dell'AI
- Ascesa di soluzioni AI senza codice e a basso codice
Dati puliti sono la chiave
I dati sono il cervello della tua organizzazione. Danno vita e significato al tuo business, sia attraverso l'analisi dei dati aziendali che con l'uso dei dati nell'AI.
Tuttavia, il detto "spazzatura dentro, spazzatura fuori" (o "rifiuti dentro, rifiuti fuori" per i nostri amici britannici) dovrebbe essere preso in considerazione. Un algoritmo è buono solo quanto i dati su cui è addestrato. Supponiamo che i dati siano di bassa qualità, cioè non siano etichettati correttamente, pieni di errori, incompatibilità di tipo di dati, ecc. In tal caso, probabilmente non forniranno previsioni accurate o utili.
Tenendo questo a mente, la qualità dei dati e il software di preparazione dei dati possono aiutare le aziende a prendere il controllo dei loro dati e garantire che siano perfettamente puliti.
Il software di qualità dei dati consente alle aziende di stabilire e mantenere alti standard per l'integrità dei dati. Queste soluzioni sono anche utili per garantire che i dati aderiscano a questi standard in base all'industria richiesta, al mercato o alle normative interne.
Il software di preparazione dei dati aiuta a scoprire, mescolare, combinare, pulire, arricchire e trasformare i dati in modo che grandi set di dati possano essere facilmente integrati, consumati e analizzati con soluzioni di business intelligence e analisi.
Sbloccare il potere dei dati
Una volta che l'azienda ha riconosciuto il potere e la potenza dei dati, può e dovrebbe iniziare a pensare in grande. Anche se non hanno il più grande set di dati in città, se è proprietario, possono comunque avere un vantaggio competitivo. Quando si tratta di set di dati, l'azienda guidata dai dati del 2022 ha accesso a una serie di set di dati aperti e facilmente disponibili, come quelli disponibili su Dataset list. Tuttavia, poiché chiunque ha accesso a questi dati, non forniscono un vantaggio competitivo. Se un'azienda ha accesso a dati proprietari, può garantirne la qualità e averli tutti per sé.
I dati non sono come un chia pet, nel senso che non puoi versarci sopra dell'acqua per farli crescere. Tuttavia, quello che puoi fare è esplorare varie risorse per espandere i tuoi dati già perfettamente puliti, come:
- Dati sintetici sono utili poiché sono falsi ma statisticamente identici al set di dati originale, permettendo così l'analisi dei dati e l'apprendimento automatico senza preoccupazioni sulla privacy.
- Arricchimento dei dati aiuta le aziende a trovare dati o set di dati correlati tramite software di scambio dati e alcune piattaforme di data science e machine learning. Questo arricchimento dei dati può aiutare a migliorare l'accuratezza dei modelli poiché il set di dati arricchito contiene dati nuovi ed espansi.
- Etichettatura dei dati è fondamentale per addestrare modelli su dati non strutturati. I dati non strutturati, come immagini, audio e testo, sono essenzialmente come un mistero avvolto in un enigma senza etichette. Come si vede di seguito, come può un computer ottenere il contesto necessario per comprendere la differenza tra un chihuahua e un muffin? La risposta è nell'etichettatura dei dati. Attraverso questo processo, si può costruire un set di dati di migliaia di immagini etichettate definitivamente come chihuahua e muffin. Questo, a sua volta, aiuterà l'algoritmo a determinare tra le due immagini inserite.
Fonte: Twitter
Amiamo i modelli, ma…
Il focus sulla fase dei dati nel percorso dell'apprendimento automatico è prudente e in aumento. Storicamente, specialmente quando si guarda ai dati strutturati, c'era molta attenzione sull'effettivo addestramento dei modelli, utilizzando metodi collaudati come la regressione lineare. Questo includeva la selezione delle caratteristiche (scegliere quali caratteristiche sono essenziali per il modello) e la selezione del modello. Questi compiti erano fondamentali per garantire che le previsioni fossero accurate e che i migliori modelli potessero essere scelti e messi in produzione.
Tuttavia, stiamo assistendo all'ascesa di tecnologie più facili da usare, come l'apprendimento automatico a basso codice e senza codice e tecnologie correlate come l'apprendimento automatico automatizzato (AutoML).
| Leggi di più: Democratizzare l'AI con piattaforme di apprendimento automatico a basso codice e senza codice → |
Come nota l'analista associato di ricerca di mercato di G2 Amal Joby:
- Gli strumenti AutoML automatizzano i compiti manuali e monotoni che i data scientist devono eseguire per costruire e addestrare modelli di apprendimento automatico. La selezione e l'ingegneria delle caratteristiche, la selezione degli algoritmi e l'ottimizzazione degli iperparametri sono esempi di tali compiti.
- Le piattaforme di apprendimento automatico senza codice consentono alle aziende di utilizzare la potenza dell'apprendimento automatico attraverso interfacce grafiche semplici e drag-and-drop. Permettono agli utenti senza conoscenze di linguaggi di programmazione o di codifica di creare applicazioni di apprendimento automatico.
- Le piattaforme di apprendimento automatico a basso codice sono simili alla loro controparte senza codice, ma consentono agli utenti di scrivere alcune righe di codice o manipolare lo stesso. La percentuale di codice modificabile dipende dallo strumento. Simili alle piattaforme senza codice, gli strumenti di apprendimento automatico a basso codice sono utili per le aziende che mancano di professionisti con specializzazione in AI.
Con questa proliferazione arriva la commoditizzazione degli algoritmi, poiché i data scientist e gli sviluppatori cittadini possono prendere un algoritmo dallo scaffale e implementarlo rapidamente. In G2, abbiamo visto l'importanza degli algoritmi predefiniti. I revisori nel Grid® Report di G2 per le piattaforme di data science e machine learning per l'inverno 2022 hanno valutato i migliori prodotti sulla Grid® in modo elevato per i loro algoritmi predefiniti. Il prodotto numero uno, basato sul punteggio G2, ha ottenuto un 9 su 10 per gli algoritmi predefiniti. Questo dimostra che per un prodotto di data science essere altamente valutato, deve avere algoritmi predefiniti.
Gli algoritmi predefiniti possono essere utilizzati sia per condurre un'analisi rapida dei dati sia per utilizzare quei dati per fare previsioni. Ad esempio, un product manager presso un rivenditore di scarpe può utilizzare questi strumenti per ottimizzare facilmente la loro applicazione mobile, cambiando dinamicamente il banner su una pagina di prodotto in base al comportamento dell'utente.
Questo spostamento dai modelli (passi 3 e 4 nel percorso di data science di seguito) porta anche a una tendenza diversa: la collisione tra analisi e AI.
Ad esempio, su G2, l'ex direttore del marketing di prodotto per Kraken (ora Qlick AutoML) ha detto:
"Kraken è principalmente una piattaforma costruita per analisti di dati o analisti aziendali senza una profonda comprensione della data science. Pertanto, cerchiamo di automatizzare il più possibile il lavoro di data science e attualmente non supportiamo funzionalità di livello esperto come la regolazione degli iperparametri."
Poiché gli strumenti di analisi forniscono agli utenti modelli predittivi pronti all'uso, analisti di dati e data scientist di vari livelli di competenza possono collaborare per utilizzare quei dati per derivare intuizioni e costruire applicazioni alimentate dai dati. Questo è qualcosa che prenderà piede nel prossimo futuro.
Modificato da Sinchana Mistry
Vuoi saperne di più su Piattaforme di Data Science e Machine Learning? Esplora i prodotti Piattaforme di Data Science e Machine Learning.

Matthew Miller
Matthew Miller is a former research and data enthusiast with a knack for understanding and conveying market trends effectively. With experience in journalism, education, and AI, he has honed his skills in various industries. Currently a Senior Research Analyst at G2, Matthew focuses on AI, automation, and analytics, providing insights and conducting research for vendors in these fields. He has a strong background in linguistics, having worked as a Hebrew and Yiddish Translator and an Expert Hebrew Linguist, and has co-founded VAICE, a non-profit voice tech consultancy firm.
