I cataloghi di dati di machine learning consentono alle aziende di categorizzare, accedere, interpretare e collaborare attorno ai dati aziendali provenienti da più fonti, mantenendo un alto livello di governance e gestione degli accessi. L'intelligenza artificiale è fondamentale per molte funzionalità dei cataloghi di dati di machine learning, abilitando funzionalità come raccomandazioni di machine learning, interrogazioni in linguaggio naturale e mascheramento dinamico dei dati per scopi di sicurezza avanzata.
Le aziende possono utilizzare i cataloghi di dati di machine learning per mantenere i set di dati in un'unica posizione, in modo che la ricerca e la scoperta dei dati siano semplici sia per gli utenti aziendali quotidiani che per gli analisti. Gli utenti hanno la possibilità di commentare, condividere e raccomandare set di dati affinché i colleghi possano avere una comprensione immediata di ciò che stanno interrogando. Inoltre, gli amministratori IT possono mettere in atto la fornitura di utenti per garantire che i dipendenti non autorizzati non accedano a dati sensibili.
I cataloghi di dati di machine learning sono più frequentemente implementati da aziende che hanno più fonti di dati, sono alla ricerca di un'unica fonte di verità e stanno tentando di scalare l'uso dei dati a livello aziendale. Questi prodotti sono generalmente gestiti dai dipartimenti IT, che possono mantenere l'organizzazione e la sicurezza, ma i dati possono essere accessibili da data scientist o analisti e dall'utente aziendale medio. I dati possono quindi essere trasformati, modellati e visualizzati direttamente nel catalogo di dati di machine learning o tramite un'integrazione con software di business intelligence.
Va notato che non tutti i cataloghi di dati di machine learning forniscono capacità di preparazione dei dati e potrebbero richiedere un'integrazione con una piattaforma di business intelligence. Inoltre, questi strumenti differiscono dal software di gestione dei dati master a causa della loro governance avanzata, collaborazione e funzionalità di machine learning.
Per qualificarsi per l'inclusione nella categoria dei Cataloghi di Dati di Machine Learning, un prodotto deve:
Organizzare e consolidare i dati da tutte le fonti aziendali in un unico repository
Fornire gestione degli accessi utente per scopi di sicurezza e governance dei dati
Consentire agli utenti aziendali di cercare e accedere ai dati all'interno del catalogo
Offrire funzionalità di collaborazione attorno ai set di dati, inclusi categorizzazione, commento e condivisione
Fornire raccomandazioni intelligenti basate su machine learning per un accesso più rapido ai dati rilevanti