Gli strumenti di dati sintetici sono piattaforme che generano media sintetici o dataset sintetici, come immagini, testo o dati strutturati, basati su dati originali per testare, addestrare modelli e simulare. Consentono agli utenti di produrre dati artificiali da zero che proteggono le informazioni sensibili alla privacy mantenendo le caratteristiche matematiche e le relazioni intrinseche nel dataset originale.
Le piattaforme di dati sintetici sono utilizzate principalmente da data scientist, ingegneri di machine learning e ricercatori in campi come la tecnologia, la sanità e la finanza. Aiutano le aziende a costruire rapidamente dataset per test, machine learning, validazione dei dati e altro, garantendo al contempo la privacy e risolvendo la carenza di dati. Simulando situazioni del mondo reale, gli strumenti di generazione di dati sintetici consentono alle aziende e ai ricercatori di migliorare gli algoritmi e innovare senza fare affidamento su dati sensibili o non disponibili.
I dati sintetici possono essere creati attraverso metodi come immagini generate al computer (CGI), reti neurali generative (GAN) e euristiche. Si presentano in due tipi: dati strutturati, che includono numeri e valori, e dati non strutturati, come immagini e video.
Il principale vantaggio dell'uso di dati sintetici è che possono essere utilizzati senza rischiare la privacy o violare la conformità. Il software di dati sintetici include anche salvaguardie della privacy, come la privacy differenziale, per garantire che le informazioni individuali rimangano sicure. Questo rende più facile per le organizzazioni condividere dati senza mettere a rischio la privacy personale.
Mentre il software di mascheramento dei dati protegge anche le informazioni private, non consente di creare dati artificiali o gestire dataset su larga scala come il generatore di dati sintetici. Inoltre, le aziende che cercano di affrontare il bias algoritmico possono utilizzare i dati sintetici per ridurre i bias nei loro dataset originali.
Per qualificarsi per l'inclusione nella categoria dei Dati Sintetici, un prodotto deve:
Generare dati sintetici, come immagini e dati strutturati
Convertire dati sensibili alla privacy in un dataset completamente anonimo mantenendo la granularità
Funzionare immediatamente, e garantire che il modello generativo possa generare automaticamente i dati senza essere esplicitamente programmato per farlo