Introducing G2.ai, the future of software buying.Try now

Tendenze 2021 nella Generazione e Rilevamento di Dati Sintetici

Dicembre 8, 2020
da Matthew Miller

Questo post fa parte della serie di tendenze digitali 2021 di G2. Leggi di più sulla prospettiva di G2 sulle tendenze della trasformazione digitale in un'introduzione di Michael Fauscette, direttore della ricerca di G2, e Tom Pringle, VP, ricerca di mercato, e ulteriori coperture sulle tendenze identificate dagli analisti di G2.

Da un lato: attori positivi che utilizzano dati sintetici

Stiamo vivendo nell'era dei dati. Le aziende cercano di utilizzare i dati che raccolgono per prendere decisioni aziendali più informate. Le organizzazioni governative, ad esempio, che storicamente sono state lente a innovare, cercano di comprendere meglio i dati che stanno accumulando per fornire una migliore assistenza e supporto ai loro cittadini.

Le organizzazioni cercano modi per utilizzare i dati mentre: 
  1. Preservano l'utilità dei dati: assicurandosi che i dati utilizzati siano effettivamente utili e che da essi si possano trarre validi approfondimenti
  2. Preservano la privacy dei dati: assicurandosi che i dati utilizzati non presentino rischi per la privacy o informazioni personali identificabili (PII)

Spesso, il vecchio software di mascheramento dei dati e il software di de-identificazione non sono sufficienti per garantire che i punti sopra menzionati siano rispettati. Rischiano di distruggere l'utilità dei dati producendo set di dati che non sono statisticamente comparabili all'originale (violando il punto #1) o permettendo di identificare le persone all'interno dei dati (violando il punto #2). 

 

true"bg-light"{}{}"Che cos'è il software di mascheramento dei dati e il software di de-identificazione?""Flex - Blog Text Callout Box 2"4171269"Il software di mascheramento dei dati protegge i dati importanti di un'organizzazione mascherandoli con caratteri casuali o altri dati. Il software di de-identificazione sostituisce i dati identificativi personali nei set di dati con identificatori artificiali o pseudonimi."

 

Negli ultimi anni, G2 ha visto l'ascesa dei dati sintetici, sia non strutturati che strutturati, che forniscono alle aziende strumenti per creare programmaticamente set di dati che sono statisticamente identici ma non contengono dati reali o PII. Abbiamo visto che anche le organizzazioni governative, come la Commissione Nazionale per la Sicurezza sull'Intelligenza Artificiale, riconoscono l'importanza di questo tipo di dati, come hanno espresso attraverso partnership con venditori e rapporti.

Sebbene i dati sintetici di diverse varietà esistano da decenni, stiamo assistendo a un boom di interesse negli ultimi anni e a un avanzamento nelle tecniche. Infatti, oltre il 71% delle 21 aziende nella categoria Software di Dati Sintetici di G2 sono state fondate dal 2017, come si può vedere di seguito.

grafico che mostra i venditori di dati sintetici in base alla loro data di fondazione

I casi d'uso positivi dei dati sintetici sono molteplici ed entusiasmanti, con un impatto industriale immenso. Se si sceglie un settore da un (molto grande) cappello, è probabile che ci sia un caso d'uso per i dati sintetici che possa avere un impatto.

Sanità
Jasmine Lee, analista di G2 focalizzata sulla sanità, ha evidenziato l'attrattiva e le conseguenze reali di applicare dati sintetici a dati clinici sensibili. Scrive:

Una volta che le soluzioni di dati sintetici sono integrate nei database di un'organizzazione sanitaria, esse ingeriscono tutti i punti dati, automatizzando la deduplicazione e la pulizia dei dati, catturando approfondimenti statistici e relazioni tra i punti dati, e facilitando la condivisione, la consegna e la modellazione dei dati.  

Veicoli autonomi
Nell'ambito dei veicoli autonomi, le aziende stanno lavorando con aziende di dati sintetici per costruire set di addestramento più robusti. I metodi tradizionali di addestramento di questi veicoli sono pieni di difficoltà, dai costi legati alla costruzione di un ampio e diversificato set di dati di scenari al pericolo di vittime. Con i dati sintetici, i produttori di veicoli autonomi sono in grado di creare programmaticamente set di dati che sono comparabili al mondo reale. Con un set di dati adeguato, questi veicoli sono orientati a essere più sicuri e affidabili. 

Finanza
Nell'ambito dei servizi finanziari, le aziende stanno utilizzando dati sintetici per condividere e analizzare i dati finanziari. Ad esempio, le aziende sono in grado di aumentare le informazioni sui clienti, incluso il punteggio di credito. Con i dati sintetici, sono in grado di preservare modelli e relazioni nei dati di serie temporali transazionali. Le applicazioni nel mondo reale includono: modellare relazioni causali e temporali complesse nei flussi transazionali e costruire sistemi di rischio di credito.

Esempi concreti includono: 

  • Nell'ambito sanitario, gli Istituti Nazionali di Sanità hanno collaborato con MDClone per facilitare la ricerca sui dati COVID-19.
  • Nell'ambito dei veicoli autonomi, CVEDIA ha costruito SynCity per fornire una piattaforma di simulazione utilizzata per generare dati per l'addestramento e la validazione delle reti neurali. Questa piattaforma può essere utilizzata per validare i sistemi di visione artificiale per veicoli autonomi con simulazioni personalizzate e fotorealistiche.
  • Nell'ambito dei servizi finanziari, Hazy si specializza nei servizi finanziari, già aiutando alcune delle principali banche e compagnie assicurative del mondo a ridurre il rischio di conformità e accelerare l'innovazione dei dati.

Dall'altro lato: attori negativi che utilizzano dati sintetici

Tuttavia, non tutto è roseo nel campo dei dati sintetici. Negli ultimi anni, abbiamo assistito a un aumento dell'uso malevolo dei media sintetici, specialmente sotto forma di deepfake, un tipo di media sintetico che può assumere la forma di testo, immagini, audio o video. Più comunemente, le persone pensano ai deepfake quando un'immagine o un video viene manipolato con la somiglianza di qualcun altro. 

Di seguito, si può vedere come l'interesse in questo dominio sia rimasto relativamente basso tranne che per quei due picchi all'inizio del 2018 e a metà del 2018, quando il termine ha iniziato a essere utilizzato. 

grafico che mostra la crescita dell'interesse per i deepfake negli Stati Uniti dal 2018

I deepfake differiscono in sofisticazione, con alcune versioni particolarmente amatoriali e scadenti, mentre altre sono molto difficili da rilevare. Ciò che è allarmante è che questo tipo di media sintetico sta diventando sempre più avanzato e sempre più difficile da rilevare. Questa tendenza è anche alimentata dai seguenti fattori:

  1. Deepfake-as-a-service: Alcuni attori negativi offrono di vendere a qualsiasi individuo un deepfake su misura, permettendo loro di creare qualsiasi tipo di media per il giusto prezzo.
  2. Disinformazione per la perdita: Gli attori negativi possono diffondere video deepfake attraverso i social media e presentare filmati falsi come se fossero reali.

Tuttavia, c'è speranza

Non tutto è perduto. Come notato sopra, i governi hanno preso atto sia del lato positivo che negativo dei dati sintetici. Oltre alle applicazioni positive dei dati sintetici che abbiamo visto sopra, il Congresso degli Stati Uniti sta anche investendo in soluzioni per combattere i deepfake e sta lavorando attivamente per far avanzare la conversazione.

Abbiamo anche visto un forte interesse da parte delle aziende di cybersecurity e delle organizzazioni di social media per combattere i media sintetici malevoli attraverso competizioni e laboratori di data science. 

Merry Marwig, analista di G2 focalizzata sulla privacy dei dati e sulla cybersecurity ha commentato:

G2 non ha (ancora) una categoria per i deepfake e altri tipi di rilevamento della disinformazione, ma stiamo tenendo d'occhio questo mercato nel 2021.”

Modificato da Sinchana Mistry

Vuoi saperne di più su Software di Riconoscimento Immagini? Esplora i prodotti Riconoscimento delle immagini.

Matthew Miller
MM

Matthew Miller

Matthew Miller is a former research and data enthusiast with a knack for understanding and conveying market trends effectively. With experience in journalism, education, and AI, he has honed his skills in various industries. Currently a Senior Research Analyst at G2, Matthew focuses on AI, automation, and analytics, providing insights and conducting research for vendors in these fields. He has a strong background in linguistics, having worked as a Hebrew and Yiddish Translator and an Expert Hebrew Linguist, and has co-founded VAICE, a non-profit voice tech consultancy firm.