Introducing G2.ai, the future of software buying.Try now

L'attrattiva e le conseguenze reali dell'applicazione di dati sintetici a dati clinici sensibili

Agosto 5, 2020
da Jasmine Lee

Già prima della crisi del COVID-19, i sistemi sanitari, i ricercatori medici e le istituzioni mediche si confrontavano con modi efficienti di raccogliere dati dei pazienti mantenendo al contempo la privacy dei pazienti.

Quando si ricerca per l'innovazione sanitaria o la gestione delle crisi, le istituzioni sanitarie devono estrarre dati da una moltitudine di sistemi. Rispondere a domande sulle tendenze delle condizioni croniche, la fattibilità di un trattamento in una comunità, i tassi di utilizzo di determinate procedure o i costi crescenti dell'assistenza sanitaria—tutti questi scenari richiedono la raccolta, l'analisi e la condivisione di dati dei pazienti e della popolazione.

Sfortunatamente, quel processo è pieno di possibili violazioni dei dati, navigazione delle normative sulla privacy del settore, dipendenza dagli specialisti IT sanitari e tempo prezioso. Inoltre, compilare e ricercare i dati dei pazienti richiede la navigazione attraverso enormi quantità di dati che possono esistere in una varietà di sistemi che sono isolati o frustrantemente dispersi in archivi diversi.

Correlato: Come la tecnologia cloud facilita la gestione dell'assistenza ai pazienti

Uso dei dati dei pazienti nella ricerca clinica

La maggior parte delle volte, i ricercatori medici devono presentare richieste di dati per accedere anche ai dati dei pazienti individuali e della popolazione. Ci vuole tempo per richiedere e ricevere estrazioni di dati, e ancora più tempo e abilità per leggere e manipolare qualsiasi dato ricevuto. Richiede anche query incredibilmente specifiche da parte del professionista medico, del ricercatore o dell'istituzione, che potrebbero o meno necessitare di query supplementari per chiarimenti. La ciliegina sulla torta? Tutte le informazioni sui pazienti devono essere redatte a causa della loro natura sensibile. Compromettere la sicurezza e la riservatezza dei pazienti non rimuovendo tutti gli attributi identificativi va direttamente contro le linee guida sulla conformità sanitaria come l'Health Insurance Portability and Accountability Act (HIPAA), l'Health Information Technology for Economic and Clinical Health Act (HITECH) e il General Data Protection Regulation (GDPR).

Le cartelle cliniche elettroniche (EHR) sono ora digitalizzate—il progresso che ha migliorato l'archiviazione e l'accesso alle cartelle cliniche di un paziente non si è necessariamente tradotto in una convergenza di quelle cartelle. La transizione dei sistemi sanitari legacy in sistemi più agili basati su cloud non ha immediatamente eliminato i flussi di lavoro (ingombranti) quando si tratta di comunicazione e collaborazione clinica. Molto probabilmente, i sistemi sanitari devono ora affrontare dati duplicati che devono essere puliti e controlli di accesso che devono essere determinati caso per caso, titolo per titolo.

Tutto ciò illustra che c'è una ragione per cui i progressi nelle soluzioni sanitarie, nella salute digitale e nella soddisfazione del paziente non hanno necessariamente portato a una trasformazione completa ed efficiente dell'industria sanitaria. Questo è un problema globale. Il sistema sanitario degli Stati Uniti è noto per essere inefficiente, ma la pandemia mondiale di COVID-19 ha reso chiaro che ci sono problemi globali di condivisione dei dati, pooling delle risorse e opportunità di ricerca.

Come risolviamo questo problema? Come possiamo veramente comprendere e imparare dalle lacune nell'assistenza e nella ricerca medica in modo da poter proteggere tutti sul pianeta e possibilmente prevenire un'altra pandemia come il COVID-19?

I dati sintetici offrono una soluzione convincente.

la de-identificazione ha camminato affinché i dati sanitari sintetici potessero correre

Dati sintetici nell'assistenza sanitaria

La guida ai dati sintetici di AI Multiple descrive l'utilità dei dati sintetici nei casi in cui i requisiti di privacy fondamentali limitano la disponibilità dei dati, i costi dei test di prodotto nella vita reale limitano negativamente gli sforzi, o i set di dati devono essere rapidamente addestrati per essere efficaci. I dati sintetici producono set di dati statisticamente comparabili in un ambiente più rapido e sicuro, consentendo alle aziende, alle istituzioni e alle organizzazioni di diventare più agili, innovative ed efficaci.

La sua applicazione nell'industria sanitaria presenta un potenziale intrigante. Indipendentemente da tutte le informazioni che vengono inserite e accessibili dai professionisti medici, tutte le informazioni sui pazienti sono sensibili e richiedono protezione e de-identificazione prima di poter essere utilizzate per qualsiasi scopo di ricerca. L'applicazione sanitaria dei dati sintetici consente ai ricercatori medici di creare e consultare quei set di dati statisticamente comparabili su pazienti fittizi.

Per essere chiari, questi set di dati non sono colpi al buio. "Pazienti fittizi" significa dati dei pazienti non attribuibili; i dati dei pazienti non attribuibili spogliano tutti i dati degli identificatori dei pazienti e demografici. L'Università di Copenaghen riassume bene gli attributi di questi pazienti fittizi:

attributi dei pazienti fittizi tramite l'Università di Copenaghen

In poche parole, i dati sanitari sintetici ampliano la portata dei dati esistenti o "reali", aggirando il problema della scarsa disponibilità di dati.

Proteggere l'identità del paziente è fondamentale. Tuttavia, quella protezione rigorosa causa interruzioni nei dati clinici e nei flussi di lavoro della ricerca clinica. Ad esempio, quando un coordinatore dell'assistenza clinica contatta gli amministratori ospedalieri per la documentazione del paziente, deve inviare fax con moduli, seguire gli amministratori al telefono e inserire manualmente i dati. Questa è la procedura per ogni singolo paziente. I coordinatori dell'assistenza clinica devono anche fare attenzione a non richiedere informazioni troppo presto perché i documenti condivisi hanno una breve durata. Questo è solo uno scenario già pieno di colli di bottiglia.

Ora applica quel flusso di lavoro accidentato ai ricercatori clinici o agli sviluppatori di farmaci farmaceutici, che stanno cercando di fare previsioni, identificare tendenze e determinare iniziative di salute della popolazione su scala più ampia. Certo, i sistemi sanitari più grandi possono avere database più grandi (o data lake) per contenere tutte le informazioni dei loro pazienti, ma questi database non sono strutturati in modo uno a uno. La cartella clinica di un paziente può esistere separatamente dai loro registri delle procedure, dei rinvii e della storia delle cure accessorie. I dati medici di un paziente possono persino esistere separatamente tra diverse entità della stessa azienda. In effetti, questo si traduce in scarsità di dati.

Come direbbero i giovani, la de-identificazione ha camminato affinché i dati sanitari sintetici potessero correre. La de-identificazione dei dati dei pazienti è la censura o la rimozione degli attributi identificabili dei pazienti per scopi di ricerca sulla salute della popolazione. La differenza tra de-identificazione e dati sanitari sintetici è che questi ultimi sono completamente rimossi dalle informazioni sui pazienti. I dati sintetici non contengono dati personali. Inoltre, i generatori di dati intelligenti dei pazienti (iPDG) e i generatori di EHR possono essere utilizzati per generare cartelle cliniche sintetiche indipendentemente dalla quantità di dati dei pazienti memorizzati nel sistema amministrativo di un ospedale.

C'è anche l'acronimo sorprendente FHIR. Le Fast Healthcare Interoperability Resources, più comunemente note come FHIR, hanno contribuito a spianare la strada in termini di raccolta e condivisione dei dati. FHIR fornisce all'industria sanitaria uno standard di archiviazione dei dati basato su cloud che migliora lo scambio di informazioni sanitarie (HIE) e l'interoperabilità dei dati. FHIR migliora significativamente la comunicazione e la collaborazione clinica consentendo l'etichettatura e l'organizzazione dei dati clinici all'interno del sistema dati di un'organizzazione sanitaria.

citazione di Robert Lieberthal sui dati sintetici come soluzione nell'industria sanitaria

Robert Lieberthal, economista sanitario principale presso The MITRE Corporation, crede che "I dati sintetici siano una soluzione a molti dei problemi che affliggono il nostro sistema IT sanitario... In un certo senso, i dati sintetici rappresentano gli standard attuali dell'IT sanitario incorporando anche il meglio di ciò che l'IT sanitario potrebbe essere."

Una volta che le soluzioni di dati sintetici sono integrate nei database di un'organizzazione sanitaria, ingeriscono tutti i punti dati, automatizzando la deduplicazione e la pulizia dei dati, catturando intuizioni statistiche e relazioni tra i punti dati e facilitando la condivisione, la consegna e la modellazione dei dati.

Ancora una volta, poiché i dati sintetici non contengono informazioni sanitarie protette, i dati artificiali generati possono essere condivisi tra ricercatori medici e clinici e scienziati. Non sono più vincolati a utilizzare informazioni sui pazienti redatte che possono o meno aderire alle linee guida sulla conformità sanitaria quando sviluppano nuove strategie sanitarie, iniziative di pagamento e politiche sanitarie e sviluppo della salute digitale.

Preoccupazioni sull'utilizzo dei dati sintetici

evidenziando le preoccupazioni sull'utilizzo dei dati sintetici

Sebbene i benefici della generazione e dell'applicazione dei dati sintetici all'assistenza sanitaria siano chiari, è ancora nelle prime fasi di adozione e implementazione. Esistono detrattori dei dati sintetici, e per buone ragioni, come con qualsiasi soluzione che si affida all'apprendimento automatico e all'automazione per affinare e perfezionare.

Ci sono limitazioni ai dati sintetici in un contesto sanitario, e tutte le parti interessate che vogliono sfruttare i dati sintetici devono esserne consapevoli.
  • Varianza — I pazienti sono umani e quindi, sono costituiti da varianze e complessità che non possono necessariamente essere previste o replicate dai dati sintetici. I dati sanitari generati artificialmente possono solo essere in grado di simulare tendenze generali o "medie" nelle applicazioni cliniche generali.
  • Validità dei dati "reali" (osservazionali) — I dati sintetici, per definizione, non sono una replica esatta dei dati dei pazienti. Sebbene i dati sintetici possano essere manipolati per adattarsi a qualsiasi scenario un ricercatore li utilizzi, sono comunque radicati in un set di dati iniziale della vita reale. In altre parole, i risultati dei dati sintetici sono in sospeso fino a quando non vengono convalidati da dati reali e osservazionali che possono migliorare le previsioni dei dati sanitari generati artificialmente. Inoltre, la sua dipendenza dalla qualità della fonte dei dati può influenzare significativamente la qualità dei dati sanitari sintetici generati.
  • Accettazione da parte degli utenti e applicazione diffusa — Il software di dati sintetici si vanta di randomizzare i dati della vita reale in punti dati irriconoscibili e non attribuibili. Tuttavia, c'è ancora una possibilità (forse una possibilità su un milione) che il punto dati randomizzato sia un punto dati effettivo. I benefici dei dati sintetici non sono ancora stati sperimentati da tutti nel mondo, e il suo potenziale può, infatti, allontanare ricercatori o governi che dubitano dell'accuratezza o della validità delle previsioni basate su dati artificiali.

Attori nei dati sanitari sintetizzati

I dati sintetici, e in particolare i dati sanitari sintetici, sono un forum relativamente nuovo in cui viene condotta la ricerca. Di conseguenza, l'elenco seguente degli attori dei dati sanitari sintetici è breve ma crescerà man mano che questa tecnologia sanitaria diventerà più ampiamente accettata e migliorata.

MDClone

MDClone è un fornitore di IT sanitario con sede in Israele con la missione di facilitare l'accesso ai dati sanitari e migliorare i metodi complessivi di ricerca e attività sanitaria. La piattaforma di MDClone intende democratizzare i dati in tutto l'ecosistema sanitario consentendo l'uso ampio dei dati che risiedono all'interno dei sistemi sanitari.

Synthea

Synthea è un generatore di dati dei pazienti sintetici open-source che può essere utilizzato per creare modelli di storia medica di pazienti sintetici. Il data lake gratuito di Synthea consente la ricerca sui dati sanitari rispettando le restrizioni di privacy e sicurezza, indipendentemente dall'industria sanitaria.

Statice

Statice ha sviluppato soluzioni di anonimizzazione dei dati conformi alla privacy che possono essere utilizzate da aziende e organizzazioni in tutti i settori. Statice consente alle istituzioni sanitarie di lavorare più velocemente, in modo più sicuro e conforme, promuovendo la ricerca, lo sviluppo e la fornitura di assistenza ai pazienti.

MHMD

La società di consulenza Lynkeus ha guidato il progetto MyHealthMyData (MHMD) finanziato dall'Unione Europea che mirava—e riuscì—a dimostrare la validità e l'utilità di rendere disponibili dati anonimizzati (leggi: sintetici) per la ricerca aperta.

Simulacrum

La Human Data Science Company, IQVIA ha collaborato con la società di ricerca biopharma AstraZeneca per sviluppare il database sintetico Simulacrum. Simulacrum è composto esclusivamente da dati artificiali (leggi: sintetici) per condurre ricerche ed eseguire analisi sulla cura del cancro della popolazione.

La strada da percorrere

L'impatto potenziale della creazione e dell'utilizzo dei dati sintetici per migliorare la ricerca clinica e le strategie sanitarie è enorme. Come per la maggior parte delle cose, ci vuole tempo perché un'industria raccolga i benefici di un nuovo tipo di tecnologia o processo prima che tutti salgano a bordo. Tuttavia, durante una crisi sanitaria mondiale, siamo a corto di tempo e risorse. Sia le comunità mediche regionali che globali devono prendere spunto dagli attuali leader nei dati sanitari sintetici per trasformare il modo in cui condividono e proteggono i dati dei pazienti, incoraggiare la collaborazione clinica e avviare il cambiamento necessario nel loro approccio alla creazione e al miglioramento di piani, strategie e iniziative sanitarie.

Leggi di più: Il ruolo critico della telemedicina nella crisi del COVID-19
Modificato da Sinchana Mistry

Vuoi saperne di più su Software per la sanità? Esplora i prodotti Assistenza sanitaria.

Jasmine Lee
JL

Jasmine Lee

Jasmine is a former Senior Market Research Analyst at G2. Prior to G2, she worked in the nonprofit sector and contributed to a handful of online entertainment and pop culture publications.