Avere accesso ai dati personali significa che le aziende possono personalizzare prodotti e servizi in base alle esigenze e agli interessi dei loro clienti. Ma tale accesso comporta una grande responsabilità.
Le organizzazioni devono mantenere la privacy e la riservatezza dei dati per conformarsi alle normative del settore come il Regolamento Generale sulla Protezione dei Dati (GDPR).
La pseudonimizzazione svolge un ruolo cruciale nel garantire la protezione dei dati. Molte organizzazioni utilizzano software di de-identificazione e pseudonimia dei dati per conformarsi alle leggi sulla privacy e protezione dei dati e ridurre il rischio di compromettere le informazioni personali identificabili.
Cos'è la pseudonimizzazione?
La pseudonimizzazione è un metodo di trattamento dei dati personali in modo che non possano essere attribuiti a una persona specifica o a un soggetto dei dati senza informazioni aggiuntive. Queste informazioni aggiuntive sono conservate separatamente per garantire la privacy di una persona identificata o identificabile.
Le informazioni personali possono essere qualsiasi cosa relativa a una persona fisica identificabile. Tra gli altri indicatori, questo include nome, posizione e numero di identificazione. Le informazioni possono comprendere qualsiasi combinazione di caratteristiche fisiche, fisiologiche, sociali, economiche o psicologiche relative a una persona.
La pseudonimizzazione è parte del processo di gestione e de-identificazione dei dati. Sostituisce le informazioni personali identificabili (PII) con uno o più pseudonimi o identificatori artificiali. Le aziende possono ripristinare i dati pseudonimizzati al loro stato originale utilizzando informazioni aggiuntive che supportano il processo di re-identificazione.
È un modo per conformarsi al Regolamento Generale sulla Protezione dei Dati (GDPR) dell'Unione Europea. Lo standard normativo impone la conservazione sicura dei dati personali. Quando implementata efficacemente, la pseudonimizzazione motiva anche l'allentamento degli obblighi dei responsabili del trattamento dei dati.
Una tecnica di pseudonimizzazione basata sul rischio considera fattori di utilità e scalabilità offrendo al contempo protezione. L'implementazione della pseudonimizzazione basata sul rischio è possibile quando i responsabili e i processori dei dati hanno accesso alle informazioni fornite dai proprietari dei prodotti, dai gestori dei servizi o dai proprietari delle applicazioni.
I regolatori devono fornire passaggi granulari e pratici per valutare i rischi promuovendo la priorità basata sul rischio e le sue migliori pratiche. Questo consente la protezione dei dati su larga scala e aiuta le aziende a proteggere grandi volumi di dati personali.
Come funziona la pseudonimizzazione?
Nel processo di pseudonimizzazione, identificatori come nome, numero di telefono o indirizzo email sono mappati a pseudonimi: qualsiasi numero arbitrario, carattere o una sequenza di entrambi. Ad esempio, se ci sono due identificatori, A e B, mappati a pseudonimi PS1 e PS2, il processo esegue una funzione di pseudonimizzazione che differenzia PS1 da PS2. Altrimenti, il recupero degli identificatori potrebbe diventare ambiguo.
È possibile mappare un singolo identificatore a più pseudonimi purché l'identificatore effettivo possa essere recuperato. Per ogni pseudonimo, c'è un segreto aggiuntivo, noto anche come segreto di pseudonimizzazione, che aiuta a recuperare l'identificatore originale. Una tabella di pseudonimizzazione che mappa gli identificatori a un pseudonimo può essere un semplice esempio di segreto o informazione aggiuntiva.
Vuoi saperne di più su Strumenti di de-identificazione dei dati? Esplora i prodotti De-identificazione dei dati.
Anonymizzazione vs. Pseudonimizzazione
Il processo di anonymizzazione rende i dati completamente illeggibili o anonimi: i dati originali non possono essere recuperati in seguito. Prendiamo un semplice esempio. Se si anonimizzano dati come il nome Scott, il suo output può essere XXXXX impedendo il recupero del nome effettivo dai dati anonimizzati.
.png)
Al contrario, con l'aiuto di informazioni aggiuntive o di un segreto di pseudonimizzazione, i dati pseudonimi possono essere trasformati nell'identificatore originale.
Il processo di anonimizzazione garantisce la privacy dei dati ma non è sempre pratico. In alcuni casi, come i dati sanitari, l'anonimizzazione può trarre conclusioni significative senza compromettere l'identità di un paziente.
Quando l'anonimizzazione non può garantire completamente la privacy dei dati, potrebbero essere necessarie misure di sicurezza come la crittografia. Queste situazioni si verificano quando i dati anonimizzati sono combinati con altri set di dati e quando è possibile tracciare le informazioni a una persona specifica.
Tecniche di pseudonimizzazione
Di seguito sono riportate alcune tecniche di pseudonimizzazione di base che i team possono utilizzare per proteggere i dati personali.
Contatore
La tecnica del contatore sostituisce ogni identificatore con un numero scelto da un contatore monotono. Evita l'ambiguità garantendo l'assenza di ripetizioni nei valori del contatore monotono. Questa tecnica è facile da implementare per set di dati piccoli e semplici.
| Nome | Pseudonimo (generatore di contatore) |
| Fisher | 10 |
| Mark | 11 |
| Twain | 12 |
La semplicità è un vantaggio della tecnica del contatore. Tuttavia, potrebbero esserci alcuni problemi di implementazione e scalabilità nel caso di set di dati grandi e più sofisticati poiché memorizzano l'intera tabella di pseudonimizzazione.
Generatore di numeri casuali (RNG)
Un generatore di numeri casuali produce valori che hanno una possibilità uguale di essere scelti da una popolazione totale, generando valori imprevedibili. Fornisce una protezione dei dati robusta rispetto alla tecnica del contatore poiché è difficile individuare l'identificatore effettivo finché la tabella di pseudonimizzazione non è compromessa.
| Nome | Pseudonimo (RNG) |
| Fisher | 342 |
| Mark | 984 |
| Twain | 410 |
Attenzione, l'RNG comporta possibilità di collisione. La collisione si riferisce a uno scenario in cui la funzione assegna lo stesso pseudonimo a due identificatori diversi. Anche la scalabilità può essere una sfida quando si lavora su set di dati più grandi e più sofisticati poiché questa tecnica memorizza anche la tabella di pseudonimizzazione.
Funzione hash crittografica
Una funzione hash crittografica mappa stringhe di input di lunghezze multiple a output di lunghezza fissa. Questo garantisce che sia computazionalmente infattibile trovare qualsiasi input che generi una stringa di output specifica. Inoltre, è priva di collisioni. Ad esempio, Alice e Fisher, dopo la pseudonimizzazione utilizzando la funzione hash crittografica, genereranno 24fsa35gersw439 e 43ase98shekc021 come pseudonimi.
Sebbene le funzioni hash crittografiche risolvano alcune sfide della pseudonimizzazione, come le collisioni, sono soggette a attacchi di forza bruta e attacchi di dizionario.
Codice di autenticazione del messaggio (MAC)
Il codice di autenticazione del messaggio è simile alla funzione hash crittografica, ma utilizza una chiave segreta per generare uno pseudonimo. Finché questa chiave non è compromessa, è infattibile rilevare l'identificatore effettivo dallo pseudonimo.
Il MAC è considerato una tecnica di pseudonimizzazione robusta. Le sue varianti si applicano a diversi requisiti di scalabilità e utilità dell'entità di pseudonimizzazione. Il MAC può essere applicato nella pubblicità display basata su Internet, dove un inserzionista può allegare un pseudonimo unico per ogni individuo senza rivelare le loro identità.
Puoi anche applicare il MAC in sottoparti separate di un identificatore e utilizzare la stessa chiave segreta. Ad esempio, nel caso di XYZ@abc.op e PNR@abc.op, puoi assegnare la stessa chiave segreta al dominio abc.op e generare lo stesso sottopseudonimo.
Crittografia
La crittografia simmetrica, in particolare i cifrari a blocchi come l'Advanced Encryption Standard (AES), crittografa un identificatore con una chiave segreta. Questa chiave funge da segreto di pseudonimizzazione e segreto di recupero. La dimensione del blocco può essere più piccola o più grande di un identificatore in questa tecnica. Il metodo include il padding se la dimensione dell'identificatore è più piccola della dimensione del blocco.
D'altra parte, se la dimensione dell'identificatore è maggiore della dimensione del blocco, l'identificatore viene compresso in una dimensione più piccola della dimensione del blocco, oppure viene utilizzata una modalità di operazione come la modalità contatore CTR. La crittografia è una tecnica di pseudonimizzazione forte.
Nei casi in cui il responsabile del trattamento dei dati deve preservare il formato senza rivelare l'identificatore originale, viene utilizzata la crittografia a preservazione del formato (FPE) invece della crittografia convenzionale. Ad esempio, durante la pseudonimizzazione di XYZ@jkl.com, l'FPE può produrre wqi@abc.kxr, e la crittografia convenzionale può generare hui sa0 2ser @ aqw xde bgt miu cvf erw 56t come pseudonimi.
Di seguito sono riportati alcuni metodi avanzati di pseudonimizzazione utilizzati in set di dati relativamente complessi.
- Crittografia asimmetrica coinvolge due entità diverse nel processo di pseudonimizzazione. La chiave pubblica crea uno pseudonimo; la chiave privata lo risolve per determinare l'identificatore.
- Catene hash dipendono dall'hashing ripetuto del valore hash per produrre un output che richiede più inversioni per determinare l'identificatore originale.
- Schemi di condivisione segreta dividono le informazioni riservate in più parti. Questi schemi sono anche noti come schemi di soglia (k, n).
Politiche di pseudonimizzazione
Esistono tre politiche standard di pseudonimizzazione fondamentali per la sua implementazione pratica. Consideriamo un identificatore A che appare nei database X e Y. Dopo la pseudonimizzazione, A ottiene uno pseudonimo secondo una delle seguenti politiche.
Pseudonimizzazione deterministica
Nella pseudonimizzazione deterministica, ogni volta che un identificatore appare più volte in diversi database, viene sempre sostituito con lo stesso pseudonimo. Ad esempio, se A appare sia nei database X che Y, verrebbe sostituito con uno pseudonimo PS.
Durante l'implementazione di questa politica, tutti gli identificatori unici vengono sostituiti con i loro pseudonimi corrispondenti.
Pseudonimizzazione documentale-randomizzata
La pseudonimizzazione documentale-randomizzata sostituisce più istanze di un identificatore con diversi pseudonimi. Ad esempio, se un identificatore A appare due volte in un database, verrà sostituito con gli pseudonimi PS1 e PS2 per le rispettive occorrenze. Tuttavia, la pseudonimizzazione è coerente tra diversi database in questa politica.
L'implementazione della pseudonimizzazione documentale-randomizzata richiede un elenco di tutti gli identificatori e tratta tutte le occorrenze in modo indipendente.
Pseudonimizzazione completamente randomizzata
La pseudonimizzazione completamente randomizzata sostituisce più istanze di un identificatore con diversi pseudonimi ogni volta che si verifica in un qualsiasi database. Quando si lavora su un singolo database, è simile alla pseudonimizzazione documentale-randomizzata. Tuttavia, se i set di dati sono pseudonimizzati due volte utilizzando la pseudonimizzazione completamente randomizzata, l'output sarebbe diverso da quello della pseudonimizzazione documentale-randomizzata. Quest'ultima genererebbe lo stesso risultato due volte.
La casualità è selettiva nel caso della pseudonimizzazione documentale-randomizzata, mentre è globale per la pseudonimizzazione completamente randomizzata.
Come scegliere una tecnica e una politica di pseudonimizzazione
Durante la selezione di una tecnica di pseudonimizzazione, è necessario determinare il livello di protezione dei dati e i requisiti di utilità che si desidera raggiungere dopo l'implementazione. RNG, crittografia e codice di autenticazione del messaggio sono fondamentali per garantire una protezione robusta dei dati. Tuttavia, potresti scegliere una combinazione o una variazione delle tecniche sopra menzionate in base ai requisiti di utilità.
Allo stesso modo, la tua scelta di tecnica di pseudonimizzazione varia in base ai livelli di protezione dei dati e alla capacità di confrontare diversi database. Ad esempio, la pseudonimizzazione completamente randomizzata offre il miglior livello di protezione dei dati ma potrebbe non essere adatta se desideri confrontare diversi database. La pseudonimizzazione documentale-randomizzata e la funzione deterministica offrono utilità ma facilitano la collegabilità tra i soggetti dei dati.
La complessità e la scalabilità giocano anche un ruolo significativo nel governare la tua scelta. Ad eccezione di alcune variazioni di crittografia, la maggior parte delle tecniche si applica a identificatori di dimensioni variabili. Poiché la funzione hash, il generatore di numeri casuali e il codice di autenticazione del messaggio hanno possibilità di collisione, è necessario scegliere attentamente la dimensione di un pseudonimo.
Casi d'uso della pseudonimizzazione
Una combinazione di diversi approcci di pseudonimizzazione può offrire vantaggi unici nelle applicazioni del mondo reale. Di seguito sono riportati i settori comuni che implementano popolarmente la pseudonimizzazione.
Sanità
La pseudonimizzazione protegge i dati sensibili nei record medici contro l'accesso accidentale o intenzionale da parte di qualsiasi parte non autorizzata. I record medici contengono dati sostanziali riguardanti la condizione medica di un paziente, la diagnosi, l'aspetto finanziario e la storia medica. I medici possono utilizzare questi record per valutare la condizione medica di un paziente e fornire il trattamento.
D'altra parte, le compagnie assicurative possono utilizzare i dati finanziari. Allo stesso modo, le agenzie di ricerca possono sfruttare i record medici per accedere a informazioni binarie come se un paziente fosse stato trattato.
Tutti gli scenari sopra menzionati suggeriscono che qualsiasi parte avrebbe accesso a informazioni rilevanti per loro. Ma i record medici contengono informazioni dettagliate su tutti gli aspetti dell'assistenza sanitaria di un paziente. La pseudonimizzazione svolge un ruolo vitale qui e impedisce alle parti di accedere a dati che non sono rilevanti per il loro scopo.
Ad esempio, le istituzioni di ricerca necessitano di accesso a dati su sintomi, durata e trattamento per eseguire modelli statistici e analisi. La pseudonimizzazione li aiuta a fornire questi dati ai ricercatori in modo che non possano essere collegati a nessun paziente.
Le istituzioni mediche possono utilizzare la pseudonimizzazione per proteggere la privacy dei pazienti durante l'elaborazione dei dati medici. Aiuta a conformarsi alle normative standard nel settore sanitario e a proteggere i dati dei pazienti contro l'accesso non autorizzato.
Cybersecurity
Le moderne tecnologie di cybersecurity non dipendono più dalla protezione statica o basata su firme. Invece, correlano eventi sospetti che rivelano l'esistenza di minacce avanzate e addestrano i sistemi di apprendimento automatico a rilevarle. Queste tecnologie si concentrano anche sulla costruzione di modelli di minacce comportamentali e sull'istituzione di protezione basata sulla reputazione.
Queste tecnologie elaborano dati personali per fornire analisi di sicurezza, e la pseudonimizzazione svolge un ruolo vitale nella protezione delle informazioni sensibili. Con il web in crescita esponenziale, diventa sempre più difficile tracciare e bloccare domini, URL o attori malevoli. I moderni sistemi di sicurezza utilizzano l'analisi comportamentale e addestrano i loro sistemi dopo aver correlato i dati raccolti sul campo noti come telemetria di sicurezza. Queste analisi di telemetria non richiedono l'identificazione dell'utente, e qualsiasi dato relativo all'uso effettivo può essere pseudonimizzato per garantire la privacy.
Molti sistemi di apprendimento automatico sfruttano la "saggezza della folla" per comprendere il comportamento di una vasta popolazione, come file scaricati e URL. I sistemi di reputazione assegnano un punteggio di reputazione basato sulla telemetria raccolta. Questi modelli hanno successo quando vengono analizzati grandi campioni di dati benigni e malevoli, aiutando i modelli a comprendere la distinzione tra entrambi. Correlare tali dati non richiederebbe l'identificazione dell'utente benigno, ma a un certo punto sarebbe necessario identificare gli utenti malevoli.
La pseudonimizzazione aiuta a contenere le informazioni sensibili degli utenti in tali scenari mentre vengono inviate per l'analisi all'entità di pseudonimizzazione. Le organizzazioni utilizzano strumenti di pseudonimizzazione, noti anche come software di pseudonimia di identificazione dei dati, per eliminare qualsiasi correlazione o identità umana effettiva.
I 5 migliori software di de-identificazione e pseudonimia dei dati
Il software di de-identificazione e pseudonimia dei dati sostituisce le informazioni riservate nei set di dati con identificatori artificiali o pseudonimi. Questi software aiutano le aziende a pseudonimizzare (o tokenizzare) i dati sensibili, minimizzare il rischio di memorizzare informazioni personali e conformarsi agli standard di privacy e protezione dei dati.
Per qualificarsi per l'inclusione nella categoria del software di de-identificazione e pseudonimia dei dati, un prodotto deve:
- Sostituire i dati personali con pseudonimi
- Proteggere i dati contro la re-identificazione
- Rispettare gli standard GDPR per la pseudonimizzazione secondo i requisiti di Protezione dei Dati per Progettazione e per Default
- Soddisfare i requisiti del California Consumer Privacy Act (CCPA)
Questi dati sono stati estratti da G2 il 12 maggio 2022. Alcune recensioni possono essere modificate per chiarezza.
1. Piattaforma VGS
Very Good Security (VGS) Platform offre un modo più veloce per raggiungere risultati aziendali attraverso un approccio zero-data che disaccoppia il valore aziendale dei dati sensibili dai rischi di sicurezza e conformità correlati. Aiuta i clienti a raggiungere la conformità sedici volte più velocemente, accelera il processo di audit del 70%, migliora l'esperienza del cliente e riduce i costi supportando l'innovazione costante.
Cosa piace agli utenti:
“Mi ci è voluto così poco tempo per capire come funziona VGS e cambiare il nostro flusso di lavoro per essere proxy attraverso VGS. Il supporto è sempre stato un'ottima esperienza, soprattutto tramite chat.”
- Recensione della Piattaforma VGS, Vu K.
Cosa non piace agli utenti:
“I casi d'uso avanzati possono essere complessi, soprattutto nello spazio di filtraggio del protocollo di trasferimento file sicuro (SFTP). Sembra che il prodotto SFTP non sia maturo come il proxy HTTP, il che ha senso poiché penso che la maggior parte dell'uso di VGS sarà nel proxy HTTP.
La dashboard è amichevole per l'onboarding di nuovi utenti, ma alla fine diventano difficili da gestire. Sarebbe bello se potessi modificare direttamente lo YAML di un filtro nella dashboard invece di dover esportare/reimportare l'intero YAML.”
- Recensione della Piattaforma VGS, Leejay H.
2. Conformità Cloud per Salesforce
Conformità Cloud per Salesforce fornisce ai team e alla leadership una sicurezza completa dei dati e conformità alle leggi sulla privacy (GDPR, CCPA), alle normative del settore (Health Insurance Portability and Accountability Act, standard di sicurezza del Payment Card Industry) e alle politiche InfoSec. Aiuta le aziende a mitigare il rischio di non conformità con una soluzione standardizzata e priva di errori.
Cosa hanno detto gli utenti:
“Rimane aggiornato con i dettagli più recenti sulle misure di conformità come il GDPR ecc. Ha anche un'interfaccia utente rapida basata su clic che minimizza il tempo per la configurazione.
Le politiche di conservazione dei dati potrebbero essere personalizzate per soddisfare le esigenze specifiche se si desidera mantenere i dati storici per un periodo di tempo prolungato."
- Recensione di Conformità Cloud per Salesforce, Nitin S.
*Al 23 maggio 2022, Conformità Cloud per Salesforce aveva una recensione su G2.
3. D-ID
D-ID’s identity protection rende le foto e i video delle organizzazioni irriconoscibili agli strumenti di riconoscimento facciale. Protegge i dati biometrici facciali e impedisce a qualsiasi malintenzionato di utilizzare immagini e video per accedere a qualsiasi informazione.
Cosa hanno detto gli utenti:
“La facilità d'uso è la cosa principale per me. Lo comprerei di nuovo. Mi è piaciuta tutta l'app, nessuna lamentela."
- Recensione di D-ID, Billy A.
*Al 23 maggio 2022, D-ID aveva una recensione su G2.
4. Immuta
Immuta fornisce accesso unificato ai dati analitici nel cloud ai team di ingegneria e operazioni. Accelera il tempo ai dati, facilita la condivisione sicura dei dati con più utenti e mitiga le violazioni e le perdite di dati.
Cosa piace agli utenti:
“Immuta è una piattaforma di controllo dell'accesso ai dati cloud che è adattiva e scalabile in base alla natura dinamica delle nostre fonti di dati. Fornisce tutte le integrazioni sorgente-destinazione senza problemi in modo che possiamo facilitare la transizione dei dati dalla nostra infrastruttura on-premise al cloud.
Poiché è una piattaforma automatizzata ospitata nel cloud, risparmiamo molto tempo poiché non richiede alcuna analisi dei lavori o installazioni di agenti. I set di dati essenziali sono registrati accuratamente nel suo catalogo e possiamo anche abilitare preferenze personalizzate durante l'analisi dei dati.”
- Recensione di Immuta, Nikitha S.
Cosa non piace agli utenti:
“Ogni volta che devo aggiungere una nuova tabella da un data warehouse, che è già noto a Immuta, devo digitare i dettagli della connessione più e più volte (host, nome utente, ecc.)”
- Recensione di Immuta, Igor C.
5. Mascheramento Dinamico dei Dati di Informatica
Informatica Dynamic Data Masking impedisce agli utenti non autorizzati di accedere a informazioni sensibili con de-identificazione e de-sensibilizzazione in tempo reale. Protegge le informazioni personali e sensibili supportando iniziative di offshoring, outsourcing e basate su cloud.
Cosa hanno detto gli utenti:
“Informatica DDM offre la comodità e l'affidabilità di avere la protezione dei dati con la sua ampia funzionalità DDM. Copre l'aspetto della sicurezza dell'accesso non autorizzato e previene la corruzione dei dati durante tutto il suo ciclo di vita. La conformità alla privacy degli utenti finali include vari elementi chiave come crittografia dei dati, hashing, tokenizzazione, ecc.
Informatica DDM è ottimo per la governance dei dati, l'integrità e le considerazioni sulla sicurezza. È adatto dal punto di vista della mia organizzazione e mi piace il prodotto.”
- Recensione di Informatica Dynamic Data Masking, Sabapathi G.
*Al 23 maggio 2022, Informatica Dynamic Data Masking aveva una recensione su G2.
Dimostra la conformità attraverso l'affidabilità
Scegli un software di de-identificazione e pseudonimia dei dati che si adatti meglio alle tue esigenze di protezione dei dati e affidati ad esso per dimostrare la conformità. Con il software, puoi derivare valore dai set di dati senza compromettere la privacy dei soggetti dei dati in un determinato set di dati.
Se hai bisogno di utilizzare una versione alternativa dei set di dati per scopi dimostrativi o di formazione garantendo al contempo la protezione dei dati sensibili, il mascheramento dei dati può supportare meglio le tue esigenze.
Scopri di più su mascheramento dei dati e come facilita la condivisione sicura dei dati.

Sagar Joshi
Sagar Joshi is a former content marketing specialist at G2 in India. He is an engineer with a keen interest in data analytics and cybersecurity. He writes about topics related to them. You can find him reading books, learning a new language, or playing pool in his free time.
