C'è una buona probabilità che tu elabori le informazioni così rapidamente in conversazione che il tuo cervello le categorizzi naturalmente senza che tu ne sia consapevole.
Supponiamo che tu senta la frase: "Di recente ho preso un nuovo vaso per piante rosa e una pianta di Hoya da The Plant Room, il mio vivaio preferito nelle vicinanze," il tuo cervello collega senza sforzo:
- Rosa = colore
- Pianta di Hoya = oggetto o tipo di pianta
- The Plant Room = nome del negozio
I modelli di riconoscimento delle entità nominate funzionano allo stesso modo.
Cos'è il riconoscimento delle entità nominate?
Il riconoscimento delle entità nominate (NER) identifica e categorizza i dati non strutturati in categorie predefinite (o entità nominate) come persone, organizzazioni e luoghi. È un compito di estrazione delle informazioni nell'elaborazione del linguaggio naturale (NLP).
Le reti neurali artificiali (ANN) sono modelli che si adattano a nuove informazioni e imparano a prendere decisioni basate su di esse. Vari settori, tra cui sanità, servizi finanziari, automobilistico e tecnologia, utilizzano software ANN per completare compiti come analisi predittiva, rilevamento di anomalie e riconoscimento di immagini e voce.
Le reti neurali profonde (DNN), un sottoinsieme delle reti neurali artificiali, sono essenziali per costruire funzioni di apprendimento profondo come il NER.
Riconoscimento delle entità nominate: passo dopo passo
Il riconoscimento delle entità nominate prende testo non strutturato e consente alle macchine di estrarre categorie di informazioni preziose da esso. Il suo obiettivo principale è identificare e classificare le entità nominate dai set di dati in categorie predefinite. Di seguito sono riportati i passaggi di alto livello che si verificano durante il processo NER.
Prepara un dataset annotato
Per addestrare i modelli NER, devi prima fornire un dataset di esempio contenente frasi che includono le entità che vuoi riconoscere. Il modello deve imparare a identificare queste identità essendo mostrato cosa cercare.
Potresti addestrare un modello a riconoscere:
- Nomi di organizzazioni
- Nomi di persone
- Luoghi
- Date (con un formato di data specificato)
- Valori monetari
- Titoli di lavoro
Per fare ciò, prepareresti un dataset con frasi che includono le entità specifiche e le etichette appropriate per quelle entità. Nella nostra dimostrazione qui sotto, ci concentreremo sull'addestramento del modello NER a riconoscere nomi di persone, nomi di organizzazioni e date nel formato YYYY.
Questo processo di addestramento preparerà il modello a riconoscere con successo le entità in futuro.
Tokenizzazione e pre-elaborazione
Una volta addestrato, possiamo fornire testo non strutturato per la pre-elaborazione. Prima di identificare le entità nei dati, scompone il testo in token o segmenti costituiti da parole, frasi o persino intere frasi. Questa tokenizzazione consente alla macchina di separare le informazioni, preparandole per l'identificazione e l'analisi.
Ad esempio, la frase, "Godard Abel è il CEO di G2, un'azienda che ha co-fondato nel 2012," verrebbe scomposta in token come:
- Godard
- Abel
- CEO
- G2
- azienda
- co-fondato
- 2022
Identificazione e classificazione delle entità
La macchina utilizza regole e metodi statistici per rilevare le entità nominate durante l'identificazione iniziale. Osserva il testo alla ricerca di schemi e formati testuali specifici. Utilizzando il tagging delle parti del discorso (POS), il modello può analizzare le parole in base al loro contesto e definizione. Questo aiuta ad analizzare correttamente gli omonimi nel contesto.
"Data" può essere un sostantivo o un verbo, e il contesto della parola varia a seconda del contesto.
- Qual è la data di oggi (sostantivo)?
- Vuoi uscire con me (sostantivo)?
- L'azienda risale (verbo) ai primi anni '90.
Il modello categorizza queste entità in base ai token, al tagging POS e alla sua conoscenza addestrata delle entità che vuoi catturare. Durante la fase finale di raffinamento, potrebbe risolvere ambiguità, unire entità multi-token e affrontare altre sfumature dei dati prima di etichettarle.
Nel nostro esempio, il nostro modello addestrato etichetterebbe la nostra frase come segue:
Godard Abel (nome di persona) è il CEO di G2 (nome dell'organizzazione), un'azienda che ha co-fondato nel 2012 (data).
Addestramento e test del modello
Dopo aver addestrato il modello, continua a fornirgli dati non strutturati per testare e aggiornare il modello per assicurarti che soddisfi le tue esigenze.
Vuoi saperne di più su Software di Reti Neurali Artificiali? Esplora i prodotti Rete Neurale Artificiale.
Metodi di riconoscimento delle entità nominate
Il tipo di metodo NER che si adatta alle tue esigenze dipende dal tuo dataset e dai risultati desiderati. Ci sono tre ampie categorie di metodi NER, con un quarto aggiuntivo che consente alle organizzazioni di combinare elementi dei primi tre.
Basato su dizionario
Il metodo basato su dizionario prevede l'addestramento dei modelli NER a fare riferimento a termini all'interno di dizionari, identificarli nel testo e classificarli in categorie predefinite. Puoi utilizzare dizionari noti o crearne uno con una raccolta di parole relative al tuo dominio specifico.
Ad esempio, nel settore del marketing digitale, un dizionario potrebbe includere acronimi di settore, come SEO (ottimizzazione per i motori di ricerca), CPC (costo per clic) e KPI (indicatori chiave di prestazione).
Basato su regole
Un approccio basato su regole richiede la creazione di un insieme di istruzioni per guidare il modello nell'identificazione delle entità basate su grammatica, struttura e altre caratteristiche delle parole. Ci sono due tipi di istruzioni basate su regole:
- Regole basate su pattern si riferiscono specificamente a forme e strutture delle parole. Ad esempio, una regola basata su pattern potrebbe affermare: "Una sequenza di parole con la maiuscola seguita da "Inc." si riferisce a un nome di azienda."
- Regole basate sul contesto forniscono istruzioni basate sui dati nel contesto. Un esempio di regola basata sul contesto è: "Se una parola precede un'abbreviazione di stato seguita da una virgola, è la capitale dello stato."
Basato su apprendimento automatico
Più complesso dei metodi basati su dizionario e regole, i metodi NER basati su apprendimento automatico utilizzano modelli statistici e algoritmi per identificare i nomi delle entità. Per utilizzare un modello basato su apprendimento automatico, un utente deve addestrare il sistema NER utilizzando documenti annotati e dati di addestramento etichettati. Sebbene un addestramento adeguato assicuri che il modello sia attrezzato per fornire i migliori risultati, questi modelli possono anche essere costosi e richiedere tempo per essere impostati inizialmente.
Ibrido
Infine, un approccio ibrido consente agli utenti del modello di combinare e abbinare i metodi di apprendimento sopra per sfruttare i loro punti di forza. Ad esempio, gli utenti potrebbero combinare un metodo basato su regole con l'apprendimento automatico per identificare entità complesse e specifiche adattate alle loro esigenze uniche.
Le sfide nel riconoscimento delle entità nominate
Sebbene le tecnologie NER siano rinomate per analizzare e etichettare rapidamente grandi quantità di dati non strutturati, le aziende dovrebbero essere consapevoli delle potenziali sfide.
Significati multipli e ambiguità
Gli omonimi pongono problemi di analisi per i modelli NER senza un addestramento e un contesto adeguati. Ad esempio, la parola "arancia" potrebbe riferirsi al colore o al frutto. Senza abbastanza informazioni contestuali, i modelli NER potrebbero avere difficoltà a identificare e classificare termini ambigui. Inoltre, parole con più varianti, come "barbecue", "barbeque" e "BBQ", possono aggiungere ulteriore complessità, portando a classificazioni errate o omissioni.
Mancanza di dati di addestramento
I modelli NER si basano fortemente su una quantità sostanziale di dati annotati per comprendere come riconoscere e categorizzare le entità. Raccogliere dati annotati può richiedere tempo e, in alcuni casi, essere complicato, poiché gli utenti potrebbero non avere abbastanza dati per addestrare il modello. Un addestramento improprio può portare a risultati di scarsa qualità.
Termini e frasi sconosciuti
I modelli NER lavorano su ciò che conoscono, il che significa che termini non comuni e parole sconosciute possono rappresentare sfide. Se un modello NER non riconosce una parola, potrebbe non riuscire a identificarla e classificarla nella categoria di entità corretta.
Casi d'uso per il riconoscimento delle entità nominate
Molte industrie e settori sfruttano i modelli di riconoscimento delle entità nominate per estrarre e utilizzare rapidamente i dati aziendali. Di seguito sono riportati alcuni dei casi d'uso quotidiani in varie applicazioni oggi.
Servizio clienti
Grazie alla tecnologia dei chatbot e all'accesso online degli utenti, il supporto clienti è ora disponibile 24 ore su 24. NER alimenta i chatbot identificando le entità all'interno delle sottomissioni degli utenti per determinare il contesto della loro domanda o commento. Con queste informazioni, il chatbot può indirizzare gli utenti a risorse pertinenti o connetterli con uno specialista di supporto dal vivo. Senza un NER efficace, le informazioni dei chatbot potrebbero essere meno pertinenti o utili per risolvere le loro sfide.
Finanza
I professionisti finanziari utilizzano i modelli NER per classificare le informazioni sui moduli finanziari, automatizzare i processi di valutazione e approvazione e ottenere informazioni dai dati dei clienti. Ad esempio, la documentazione per i prestiti immobiliari è estesa, spesso con centinaia di pagine di spiegazioni e dettagli. Sebbene i dettagli siano essenziali, un modello NER potrebbe estrarre rapidamente i dati più critici per fornire ai mutuatari una panoramica di una pagina dei punti salienti.
DataInFormation ha addestrato un modello NER su estratti di moduli di fusione della U.S. Securities and Exchange Commission (SEC). Il modello ha etichettato tipi di metodi, intervalli di sconto, fornitori, destinatari e tipi di tassi di sconto. Hanno notato che il modello ha raggiunto un'accuratezza del 92,4% nel suo riconoscimento delle entità.
Sanità
I record medici dei pazienti sono fondamentali per le pratiche sanitarie, ma leggere pagine di documenti per trovare ciò di cui hai bisogno può sembrare scoraggiante. NER consente ai professionisti sanitari di estrarre informazioni cruciali dai record senza perdere tempo. Questo è utile quando si ottiene una panoramica di alto livello della storia medica di un paziente, inclusi farmaci e diagnosi passate.
Uno studio decennale approfondito ha tracciato l'evoluzione del NER nei record sanitari elettronici (EHR), evidenziando un passaggio da modelli basati su regole a modelli di apprendimento profondo per aumentare l'efficacia.
Analisi dei curriculum
Esaminare i curriculum, specialmente senza l'aiuto di un sistema di tracciamento dei candidati (ATS), è uno dei compiti più dispendiosi in termini di tempo per i reclutatori e i responsabili delle assunzioni. Piuttosto che esaminare i curriculum uno per uno, i modelli NER possono estrarre entità specifiche, come requisiti educativi, competenze, certificazioni e risultati, per una revisione più rapida. Un modello riportato in uno studio ha proposto un sistema per riassumere il contenuto dei curriculum utilizzando NER e classificare i documenti per la revisione finale da parte di un reclutatore umano.
Istruzione
Per gli accademici, un modello NER adeguatamente addestrato potrebbe riassumere rapidamente volumi di materiale o libri di testo estesi per estrarre informazioni su argomenti specifici. Questo potrebbe aiutare a identificare temi o connessioni tra le risorse senza dover lavorare attraverso il materiale di lettura da soli. In definitiva, i modelli NER possono migliorare il processo di ricerca per consentire più tempo per altri compiti di pensiero critico, come scrivere e analizzare il materiale.
Individua l'entità
Il riconoscimento delle entità nominate è un compito di estrazione delle informazioni che identifica e categorizza i dati non strutturati in categorie predefinite (o entità nominate). Puoi addestrare un modello con dati di addestramento etichettati sufficienti per riconoscere le entità che vuoi estrarre dai tuoi dati. Ricorda che il modello NER sarà efficace solo quanto lo prepari a essere.
Leggi di più su come le reti neurali artificiali (ANN) imparano da noi.

Alyssa Towns
Alyssa Towns works in communications and change management and is a freelance writer for G2. She mainly writes SaaS, productivity, and career-adjacent content. In her spare time, Alyssa is either enjoying a new restaurant with her husband, playing with her Bengal cats Yeti and Yowie, adventuring outdoors, or reading a book from her TBR list.
