Introducing G2.ai, the future of software buying.Try now

Reconnaissance d'entités nommées : des concepts de base aux utilisations pratiques

10 Septembre 2024
par Alyssa Towns

Il y a de fortes chances que vous traitiez l'information si rapidement lors d'une conversation que votre cerveau la catégorise naturellement sans que vous en soyez conscient.

Supposons que vous entendiez la phrase : « J'ai récemment acheté un nouveau pot de plante rose et une plante Hoya chez The Plant Room, ma pépinière préférée à proximité », votre cerveau connecte sans effort :

  • Rose = couleur
  • Plante Hoya = article ou type de plante
  • The Plant Room = nom du magasin

Les modèles de reconnaissance d'entités nommées fonctionnent de la même manière.

Les réseaux de neurones artificiels (ANN) sont des modèles qui s'adaptent à de nouvelles informations et apprennent à prendre des décisions en fonction de celles-ci. Divers secteurs, y compris la santé, les services financiers, l'automobile et la technologie, utilisent des logiciels ANN pour accomplir des tâches telles que l'analyse prédictive, la détection d'anomalies et la reconnaissance d'images et de voix.

Les réseaux de neurones profonds (DNN), un sous-ensemble des réseaux de neurones artificiels, sont essentiels pour construire des fonctions d'apprentissage profond comme la NER.

Reconnaissance d'entités nommées : étape par étape

La reconnaissance d'entités nommées prend du texte non structuré et permet aux machines d'extraire des catégories d'informations précieuses. Son objectif principal est d'identifier et de classer les entités nommées des ensembles de données en catégories prédéfinies. Voici les étapes de haut niveau qui se produisent lors du processus de NER.

Préparer un ensemble de données annoté

Pour entraîner les modèles NER, vous devez d'abord leur fournir un ensemble de données d'exemples contenant des phrases incluant les entités que vous souhaitez reconnaître. Le modèle doit apprendre à identifier ces identités en lui montrant ce qu'il doit rechercher.

Vous pourriez entraîner un modèle à reconnaître :

  • Noms d'organisations
  • Noms de personnes
  • Lieux
  • Dates (avec un format de date spécifié)
  • Valeurs monétaires
  • Titres de poste

Pour ce faire, vous prépareriez un ensemble de données avec des phrases incluant les entités spécifiques et les étiquettes appropriées pour ces entités. Dans notre démonstration ci-dessous, nous nous concentrerons sur l'entraînement du modèle NER à reconnaître les noms de personnes, les noms d'organisations et les dates au format AAAA.

Ce processus d'entraînement préparera le modèle à reconnaître les entités à l'avenir avec succès.

Tokenisation et prétraitement

Une fois entraîné, nous pouvons fournir du texte non structuré pour le prétraitement. Avant d'identifier les entités dans les données, il décompose le texte en tokens ou segments constitués de mots, de phrases ou même de phrases entières. Cette tokenisation permet à la machine de séparer les informations, les préparant pour l'identification et l'analyse.

Par exemple, la phrase : « Godard Abel est le PDG de G2, une entreprise qu'il a cofondée en 2012 », serait décomposée en tokens tels que :

  • Godard
  • Abel
  • PDG
  • G2
  • entreprise
  • cofondée
  • 2022

Identification et classification des entités

La machine utilise des règles et des méthodes statistiques pour détecter les entités nommées lors de l'identification précoce. Elle observe le texte à la recherche de motifs et de formats textuels spécifiques. En utilisant le marquage des parties du discours (POS), le modèle peut analyser les mots en fonction de leur contexte et de leur définition. Cela aide à analyser correctement les homonymes dans le contexte.

« Date » peut être un nom ou un verbe, et le contexte du mot varie selon le contexte.

  • Quelle est la date d'aujourd'hui (nom) ?
  • Veux-tu sortir avec moi (nom) ?
  • L'entreprise date (verbe) des années 90.

Le modèle catégorise ces entités en fonction des tokens, du marquage POS et de sa connaissance entraînée des entités que vous souhaitez capturer. Lors de la phase de raffinement final, il pourrait résoudre les ambiguïtés, fusionner les entités multi-tokens et traiter d'autres nuances de données avant de les étiqueter.

Dans notre exemple, notre modèle entraîné étiquetterait notre phrase comme suit :

Godard Abel (nom de personne) est le PDG de G2 (nom d'organisation), une entreprise qu'il a cofondée en 2012 (date).

Entraînement et test du modèle

Après avoir entraîné le modèle, continuez à lui fournir des données non structurées pour tester et mettre à jour le modèle afin de vous assurer qu'il répond à vos besoins.

Vous voulez en savoir plus sur Logiciel de réseau de neurones artificiels ? Découvrez les produits Réseau de neurones artificiels.

Méthodes de reconnaissance d'entités nommées

Le type de méthode NER qui conviendra à vos besoins dépend de votre ensemble de données et des résultats souhaités. Il existe trois grandes catégories de méthodes NER, avec une quatrième supplémentaire permettant aux organisations de combiner des éléments des trois premières.

Basé sur un dictionnaire

La méthode basée sur un dictionnaire consiste à entraîner les modèles NER à référencer des termes dans des dictionnaires, à les identifier dans le texte et à les classer dans des catégories prédéterminées. Vous pouvez utiliser des dictionnaires bien connus ou en créer un avec une collection de mots liés à votre domaine spécifique.

Par exemple, dans l'industrie du marketing numérique, un dictionnaire pourrait inclure des acronymes de l'industrie, tels que SEO (optimisation pour les moteurs de recherche), CPC (coût par clic) et KPI (indicateurs clés de performance).

Basé sur des règles

Une approche basée sur des règles nécessite de créer un ensemble d'instructions pour guider le modèle dans l'identification des entités en fonction de la grammaire, de la structure et d'autres caractéristiques des mots. Il existe deux types d'instructions basées sur des règles :

  • Basées sur des motifs les règles se rapportent spécifiquement aux formes et structures des mots. Par exemple, une règle basée sur des motifs pourrait indiquer : « Une séquence de mots en majuscules suivie de "Inc." se réfère à un nom d'entreprise. »
  • Basées sur le contexte les règles fournissent des instructions basées sur les données dans le contexte. Un exemple de règle basée sur le contexte est : « Si un mot précède une abréviation d'état suivie d'une virgule, c'est la capitale de l'état. »

Basé sur l'apprentissage automatique

Plus complexes que les méthodes basées sur des dictionnaires et des règles, les méthodes NER basées sur l'apprentissage automatique utilisent la modélisation statistique et des algorithmes pour identifier les noms d'entités. Pour utiliser un modèle basé sur l'apprentissage automatique, un utilisateur doit entraîner le système NER en utilisant des documents annotés et des données d'entraînement étiquetées. Bien qu'un entraînement approprié garantisse que le modèle est équipé pour fournir les meilleurs résultats, ces modèles peuvent également être coûteux et longs à mettre en place initialement.

Hybride

Enfin, une approche hybride permet aux utilisateurs de modèles de combiner les méthodes d'apprentissage ci-dessus pour tirer parti de leurs forces. Par exemple, les utilisateurs pourraient combiner une méthode basée sur des règles avec l'apprentissage automatique pour identifier des entités complexes et spécifiques adaptées à leurs besoins uniques.

Défis de la reconnaissance d'entités nommées

Bien que les technologies NER soient réputées pour analyser et étiqueter rapidement de vastes quantités de données non structurées, les entreprises doivent être conscientes des défis potentiels.

Multiples significations et ambiguïté

Les homonymes posent des problèmes d'analyse pour les modèles NER sans entraînement et contexte appropriés. Par exemple, le mot « orange » pourrait se référer à la couleur ou au fruit. Sans suffisamment d'informations contextuelles, les modèles NER peuvent avoir du mal à identifier et à classer les termes ambigus. De plus, les mots avec plusieurs variations, tels que « barbecue », « barbeque » et « BBQ », peuvent ajouter une complexité supplémentaire, entraînant une mauvaise classification ou une omission.

Manque de données d'entraînement

Les modèles NER dépendent fortement d'une quantité substantielle de données annotées pour comprendre comment reconnaître et catégoriser les entités. Rassembler des données annotées peut être long et, dans certains cas, compliqué, car les utilisateurs pourraient ne pas avoir suffisamment de données pour entraîner le modèle. Un entraînement incorrect peut entraîner des résultats de mauvaise qualité.

Termes et phrases inconnus

Les modèles NER fonctionnent à partir de ce qu'ils connaissent, ce qui signifie que les termes peu communs et les mots inconnus peuvent poser des défis. Si un modèle NER ne reconnaît pas un mot, il peut ne pas réussir à l'identifier et à le classer dans la catégorie d'entité appropriée.

Cas d'utilisation de la reconnaissance d'entités nommées

De nombreuses industries et secteurs utilisent des modèles de reconnaissance d'entités nommées pour extraire et utiliser rapidement des données commerciales. Voici quelques-uns des cas d'utilisation courants dans diverses applications aujourd'hui.

Service client

Grâce à la technologie des chatbots et à l'accès en ligne des utilisateurs, le support client est désormais disponible 24 heures sur 24. La NER alimente les chatbots en identifiant les entités dans les soumissions des utilisateurs pour déterminer le contexte de leur question ou commentaire. Avec ces informations, le chatbot peut diriger les utilisateurs vers des ressources pertinentes ou les connecter à un spécialiste du support en direct. Sans une NER efficace, les informations des chatbots peuvent être moins pertinentes ou utiles pour résoudre leurs défis.

Finance

Les professionnels de la finance utilisent des modèles NER pour classer les informations sur les formulaires financiers, automatiser les processus d'évaluation et d'approbation, et obtenir des informations à partir des données des clients. Par exemple, les documents de prêt immobilier sont souvent volumineux, avec des centaines de pages d'explications et de détails. Bien que les détails soient essentiels, un modèle NER pourrait rapidement extraire les données les plus critiques pour donner aux emprunteurs un aperçu d'une page des points forts.

DataInFormation a entraîné un modèle NER sur des extraits de formulaires de fusion de la Securities and Exchange Commission (SEC) des États-Unis. Le modèle a étiqueté les types de méthodes, les plages de remise, les fournisseurs, les destinataires et les types de taux de remise. Ils ont noté que le modèle a atteint une précision de 92,4 % dans sa reconnaissance d'entités.

Santé

Les dossiers médicaux des patients sont essentiels pour les pratiques de santé, mais lire des pages de documents pour trouver ce dont vous avez besoin peut sembler décourageant. La NER permet aux professionnels de la santé d'extraire des informations cruciales des dossiers sans perdre de temps. Cela est utile pour obtenir un aperçu général de l'historique médical d'un patient, y compris les médicaments et diagnostics passés.

Une étude approfondie sur une décennie a suivi l'évolution de la NER dans les dossiers de santé électroniques (EHR), mettant en évidence un passage des modèles basés sur des règles aux modèles d'apprentissage profond pour améliorer l'efficacité.

Analyse de CV

Le tri des CV, surtout sans l'aide d'un système de suivi des candidats (ATS), est l'une des tâches les plus chronophages pour les recruteurs et les responsables du recrutement. Plutôt que de passer en revue les CV un par un, les modèles NER peuvent extraire des entités spécifiques, telles que les exigences éducatives, les compétences, les certifications et les réalisations, pour un examen plus rapide. Un modèle rapporté dans une étude a proposé un système pour résumer le contenu des CV en utilisant la NER et classer les documents pour un examen final par un recruteur humain.

Éducation

Pour les universitaires, un modèle NER correctement entraîné pourrait rapidement résumer des volumes de matériel ou des manuels étendus pour extraire des informations sur des sujets spécifiques. Cela pourrait aider à identifier des thèmes ou des connexions à travers les ressources sans avoir à travailler soi-même à travers le matériel de lecture. En fin de compte, les modèles NER peuvent améliorer le processus de recherche pour permettre plus de temps pour d'autres tâches de réflexion critique, telles que l'écriture et l'analyse du matériel.

Repérer l'entité

La reconnaissance d'entités nommées est une tâche d'extraction d'information qui identifie et catégorise les données non structurées en catégories prédéfinies (ou entités nommées). Vous pouvez entraîner un modèle avec suffisamment de données d'entraînement étiquetées pour reconnaître les entités que vous souhaitez extraire de vos données. N'oubliez pas que le modèle NER ne sera efficace que dans la mesure où vous le préparez à l'être.

Lisez-en plus sur la façon dont les réseaux de neurones artificiels (ANN) apprennent de nous.

Alyssa Towns
AT

Alyssa Towns

Alyssa Towns works in communications and change management and is a freelance writer for G2. She mainly writes SaaS, productivity, and career-adjacent content. In her spare time, Alyssa is either enjoying a new restaurant with her husband, playing with her Bengal cats Yeti and Yowie, adventuring outdoors, or reading a book from her TBR list.