Erkennung benannter Entitäten: Grundkonzepte bis zu praktischen Anwendungen

Alyssa Towns

Alyssa Towns works in communications and change management and is a freelance writer for G2. She mainly writes SaaS, productivity, and career-adjacent content. In her spare time, Alyssa is either enjoying a new restaurant with her husband, playing with her Bengal cats Yeti and Yowie, adventuring outdoors, or reading a book from her TBR list.

Es besteht eine gute Chance, dass Sie Informationen im Gespräch so schnell verarbeiten, dass Ihr Gehirn sie automatisch kategorisiert, ohne dass Sie es bemerken.

Angenommen, Sie hören den Satz: „Ich habe kürzlich einen neuen rosa Blumentopf und eine Hoya-Pflanze aus The Plant Room, meiner Lieblingsgärtnerei in der Nähe, gekauft“, Ihr Gehirn verbindet mühelos:

Rosa = Farbe
Hoya-Pflanze = Gegenstand oder Pflanzentyp
The Plant Room = Name des Geschäfts

Modelle zur Erkennung benannter Entitäten funktionieren auf die gleiche Weise.

Was ist die Erkennung benannter Entitäten?

Die Erkennung benannter Entitäten (NER) identifiziert und kategorisiert unstrukturierte Daten in vordefinierte Kategorien (oder benannte Entitäten) wie Personen, Organisationen und Orte. Es ist eine Aufgabe der Informationsextraktion in der Verarbeitung natürlicher Sprache (NLP).

Künstliche neuronale Netze (ANNs) sind Modelle, die sich an neue Informationen anpassen und lernen, basierend darauf Entscheidungen zu treffen. Verschiedene Branchen, darunter Gesundheitswesen, Finanzdienstleistungen, Automobilindustrie und Technologie, nutzen ANN-Software, um Aufgaben wie prädiktive Analysen, Anomalieerkennung sowie Bild- und Spracherkennung zu erledigen.

Tiefe neuronale Netze (DNN), eine Untergruppe künstlicher neuronaler Netze, sind entscheidend für den Aufbau von Deep-Learning-Funktionen wie NER.

Erkennung benannter Entitäten: Schritt für Schritt

Die Erkennung benannter Entitäten nimmt unstrukturierten Text und ermöglicht es Maschinen, wertvolle Informationskategorien daraus zu extrahieren. Ihr Hauptziel ist es, benannte Entitäten aus den Datensätzen in vordefinierte Kategorien zu identifizieren und zu klassifizieren. Nachfolgend sind die hochrangigen Schritte aufgeführt, die während des NER-Prozesses ablaufen.

Bereiten Sie einen annotierten Datensatz vor

Um NER-Modelle zu trainieren, müssen Sie ihm zunächst einen Beispieldatensatz mit Sätzen zur Verfügung stellen, die die Entitäten enthalten, die Sie erkennen möchten. Das Modell muss lernen, diese Identitäten zu identifizieren, indem es gezeigt bekommt, worauf es achten soll.

Sie könnten ein Modell trainieren, um Folgendes zu erkennen:

Organisationsnamen
Namen von Personen
Orte
Daten (mit einem bestimmten Datumsformat)
Geldwerte
Berufsbezeichnungen

Dazu würden Sie einen Datensatz mit Sätzen vorbereiten, die die spezifischen Entitäten und die entsprechenden Labels für diese Entitäten enthalten. In unserer Demonstration unten konzentrieren wir uns darauf, das NER-Modell darauf zu trainieren, Namen von Personen, Organisationsnamen und Daten im YYYY-Format zu erkennen.

Dieser Trainingsprozess wird das Modell darauf vorbereiten, Entitäten in Zukunft erfolgreich zu erkennen.

Tokenisierung und Vorverarbeitung

Sobald das Modell trainiert ist, können wir unstrukturierten Text zur Vorverarbeitung bereitstellen. Bevor Entitäten in den Daten identifiziert werden, zerlegt es den Text in Token oder Segmente, die aus Wörtern, Phrasen oder sogar ganzen Sätzen bestehen. Diese Tokenisierung ermöglicht es der Maschine, Informationen zu trennen und sie für die Identifizierung und Analyse vorzubereiten.

Zum Beispiel würde der Satz „Godard Abel ist der CEO von G2, einem Unternehmen, das er 2012 mitbegründet hat“ in Token wie folgt zerlegt werden:

Godard
Abel
CEO
G2
Unternehmen
mitbegründet
2012

Entitätenidentifikation und -klassifikation

Die Maschine verwendet Regeln und statistische Methoden, um benannte Entitäten während der frühen Identifikation zu erkennen. Sie beobachtet den Text auf der Suche nach Mustern und spezifischen Textformaten. Mithilfe des Teils-der-Sprache-Taggings (POS) kann das Modell Wörter basierend auf ihrem Kontext und ihrer Definition analysieren. Dies hilft, Homonyme im Kontext korrekt zu analysieren.

„Date“ kann ein Substantiv oder ein Verb sein, und der Kontext des Wortes variiert je nach Kontext.

Was ist das heutige Datum (Substantiv)?
Möchtest du mit mir auf ein Date (Substantiv) gehen?
Das Unternehmen datiert (Verb) auf die frühen 90er Jahre zurück.

Das Modell kategorisiert diese Entitäten basierend auf Token, POS-Tagging und seinem trainierten Wissen über die Entitäten, die Sie erfassen möchten. Während der abschließenden Verfeinerungsphase könnte es Mehrdeutigkeiten auflösen, mehrteilige Entitäten zusammenführen und andere Datennuancen ansprechen, bevor es sie kennzeichnet.

In unserem Beispiel würde unser trainiertes Modell unseren Satz wie folgt kennzeichnen:

Godard Abel (Name der Person) ist der CEO von G2 (Organisationsname), einem Unternehmen, das er 2012 (Datum) mitbegründet hat.

Modelltraining und -test

Nach dem Training des Modells sollten Sie ihm weiterhin unstrukturierte Daten zuführen, um das Modell zu testen und zu aktualisieren, um sicherzustellen, dass es Ihren Anforderungen entspricht.

Methoden zur Erkennung benannter Entitäten

Die Art der NER-Methode, die Ihren Anforderungen entspricht, hängt von Ihrem Datensatz und den gewünschten Ergebnissen ab. Es gibt drei breite Kategorien von NER-Methoden, mit einer zusätzlichen vierten, die es Organisationen ermöglicht, Elemente der ersten drei zu kombinieren.

Wörterbuchbasiert

Die wörterbuchbasierte Methode beinhaltet das Training von NER-Modellen, um Begriffe innerhalb von Wörterbüchern zu referenzieren, sie im Text zu identifizieren und in vordefinierte Kategorien zu klassifizieren. Sie können bekannte Wörterbücher verwenden oder eines mit einer Sammlung von Wörtern erstellen, die sich auf Ihre spezifische Domäne beziehen.

Zum Beispiel könnte ein Wörterbuch in der digitalen Marketingbranche branchenweite Akronyme enthalten, wie SEO (Suchmaschinenoptimierung), CPC (Kosten pro Klick) und KPI (Key Performance Indicators).

Regelbasiert

Ein regelbasierter Ansatz erfordert die Erstellung eines Satzes von Anweisungen, um das Modell bei der Identifizierung von Entitäten basierend auf Grammatik, Struktur und anderen Wortmerkmalen zu leiten. Es gibt zwei Arten von regelbasierten Anweisungen:

Musterbasierte Regeln beziehen sich speziell auf Wortformen und -strukturen. Zum Beispiel könnte eine musterbasierte Regel besagen: „Eine Abfolge von großgeschriebenen Wörtern, gefolgt von „Inc.“, bezieht sich auf einen Firmennamen.“

Kontextbasierte Regeln geben Anweisungen basierend auf den Daten im Kontext. Ein Beispiel für eine kontextbasierte Regel ist: „Wenn ein Wort einer Staatsabkürzung folgt, gefolgt von einem Komma, ist es die Hauptstadt des Staates.“

Maschinelles Lernen-basiert

Komplexer als wörterbuch- und regelbasierte Methoden verwenden maschinelles Lernen-basierte NER-Methoden statistische Modellierung und Algorithmen, um Entitätsnamen zu identifizieren. Um ein maschinelles Lernen-basiertes Modell zu verwenden, muss ein Benutzer das NER-System mit annotierten Dokumenten und gekennzeichneten Trainingsdaten trainieren. Während ein ordnungsgemäßes Training sicherstellt, dass das Modell in der Lage ist, die besten Ergebnisse zu liefern, können diese Modelle auch teuer und zeitaufwändig in der Einrichtung sein.

Hybrid

Schließlich ermöglicht ein hybrider Ansatz den Modellbenutzern, die oben genannten Lernmethoden zu kombinieren, um ihre Stärken zu nutzen. Zum Beispiel könnten Benutzer eine regelbasierte Methode mit maschinellem Lernen kombinieren, um komplexe und spezifische Entitäten zu identifizieren, die auf ihre einzigartigen Bedürfnisse zugeschnitten sind.

Herausforderungen bei der Erkennung benannter Entitäten

Obwohl NER-Technologien dafür bekannt sind, große Mengen unstrukturierter Daten schnell zu analysieren und zu kennzeichnen, sollten sich Unternehmen der potenziellen Herausforderungen bewusst sein.

Mehrdeutigkeit und Mehrdeutigkeit

Homonyme stellen Analyseprobleme für NER-Modelle ohne ordnungsgemäßes Training und Kontext dar. Zum Beispiel könnte sich das Wort „orange“ auf die Farbe oder die Frucht beziehen. Ohne ausreichende kontextuelle Informationen könnten NER-Modelle Schwierigkeiten haben, mehrdeutige Begriffe zu identifizieren und zu klassifizieren. Darüber hinaus können Wörter mit mehreren Variationen, wie „Barbecue“, „Barbeque“ und „BBQ“, zusätzliche Komplexität hinzufügen, was zu Fehlklassifikationen oder Übersehen führen kann.

Mangel an Trainingsdaten

NER-Modelle sind stark auf eine beträchtliche Menge an annotierten Daten angewiesen, um zu verstehen, wie Entitäten erkannt und kategorisiert werden. Das Sammeln von annotierten Daten kann zeitaufwändig und in einigen Fällen kompliziert sein, da Benutzer möglicherweise nicht genügend Daten haben, um das Modell zu trainieren. Unzureichendes Training kann zu minderwertigen Ergebnissen führen.

Unbekannte Begriffe und Phrasen

NER-Modelle arbeiten mit dem, was sie wissen, was bedeutet, dass ungewöhnliche Begriffe und unbekannte Wörter Herausforderungen darstellen können. Wenn ein NER-Modell ein Wort nicht erkennt, kann es möglicherweise nicht identifizieren und in die richtige Entitätskategorie einordnen.

Anwendungsfälle für die Erkennung benannter Entitäten

Viele Branchen und Sektoren nutzen Modelle zur Erkennung benannter Entitäten, um Geschäftsdaten schnell zu extrahieren und zu nutzen. Nachfolgend sind einige der alltäglichen Anwendungsfälle in verschiedenen Anwendungen heute aufgeführt.

Kundendienst

Dank der Chatbot-Technologie und des Online-Zugangs für Benutzer ist der Kundensupport jetzt rund um die Uhr verfügbar. NER treibt Chatbots an, indem es Entitäten innerhalb von Benutzereingaben identifiziert, um den Kontext ihrer Frage oder ihres Kommentars zu bestimmen. Mit diesen Informationen kann der Chatbot Benutzer zu relevanten Ressourcen leiten oder sie mit einem Live-Support-Spezialisten verbinden. Ohne effektives NER könnten die Informationen der Chatbots weniger relevant oder hilfreich bei der Lösung ihrer Herausforderungen sein.

Finanzen

Finanzfachleute verwenden NER-Modelle, um Informationen auf Finanzformularen zu klassifizieren, Bewertungs- und Genehmigungsprozesse zu automatisieren und Einblicke aus Kundendaten zu gewinnen. Zum Beispiel ist die Papierarbeit für Hypothekendarlehen umfangreich, oft mit Hunderten von Seiten von Erklärungen und Details. Während die Details wichtig sind, könnte ein NER-Modell schnell die wichtigsten Daten extrahieren, um den Kreditnehmern einen einseitigen Überblick über die Highlights zu geben.

DataInFormation trainierte ein NER-Modell an Auszügen aus US-amerikanischen SEC-Fusionsformularen. Das Modell kennzeichnete Methodentypen, Diskontspannen, Anbieter, Empfänger und Diskontsatztypen. Sie stellten fest, dass das Modell eine Genauigkeit von 92,4 % bei der Erkennung von Entitäten erreichte.

Gesundheitswesen

Patientenakten sind für medizinische Praktiken von entscheidender Bedeutung, aber das Durchlesen von Dokumenten, um das zu finden, was Sie benötigen, kann entmutigend sein. NER ermöglicht es medizinischen Fachleuten, wichtige Informationen aus Aufzeichnungen zu extrahieren, ohne Zeit zu verlieren. Dies ist praktisch, wenn man einen Überblick über die Krankengeschichte eines Patienten, einschließlich früherer Medikamente und Diagnosen, erhalten möchte.

Eine eingehende zehnjährige Studie verfolgte die Entwicklung von NER in elektronischen Gesundheitsakten (EHRs) und hob einen Wandel von regelbasierten zu Deep-Learning-Modellen hervor, um die Effektivität zu steigern.

Lebenslauf-Parsing

Das Screening von Lebensläufen, insbesondere ohne die Hilfe eines Bewerber-Tracking-Systems (ATS), ist eine der zeitaufwändigsten Aufgaben für Personalvermittler und Einstellungsmanager. Anstatt Lebensläufe einzeln durchzugehen, können NER-Modelle spezifische Entitäten wie Bildungsanforderungen, Fähigkeiten, Zertifizierungen und Erfolge extrahieren, um eine schnellere Überprüfung zu ermöglichen. Ein in einer Studie berichtetes Modell schlug ein System zur Zusammenfassung von Lebenslaufinhalten mithilfe von NER vor und bewertete Dokumente für die endgültige Überprüfung durch einen menschlichen Personalvermittler.

Bildung

Für Akademiker könnte ein ordnungsgemäß trainiertes NER-Modell schnell große Mengen an Material oder umfangreiche Lehrbücher zusammenfassen, um Informationen zu bestimmten Themen zu extrahieren. Dies könnte helfen, Themen oder Verbindungen über Ressourcen hinweg zu identifizieren, ohne das Lesematerial selbst durcharbeiten zu müssen. Letztendlich können NER-Modelle den Forschungsprozess verbessern, um mehr Zeit für andere kritische Denkaufgaben wie das Schreiben und Analysieren des Materials zu ermöglichen.

Erkennen Sie die Entität

Die Erkennung benannter Entitäten ist eine Informationsextraktionsaufgabe, die unstrukturierte Daten in vordefinierte Kategorien (oder benannte Entitäten) identifiziert und kategorisiert. Sie können ein Modell mit ausreichend gekennzeichneten Trainingsdaten trainieren, um die Entitäten zu erkennen, die Sie aus Ihren Daten extrahieren möchten. Denken Sie daran, dass das NER-Modell nur so effektiv sein wird, wie Sie es vorbereiten.

Lesen Sie mehr darüber, wie künstliche neuronale Netze (ANN) von uns lernen.

Weitere G2-Artikel erkunden

Beste SEO-Plattform zur Steigerung von E-Commerce-Websites

Top-Chatbot-Unternehmen

Welches Immobilienverwaltungssystem bietet das fortschrittlichste Mieterportal?

Welche Anwendungsüberwachungssoftware wird von Tech-Startups am besten bewertet?