Verstärkungslernen dreht sich darum, den Lernprozess zu spielerisch zu gestalten. Die hier verwendeten maschinellen Lernwerkzeuge nutzen eine Belohnungs-Bestrafungs-Methode, um ein KI-System zu lehren. Wenn es den richtigen Zug macht, wird es belohnt. Wenn es einen Fehler macht, erhält es eine Strafe. Mit anderen Worten, das Verstärkungslernen zwingt ein System dazu, schnell zu lernen und sich anzupassen, andernfalls verliert es ernsthafte numerische Belohnungen. Es ist eine feedbackbasierte Methode des maschinellen Lernens, bei der der KI-Agent lernt, sich in einer Umgebung richtig zu verhalten, indem er Aktionen ausführt und die Ergebnisse dieser Aktionen beobachtet. Kurz gesagt, der Agent lernt aus Erfahrung ohne jegliche Vorprogrammierung und benötigt keine menschliche Aufsicht. Was ist Verstärkungslernen? Verstärkungslernen (RL) ist eine maschinelle Lerntechnik, die sich darauf konzentriert, wie KI-Agenten in einer Umgebung handeln sollten, um die besten Ergebnisse zu erzielen. Dieses Training erfolgt in Echtzeit mit kontinuierlichem Feedback, um die Möglichkeit einer Belohnung zu maximieren. Es ist eine der drei grundlegenden Arten des maschinellen Lernens. Die anderen beiden sind überwachtes und unüberwachtes Lernen. Verstärkungslernen ermöglicht es einer Maschine, aus ihren Fehlern zu lernen, ähnlich wie Menschen es tun. Es ist eine Art des maschinellen Lernens, bei dem die Maschine lernt, ein Problem durch Versuch und Irrtum zu lösen. Außerdem lernt die Maschine aus ihren Handlungen, im Gegensatz zum überwachten Lernen, bei dem historische Daten eine entscheidende Rolle spielen. Das KI-System, das den Lernprozess durchläuft, wird als Agent oder Lerner bezeichnet. Das Lernsystem erkundet und beobachtet die Umgebung um sich herum, genau wie wir. Wenn der Agent die richtige Aktion ausführt, erhält er positives Feedback oder eine positive Belohnung. Wenn er eine ungünstige Aktion ausführt, erhält er negatives Feedback oder eine negative Belohnung. Bemerkenswerte Merkmale des Verstärkungslernens (RL) sind: - Zeit spielt eine entscheidende Rolle bei RL-Problemen. - Die Entscheidungsfindung des Agenten ist sequentiell. - Es gibt keinen Supervisor, und der Agent erhält keine Anweisungen. Es gibt nur Belohnungen. - Die Handlungen des Agenten beeinflussen direkt die nachfolgenden Daten, die er erhält. - Der Agent wird für jede Aktion belohnt (positiv oder negativ). - Die beste Lösung für ein Problem wird basierend auf der maximalen Belohnung entschieden. Das Ziel des Verstärkungslernens ist es, die beste bekannte Aktion für einen gegebenen Zustand zu wählen. Das bedeutet auch, dass die Aktionen relativ zueinander bewertet und eingestuft werden müssen. Da die beste Aktion vom aktuellen Zustand des Agenten abhängt, liegt der Fokus mehr auf den Werten der Zustand-Aktions-Paare. Allerdings ist Verstärkungslernen nicht immer die Antwort auf alle Situationen. Wenn Sie beispielsweise genügend Daten haben, um ein Problem zu lösen, ist überwachtes Lernen ideal. Außerdem ist Verstärkungslernen ein zeitaufwändiger Prozess und erfordert viele Rechenressourcen. Verwandt: Lernen Sie über Verstärkungslernen aus menschlichem Feedback (RLHF) und wie es hilft, große Sprachmodelle (LLMs) zu trainieren. Elemente des Verstärkungslernens Abgesehen vom Agenten und der Umgebung gibt es vier kritische Elemente im Verstärkungslernen: Politik, Belohnungssignal, Wertfunktion und Modell. 1. Politik Die Politik ist die Strategie, die der Agent verwendet, um die nächste Aktion basierend auf dem aktuellen Zustand zu bestimmen. Sie ist eines der kritischen Elemente des Verstärkungslernens und kann das Verhalten des Agenten allein definieren. Eine Politik ordnet die wahrgenommenen Zustände der Umgebung den auf diesen bestimmten Zuständen ausgeführten Aktionen zu. Sie kann deterministisch oder stochastisch sein und kann auch eine einfache Funktion oder eine Nachschlagetabelle sein. 2. Belohnungssignal In jedem Zustand erhält der Agent ein sofortiges Signal von der Umgebung, das als Belohnungssignal oder einfach Belohnung bezeichnet wird. Wie bereits erwähnt, können Belohnungen positiv oder negativ sein, abhängig von den Aktionen des Agenten. Das Belohnungssignal kann den Agenten auch zwingen, die Politik zu ändern. Wenn die Aktionen des Agenten zu negativen Belohnungen führen, wird der Agent gezwungen, die Politik im Interesse seiner Gesamtbelohnung zu ändern. 3. Wertfunktion Die Wertfunktion gibt Auskunft darüber, wie vorteilhaft bestimmte Aktionen sind und wie viel Belohnung der Agent erwarten kann. Einfach ausgedrückt, bestimmt die Wertfunktion, wie gut ein Zustand für den Agenten ist. Die Wertfunktion hängt von der Politik des Agenten und der Belohnung ab, und ihr Ziel ist es, Werte zu schätzen, um mehr Belohnungen zu erzielen. 4. Modell Das Modell ahmt das Verhalten der Umgebung nach. Mit einem Modell können Sie Rückschlüsse auf die Umgebung und ihr Verhalten ziehen. Wenn beispielsweise ein Zustand und eine Aktion vorgegeben sind, können Sie mit einem Modell den nächsten Zustand und die Belohnung vorhersagen. Da das Modell es Ihnen ermöglicht, alle zukünftigen Situationen zu berücksichtigen, bevor Sie sie erleben, können Sie es für die Planung verwenden. Der Ansatz zur Lösung von Verstärkungslernproblemen mit Hilfe des Modells wird als modellbasiertes Verstärkungslernen bezeichnet. Wenn Sie versuchen, RL-Probleme ohne ein Modell zu lösen, wird es als modellfreies Verstärkungslernen bezeichnet. Während das modellbasierte Lernen versucht, die optimale Politik basierend auf dem erlernten Modell zu wählen, verlangt das modellfreie Lernen, dass der Agent aus Erfahrung durch Versuch und Irrtum lernt. Statistisch gesehen sind modellfreie Methoden weniger effizient als modellbasierte Methoden. Arten des Verstärkungslernens Es gibt zwei Arten von Verstärkungslernmethoden: positive Verstärkung und negative Verstärkung. Positive Verstärkung Positive Verstärkung ist der Prozess, etwas zu ermutigen oder hinzuzufügen, wenn ein erwartetes Verhaltensmuster gezeigt wird, um die Wahrscheinlichkeit zu erhöhen, dass dasselbe Verhalten wiederholt wird. Zum Beispiel, wenn ein Kind einen Test mit beeindruckenden Noten besteht, kann es positiv mit einem Eisbecher verstärkt werden. Negative Verstärkung Negative Verstärkung beinhaltet die Erhöhung der Wahrscheinlichkeit, dass ein bestimmtes Verhalten erneut auftritt, indem die negative Bedingung entfernt wird. Zum Beispiel, wenn ein Kind einen Test nicht besteht, kann es negativ verstärkt werden, indem ihm seine Videospiele weggenommen werden. Dies ist nicht genau eine Bestrafung des Kindes für das Versagen, sondern das Entfernen einer negativen Bedingung (in diesem Fall Videospiele), die das Kind möglicherweise dazu gebracht hat, den Test nicht zu bestehen. Wie funktioniert Verstärkungslernen? Einfach ausgedrückt, ist Verstärkungslernen die Suche eines Agenten, die Belohnung, die er erhält, zu maximieren. Es gibt keinen Menschen, der den Lernprozess überwacht, und der Agent trifft sequentielle Entscheidungen. Im Gegensatz zum überwachten Lernen erfordert Verstärkungslernen nicht, dass Sie Daten kennzeichnen oder suboptimale Aktionen korrigieren. Stattdessen besteht das Ziel darin, ein Gleichgewicht zwischen Erkundung und Ausbeutung zu finden. Erkundung ist, wenn der Agent lernt, indem er seine Komfortzone verlässt, und dabei könnte seine Belohnung auf dem Spiel stehen. Erkundung ist oft herausfordernd und ist wie das Betreten unbekannten Territoriums. Denken Sie daran, es ist wie ein Restaurant auszuprobieren, in dem Sie noch nie waren. Im besten Fall könnten Sie ein neues Lieblingsrestaurant entdecken und Ihren Geschmackssinn verwöhnen. Im schlimmsten Fall könnten Sie krank werden, weil das Essen nicht richtig gekocht wurde. Ausbeutung ist, wenn der Agent in seiner Komfortzone bleibt und das derzeit verfügbare Wissen ausnutzt. Es ist risikofrei, da es keine Chance gibt, eine Strafe zu erhalten, und der Agent wiederholt immer wieder dasselbe. Es ist, als würde man jeden Tag sein Lieblingsrestaurant besuchen und nicht offen für neue Erfahrungen sein. Natürlich ist es eine sichere Wahl, aber es könnte ein besseres Restaurant da draußen geben. Verstärkungslernen ist ein Kompromiss zwischen Erkundung und Ausbeutung. RL-Algorithmen können so gestaltet werden, dass sie in unterschiedlichem Maße sowohl erkunden als auch ausbeuten. Verstärkungslernen ist ein iterativer Prozess. Der Agent beginnt ohne Hinweis auf die Belohnungen, die er von bestimmten Zustand-Aktions-Paaren erwarten kann. Er lernt, während er diese Zustände mehrmals durchläuft und wird schließlich geschickt. Kurz gesagt, der Agent beginnt als Anfänger und wird langsam zum Profi. Beispiel für Verstärkungslernen Da Verstärkungslernen die Art und Weise ist, wie die meisten Organismen lernen, schauen wir uns an, wie ein Hund neue Tricks lernt, und vergleichen dies mit dieser Art des maschinellen Lernens. Charlie ist ein Golden Retriever. Wie andere Hunde versteht er kein Englisch oder irgendeine menschliche Sprache an sich, obwohl er Intonation und menschliche Körpersprache mit hervorragender Genauigkeit verstehen kann. Das bedeutet, dass wir Charlie nicht direkt anweisen können, was zu tun ist, aber wir können Leckerlis verwenden, um ihn zu etwas zu verleiten. Es könnte etwas so Einfaches sein wie auf Befehl zu sitzen oder sich zu rollen oder die Hand zu schütteln. Für dieses Beispiel betrachten wir den "Akt des Händeschüttelns". Wie Sie wahrscheinlich wissen, sind die Regeln ziemlich einfach. Wenn Charlie die Hand schüttelt oder etwas Ähnliches tut, bekommt er ein Leckerli. Wenn er nicht gehorcht oder sich schlecht benimmt, bekommt er keine Leckerlis. Mit anderen Worten, wenn Charlie die gewünschte Aktion ausführt, bekommt er ein Leckerli; andernfalls keines. Nach einigen "Leckerli oder kein Leckerli"-Iterationen wird Charlie die richtige Reihe von Aktionen erkennen, die er ausführen muss, um ein Leckerli zu bekommen. Wenn er sich schlecht benahm, erkannte er, dass solche ungünstigen Aktionen zu ungünstigen Konsequenzen führten. In Zukunft, wenn Charlie auf ähnliche Situationen stößt, wird er wissen, welche die wünschenswerteste Aktion ist, um das Leckerli oder die Belohnung zu maximieren. "RL bedeutet, dass KI jetzt auf sequentielle Entscheidungsprobleme angewendet werden kann, um strategische Ziele zu erreichen, im Gegensatz zu einmaligen Wahrnehmungsaufgaben wie der Bilderkennung." Chris Nicholson Gründer und CEO von Pathmind Die Anwendung des Konzepts des Verstärkungslernens auf dieses Beispiel macht Charlie zum Agenten. Das Haus, in dem er lebt, wird zu seiner Umgebung, und das Leckerli, das er erhält, ist seine Belohnung. Sitzen ist ein Zustand, ebenso wie Händeschütteln. Der Übergang vom Sitzen zum Händeschütteln kann als Aktion betrachtet werden. Ihre Körpersprache und Intonation lösen die Aktion (oder in diesem Kontext die Reaktion) aus. Die Methode, eine Aktion basierend auf dem Zustand auszuwählen, die Ihnen hilft, das beste Ergebnis zu erzielen, wird als Politik bezeichnet. Immer wenn Charlie die gewünschte Aktion ausführt und von einem Zustand (Sitzen) in einen anderen (Händeschütteln) übergeht, erhält er ein Leckerli. Da Charlie ein guter Junge ist, bestrafen wir ihn nicht, wenn er sich schlecht benimmt. Anstelle einer Strafe oder Bestrafung erhält er keine Belohnung, wenn er die gewünschte Aktion nicht ausführt, was etwas näher an einer Strafe liegt. Dies ist dem Lernen eines Agenten im Verstärkungslernen sehr ähnlich. Verstärkungslernen im Gaming Spiele und Verstärkungslernen teilen eine lange Geschichte. Spiele sind die optimalen und herausfordernden Domänen, um Verstärkungslernalgorithmen zu testen. Wir haben alle irgendwann in unserem Leben Computer- oder Videospiele gespielt. Es könnte eines der 8-Bit-Atari-Spiele gewesen sein, ein Konsolenspiel wie Halo oder ein Brettspiel wie Schach. Unabhängig vom Spiel, das Sie gespielt haben, hat es möglicherweise einige Versuche gebraucht, um die Regeln zu verstehen, bevor Sie schließlich ein Spiel gewinnen. Kurz gesagt, es braucht Zeit, Strategie und Übung, um ein Profi zu werden. Und natürlich gibt es Motivation in Form von In-Game-Punkten oder Belohnungen. Sie erhalten eine positive Belohnung, wenn Sie eine Mission abschließen. Sie erhalten negative Punkte, wenn Sie von einer Klippe fallen oder verhaftet werden, weil Ihr gesuchter Level höher ist, als er sein sollte. Unabhängig von der Komplexität des Spiels bleiben die oben genannten Konzepte universell. Wenn Ihr In-Game-Verhalten den Anweisungen des Spiels entspricht, erhalten Sie Punkte und gewinnen. Andernfalls verlieren Sie Punkte und scheitern. Die gleichen Regeln gelten für das Verstärkungslernen. Schauen wir uns an, wie Sie einer Maschine beibringen können, Spiele zu spielen. Das menschliche Gehirn kann den Zweck eines Spiels von Natur aus erkennen, aber für Maschinen ist es schwierig. Sie könnten überwachtes Lernen anwenden, um Maschinen zu lehren, aber dies erfordert Trainingsdaten von früheren menschlichen Spielern. Da unser Fähigkeitsniveau schließlich ein Plateau erreicht, bedeutet dies, dass der RL-Agent niemals "besser" als ein Mensch werden könnte. Im Verstärkungslernen gibt es keinen Trainingsdatensatz oder Ausgabewert. Der Agent kann natürlich konkurrieren, scheitern und aus seinen Fehlern basierend auf Belohnungswerten und Strafwerten lernen. Nehmen wir das Spiel Pong als Beispiel. Der Zweck von Pong ist es, den Ball mit Ihrem Schläger zu schlagen, damit er hinter dem Gegner landet. Anfangs wird der Agent dies nicht verstehen und viele Male scheitern. Aber irgendwann wird er einen richtigen Zug machen und positiv verstärkt werden, um die Aktion zu wiederholen. Nach mehreren Pong-Spielen sollte der Verstärkungslernagent ein allgemeines Verständnis der Wahrscheinlichkeit haben, erfolgreich nach OBEN zu gehen, im Vergleich zur Wahrscheinlichkeit, nach UNTEN zu gehen. Diese Aktionen werden verstärkt, bis die Gesamtbelohnung maximiert ist. In Bezug auf Pong bedeutet dies, das Spiel zu gewinnen, ohne dass Ihr Gegner einen einzigen Punkt erzielt. Verstärkungslernen und AlphaGo AlphaGo ist der Goldstandard für fortgeschrittenes Verstärkungslernen im Gaming. Entwickelt von DeepMind, wurde dieses Deep-Learning-Computerprogramm der beste Go-Spieler der Welt, indem es Ke Jie, einen der besten Go-Spieler der Welt, besiegte. Hier ist ein kurzer Blick darauf, wie AlphaGo Weltmeister wurde: - AlphaGo, wie jeder Lernagent, begann mit null Wissen über das Spiel. - Es wurde dann mit der grundlegenden Struktur und Strategie des Spiels gefüttert, indem Tausende von Beispielen von Amateur- und Profispielern verwendet wurden. - Es erreichte in drei Tagen ein hohes Fähigkeitsniveau, und die Tester begannen, das Programm gegen sich selbst spielen zu lassen. - Dies führte zu ständiger Iteration, Verstärkung und Paarung mit Suchalgorithmen. - AlphaGo wurde bald zu einer anderen, fortgeschritteneren Version von sich selbst – Fan, Lee, Master und schließlich Zero. - AlphaGo Master trat gegen den besten menschlichen Spieler an, den 18-fachen Weltmeister Ke Jie. In nur 40 Tagen Selbsttraining übertraf AlphaGo Zero AlphaGo Master und erreichte eine Elo-Bewertung von über 5.000, was im Wesentlichen übermenschliche Levels sind. Markov-Entscheidungsprozess: Darstellung von RL mathematisch Der Markov-Entscheidungsprozess (MDP) ist die Art und Weise, wie Verstärkungslernprobleme mathematisch dargestellt werden. Er wird verwendet, um RL-Probleme zu formalisieren, und wenn die Umgebung vollständig beobachtbar ist, kann sie mit MDP modelliert werden. Im MDP werden die folgenden Parameter verwendet, um eine Lösung für ein Verstärkungslernproblem zu finden: - Menge der möglichen Zustände - S - Menge der Modelle - Menge der möglichen Aktionen- A - Belohnung - R - Politik - Wert - V Der Zustand des Agenten kann mit dem Markov-Zustand dargestellt werden. Der Markov-Zustand folgt der Markov-Eigenschaft, was bedeutet, dass der zukünftige Zustand unabhängig von der Vergangenheit ist und nur mit der Gegenwart definiert werden kann. Angenommen, der RL-Agent befindet sich in einer Labyrinthumgebung, die aus vier Reihen und vier Spalten besteht, was insgesamt 16 Blöcke ergibt. Wenn sich der Agent auf einem bestimmten Block befindet und seine angrenzenden zwei Blöcke denselben zugewiesenen Wert haben (nicht zu verwechseln mit Belohnung), wird es für den Agenten schwierig sein, zwischen ihnen zu wählen. In solchen Situationen wird die Bellman-Gleichung verwendet. Sie ist ein kritischer Bestandteil des Verstärkungslernens und hilft bei der Lösung von MDP. Lösen bedeutet, die optimale Politik und Wertfunktionen zu finden. Schlüsselelemente der Bellman-Gleichung sind: - Aktion - Zustand - Belohnung - Diskontfaktor Die Bellman-Gleichung ist auch mit dynamischer Programmierung verbunden. Sie wird verwendet, um die Werte eines Entscheidungsproblems zu einem bestimmten Zeitpunkt zu berechnen, wobei die Werte der vorherigen Zustände berücksichtigt werden. Mit der Gleichung können Sie komplexe Probleme in einfachere und rekursive Teilprobleme zerlegen und optimale Lösungen finden. Ansätze zur Implementierung von Verstärkungslernen Es gibt im Allgemeinen drei Möglichkeiten, einen Verstärkungslernalgorithmus zu implementieren: wertbasiert, politikbasiert oder modellbasiert. Diese Ansätze bestimmen, wie der Agent handeln und mit der Umgebung interagieren wird. Wertbasiertes Verstärkungslernen Dieser Ansatz dreht sich darum, die optimale Wertfunktion zu finden, die im Wesentlichen den maximalen Wert in einem Zustand unter jeder Politik darstellt. Politikbasiertes Verstärkungslernen In diesem Ansatz versucht der Agent, eine Politik zu entwickeln, sodass die in jedem Zustand ausgeführte Aktion dazu beiträgt, die zukünftige Belohnung zu maximieren. Der politikbasierte Ansatz kann weiter in zwei unterteilt werden: - Deterministisch: In dieser Unterteilung wird in jedem Zustand dieselbe Aktion von der Politik erzeugt. - Stochastisch: Hier bestimmt die Wahrscheinlichkeit die erzeugte Aktion. Modellbasiertes Verstärkungslernen In diesem Ansatz wird für jede Umgebung ein virtuelles Modell erstellt, und der Agent erkundet es, um zu lernen. Da die Modellrepräsentation für jede Umgebung unterschiedlich ist, gibt es keinen bestimmten RL-Algorithmus oder eine Lösung für diesen Ansatz. Verstärkungslernalgorithmen Verstärkungslernalgorithmen können in zwei Kategorien eingeteilt werden: modellfreie RL-Algorithmen und modellbasierte RL-Algorithmen. Q-Learning und Deep Q Learning sind Beispiele für modelfreie RL-Algorithmen. Q-Learning Q-Learning ist eine wertbasierte RL-Methode zur Bereitstellung von Informationen. Es wird für das Lernen mit zeitlichen Unterschieden verwendet und bestimmt, wie gut eine Aktion in einem bestimmten Zustand ist. Q-Learning ist ein Off-Policy-Lerner, was bedeutet, dass der Agent die Wertfunktion basierend auf der Aktion lernt, die aus einer anderen Politik abgeleitet wurde. Was ist Lernen mit zeitlichen Unterschieden? Lernen mit zeitlichen Unterschieden ist ein Ansatz zur Vorhersage einer Größe, die von den zukünftigen Werten eines bestimmten Signals abhängt. Q-Learning beginnt mit der Initialisierung der Q-Tabelle. Dann wählt der Agent eine Aktion aus und führt sie aus. Die Belohnung für die Aktion wird gemessen, und dann wird die Q-Tabelle aktualisiert. Eine Q-Tabelle ist eine Tabelle oder Matrix, die während des Q-Learnings erstellt wird. Nach jeder Aktion wird die Tabelle aktualisiert. Im Q-Learning besteht das Ziel des Agenten darin, den Wert von Q zu maximieren. In dieser Methode strebt der Agent danach, die beste Aktion zu finden, die in einem bestimmten Zustand ausgeführt werden kann. Das Q steht für Qualität, was die Qualität der vom Agenten ausgeführten Aktion anzeigt. Monte-Carlo-Methode Die Monte-Carlo-Methode ist eine der besten Möglichkeiten, wie ein Agent die beste Politik erhalten kann, um die höchste kumulative Belohnung zu erzielen. Diese Methode kann nur bei episodischen Aufgaben verwendet werden, also Aufgaben, die ein definitives Ende haben. In der MC-Methode lernt der Agent direkt aus Episoden von Erfahrungen. Das bedeutet auch, dass der Agent anfangs keine Ahnung hat, welche Aktion zur höchsten Belohnung führt, sodass die Aktionen zufällig ausgewählt werden. Nachdem eine Reihe zufälliger Politiken ausgewählt wurde, wird der Agent sich der Politiken bewusst, die zu den höchsten Belohnungen führen, und wird besser darin, Politiken auszuwählen. SARSA State-Action-Reward-State-Action (SARSA) ist eine On-Policy-Methode des Lernens mit zeitlichen Unterschieden. Das bedeutet, dass es die Wertfunktion basierend auf der aktuellen Aktion lernt, die aus der derzeit verwendeten Politik abgeleitet wurde. SARSA spiegelt wider, dass die Hauptfunktion, die zur Aktualisierung des Q-Werts verwendet wird, vom aktuellen Zustand des Agenten (S), der gewählten Aktion (A), der Belohnung, die er für die Aktion erhält (R), dem Zustand, in den der Agent nach der Ausführung der Aktion eintritt (S), und der Aktion, die er im neuen Zustand ausführt (A), abhängt. Deep Q Neural Network Deep Q Neural Network (DQN) ist Q-Learning mit Hilfe von neuronalen Netzwerken. Es ist ideal, wenn die Zustands- und Aktionsräume groß sind, da die Definition einer Q-Tabelle eine komplexe und zeitaufwändige Aufgabe wäre. Anstelle einer Q-Tabelle bestimmen neuronale Netzwerke die Q-Werte für jede Aktion basierend auf dem Zustand. Anwendungen des Verstärkungslernens Verstärkungslernen wird verwendet, um KI-Systeme zu lehren, Spiele zu spielen. Und sie werden exponentiell besser darin. Abgesehen davon wird es im Finanzwesen verwendet, um Handelsstrategien zu bewerten, und kann auch in der Chemie zur Optimierung chemischer Reaktionen verwendet werden. Unternehmen können auch tiefes Verstärkungslernen verwenden, um Robotern beizubringen, Waren korrekt zu greifen und zu platzieren. Hier sind weitere Anwendungen von RL: - Geschäftsstrategieplanung - Flugzeugsteuerung und Roboterbewegungssteuerung - Industrielle Automatisierung - Datenverarbeitung - Augmentiertes NLP - Empfehlungssysteme - Bieten und Werbung - Ampelsteuerung Herausforderungen des Verstärkungslernens Verstärkungslernen ist eine leistungsstarke Art des maschinellen Lernens. Es hat jedoch auch einige damit verbundene Herausforderungen. Erstens findet Verstärkungslernen in einer Umgebung mit verzögerten Rückgaben statt. Wenn die Aufgabe komplex ist, dauert es länger, bis der Agent lernt und maximale Belohnungen erreicht. Zum Beispiel könnte ein Agent ein paar Stunden brauchen, um das Spiel Pong zu lernen, aber AlphaZero brauchte 40 Tage und Millionen von Spielen, um Go zu meistern. Während es immer noch eine herausragende Leistung ist, scheint es eine langsame Lernkurve zu sein, wenn man sich reale Anwendungen wie Robotik ansieht. Das Skalieren oder Anpassen der neuronalen Netzwerke, die den Agenten steuern, ist ebenfalls eine große Herausforderung. Es gibt keine anderen Mittel, um mit dem Agenten zu kommunizieren, außer den Belohnungen und Strafen. Das bedeutet auch, dass der Agent möglicherweise einen Weg findet, die Belohnungen zu maximieren, ohne tatsächlich die zugewiesene Mission zu erfüllen. Glossar des Verstärkungslernens Künstliche Intelligenz kann ein ziemlich überwältigendes Thema sein, besonders wenn Sie neue Begriffe lernen. Hier ist eine Überarbeitung einiger der im Verstärkungslernen verwendeten Begriffe und was sie bedeuten. - Agent: Das KI-System, das den Lernprozess durchläuft. Auch als Lerner oder Entscheidungsträger bezeichnet. Der Algorithmus ist der Agent. - Aktion: Die Menge aller möglichen Züge, die ein Agent machen kann. - Umgebung: Die Welt, durch die sich der Agent bewegt und Feedback erhält. Die Umgebung nimmt den aktuellen Zustand und die Aktion des Agenten als Eingabe und gibt dann die Belohnung und den nächsten Zustand aus. - Zustand: Eine unmittelbare Situation, in der sich der Agent befindet. Es kann ein bestimmter Moment oder eine Position in der Umgebung sein. Es kann auch eine aktuelle sowie eine zukünftige Situation sein. Einfach ausgedrückt, es ist der Zustand des Agenten in der Umgebung. - Belohnung: Für jede getätigte Aktion erhält der Agent eine Belohnung von der Umgebung. Eine Belohnung kann positiv oder negativ sein, abhängig von der Aktion. - Politik: Die Strategie, die der Agent verwendet, um die nächste Aktion basierend auf dem aktuellen Zustand zu bestimmen. Mit anderen Worten, es ordnet Zustände Aktionen zu, damit der Agent die Aktion mit der höchsten Belohnung wählen kann. - Modell: Die Sicht des Agenten auf die Umgebung. Es ordnet die Zustand-Aktions-Paare den Wahrscheinlichkeitsverteilungen über Zuständen zu. Allerdings verwendet nicht jeder RL-Agent ein Modell seiner Umgebung. - Wertfunktion: Einfach ausgedrückt, repräsentiert die Wertfunktion, wie vorteilhaft ein Zustand für den Agenten ist. Der Wert des Zustands repräsentiert die langfristige Belohnung, die der Agent erhalten wird, beginnend von diesem bestimmten Zustand bis zur Ausführung einer bestimmten Politik. - Diskontfaktor: Der Diskontfaktor (γ) bestimmt, wie sehr sich der Agent um Belohnungen in ferner Zukunft im Vergleich zu denen in unmittelbarer Zukunft kümmert. Es ist ein Wert zwischen null und eins. Wenn der Diskontfaktor gleich 0 ist, lernt der Agent nur über Aktionen, die sofortige Belohnungen erzeugen. Wenn er gleich 1 ist, bewertet der Agent seine Aktionen basierend auf der Summe seiner zukünftigen Belohnungen. - Dynamische Programmierung (DP): Eine algorithmische Technik, die verwendet wird, um ein Optimierungsproblem zu lösen, indem es in Teilprobleme zerlegt wird. Es folgt dem Konzept, dass die optimale Lösung des Gesamtproblems von der optimalen Lösung seiner Teilprobleme abhängt. Wenn diese Begriffe Sie überwältigen, denken Sie darüber nach, was Verstärkungslernen im wirklichen Leben wäre. Der Agent sind Sie, und die Umgebung sind Ihre Umgebung und die physikalischen Gesetze wie die Schwerkraft. Wenn Sie lernen zu gehen, könnte der Zustand die Position Ihrer Beine sein. Wenn Sie die beste Aktion ausführen, erhalten Sie eine Belohnung, die darin besteht, ein paar Schritte zu gehen. Andernfalls erhalten Sie eine Strafe, was in diesem Fall bedeutet, dass Sie fallen und sich verletzen. Es ist Spielzeit für die Roboter Menschen lieben Belohnungen. Gamification ist der einfachste Weg, uns dazu zu verleiten, eine Aufgabe zu erledigen, ohne sich demotiviert zu fühlen. Deshalb scheint es mehr Spaß zu machen, einen Sport zu treiben, als in einem Fitnessstudio zu trainieren. Verstärkungslernen lockt KI-Agenten dazu, die richtigen Entscheidungen im Austausch für Belohnungen zu treffen. Wir haben noch nicht gehört, was die Roboter über Gamification denken, aber wir hoffen, dass es ihnen gefällt. Einige sagen, es ist die letzte Erfindung, die wir jemals brauchen werden. Einige fühlen, es ist ein unerreichbares Ziel. Es wird als künstliche allgemeine Intelligenz bezeichnet und wäre in der Tat unsere größte Erfindung oder die größte Bedrohung aller Zeiten.

Amal Joby
Amal is a Research Analyst at G2 researching the cybersecurity, blockchain, and machine learning space. He's fascinated by the human mind and hopes to decipher it in its entirety one day. In his free time, you can find him reading books, obsessing over sci-fi movies, or fighting the urge to have a slice of pizza.
