Introducing G2.ai, the future of software buying.Try now

Qu'est-ce que l'apprentissage par renforcement ? Définition et applications

23 Avril 2021
par Amal Joby

L'apprentissage par renforcement consiste à gamifier le processus d'apprentissage.

Les outils d'apprentissage automatique ici utilisent une méthode de récompense-pénalité pour enseigner à un système d'IA. S'il fait le bon mouvement, il est récompensé. S'il fait une erreur, il reçoit une pénalité.

En d'autres termes, l'apprentissage par renforcement force un système à apprendre et à s'adapter rapidement, sinon il perd des récompenses numériques importantes. C'est une méthode d'apprentissage automatique basée sur le retour d'information dans laquelle l'agent IA apprend à se comporter correctement dans un environnement en prenant des actions et en observant les résultats de ces actions.

En bref, l'agent apprend de l'expérience sans aucune programmation préalable et ne nécessite aucune supervision humaine.

C'est l'un des trois types d'apprentissage automatique de base. Les deux autres sont l'apprentissage supervisé et l'apprentissage non supervisé.

L'apprentissage par renforcement permet à une machine d'apprendre de ses erreurs, de la même manière que les humains le font. C'est un type d'apprentissage automatique dans lequel la machine apprend à résoudre un problème par essais et erreurs. De plus, la machine apprend de ses actions, contrairement à l'apprentissage supervisé, où les données historiques jouent un rôle crucial.

Le système d'IA qui subit le processus d'apprentissage est appelé l'agent ou l'apprenant. Le système d'apprentissage explore et observe l'environnement qui l'entoure, tout comme nous. Si l'agent effectue la bonne action, il reçoit un retour positif ou une récompense positive. S'il prend une action défavorable, il reçoit un retour négatif ou une récompense négative.

Les caractéristiques notables de l'apprentissage par renforcement (RL) sont :

  • Le temps joue un rôle crucial dans les problèmes de RL.
  • La prise de décision de l'agent est séquentielle.
  • Il n'y a pas de superviseur, et l'agent ne reçoit aucune instruction. Il n'y a que des récompenses.
  • Les actions de l'agent affectent directement les données ultérieures qu'il reçoit.
  • L'agent est récompensé (positivement ou négativement) pour chaque action.
  • La meilleure solution à un problème est décidée en fonction de la récompense maximale.

Le but de l'apprentissage par renforcement est de choisir la meilleure action connue pour un état donné. Cela signifie également que les actions doivent être classées et se voir attribuer des valeurs relatives les unes par rapport aux autres. Étant donné que la meilleure action dépend de l'état actuel de l'agent, l'accent est davantage mis sur les valeurs des paires état-action.

Cependant, l'apprentissage par renforcement n'est pas toujours la réponse à toutes les situations. Par exemple, si vous avez suffisamment de données pour résoudre un problème, l'apprentissage supervisé sera idéal. De plus, l'apprentissage par renforcement est un processus chronophage et nécessite beaucoup de ressources informatiques.

En relation : Apprenez-en plus sur l'apprentissage par renforcement à partir des retours humains (RLHF) et comment il aide à former des grands modèles de langage (LLMs).

Éléments de l'apprentissage par renforcement

Outre l'agent et l'environnement, il y a quatre éléments critiques dans l'apprentissage par renforcement : politique, signal de récompense, fonction de valeur, et modèle.

1. Politique

La politique est la stratégie que l'agent utilise pour déterminer l'action suivante en fonction de l'état actuel. C'est l'un des éléments critiques de l'apprentissage par renforcement et peut à lui seul définir le comportement de l'agent.

Une politique mappe les états perçus de l'environnement aux actions prises sur ces états particuliers. Elle peut être déterministe ou stochastique et peut également être une fonction simple ou une table de consultation.

2. Signal de récompense

À chaque état, l'agent reçoit un signal immédiat de l'environnement appelé signal de récompense ou simplement récompense. Comme mentionné précédemment, les récompenses peuvent être positives ou négatives, selon les actions de l'agent. Le signal de récompense peut également forcer l'agent à changer de politique. Par exemple, si les actions de l'agent conduisent à des récompenses négatives, l'agent sera forcé de changer de politique pour le bien de sa récompense totale.

3. Fonction de valeur

La fonction de valeur donne des informations sur la favorabilité de certaines actions et sur la quantité de récompense que l'agent peut espérer. En termes simples, la fonction de valeur détermine à quel point un état est bon pour l'agent. La fonction de valeur dépend de la politique de l'agent et de la récompense, et son objectif est d'estimer les valeurs pour obtenir plus de récompenses.

4. Modèle

Le modèle imite le comportement de l'environnement. En utilisant un modèle, vous pouvez faire des inférences sur l'environnement et comment il se comportera. Par exemple, si un état et une action sont fournis, vous pouvez utiliser un modèle pour prédire l'état suivant et la récompense.

Étant donné que le modèle vous permet de considérer toutes les situations futures avant de les expérimenter, vous pouvez l'utiliser pour la planification. L'approche utilisée pour résoudre les problèmes d'apprentissage par renforcement avec l'aide du modèle est appelée apprentissage par renforcement basé sur le modèle. D'autre part, si vous essayez de résoudre des problèmes de RL sans utiliser de modèle, cela s'appelle apprentissage par renforcement sans modèle.

Alors que l'apprentissage basé sur le modèle essaie de choisir la politique optimale basée sur le modèle appris, l'apprentissage sans modèle exige que l'agent apprenne de l'expérience par essais et erreurs. Statistiquement, les méthodes sans modèle sont moins efficaces que les méthodes basées sur le modèle.

Types d'apprentissage par renforcement

Il existe deux types de méthodes d'apprentissage par renforcement : renforcement positif et renforcement négatif.

Renforcement positif

Le renforcement positif est le processus d'encouragement ou d'ajout de quelque chose lorsqu'un modèle de comportement attendu est observé pour augmenter la probabilité que le même comportement soit répété.

Par exemple, si un enfant réussit un test avec des notes impressionnantes, il peut être renforcé positivement avec un cornet de glace.

Renforcement négatif

Le renforcement négatif implique d'augmenter les chances qu'un comportement spécifique se reproduise en supprimant la condition négative.

Par exemple, si un enfant échoue à un test, il peut être renforcé négativement en lui retirant ses jeux vidéo. Ce n'est pas précisément punir l'enfant pour avoir échoué, mais supprimer une condition négative (dans ce cas, les jeux vidéo) qui pourrait avoir causé l'échec de l'enfant au test.

Comment fonctionne l'apprentissage par renforcement ?

En termes simples, l'apprentissage par renforcement est la quête d'un agent pour maximiser la récompense qu'il reçoit. Il n'y a pas d'humain pour superviser le processus d'apprentissage, et l'agent prend des décisions séquentielles.

Contrairement à l'apprentissage supervisé, l'apprentissage par renforcement ne vous oblige pas à étiqueter les données ou à corriger les actions sous-optimales. Au lieu de cela, l'objectif est de trouver un équilibre entre exploration et exploitation.

Exploration est lorsque l'agent apprend en sortant de sa zone de confort, et ce faisant, il pourrait mettre en jeu sa récompense. L'exploration est souvent difficile et ressemble à entrer en territoire inconnu. Pensez-y comme essayer un restaurant où vous n'êtes jamais allé. Dans le meilleur des cas, vous pourriez finir par découvrir un nouveau restaurant préféré et offrir un régal à vos papilles. Dans le pire des cas, vous pourriez tomber malade à cause de la nourriture mal cuite.

Exploitation est lorsque l'agent reste dans sa zone de confort et exploite les connaissances actuellement disponibles. C'est sans risque car il n'y a aucune chance d'attirer une pénalité et l'agent continue de répéter la même chose. C'est comme visiter votre restaurant préféré tous les jours et ne pas être ouvert à de nouvelles expériences. Bien sûr, c'est un choix sûr, mais il pourrait y avoir un meilleur restaurant là-bas.

L'apprentissage par renforcement est un compromis entre exploration et exploitation. Les algorithmes de RL peuvent être conçus pour explorer et exploiter à des degrés divers.

L'apprentissage par renforcement est un processus itératif. L'agent commence sans aucune idée des récompenses qu'il peut attendre de paires état-action spécifiques. Il apprend au fur et à mesure qu'il traverse ces états plusieurs fois et finit par devenir compétent. En bref, l'agent commence comme un novice et devient lentement un pro.

Exemple d'apprentissage par renforcement

Étant donné que l'apprentissage par renforcement est la façon dont la plupart des organismes apprennent, examinons comment un chien apprend de nouveaux tours et comparons-les avec ce type d'apprentissage automatique.

Charlie est un Golden Retriever. Comme les autres chiens, il ne comprend pas l'anglais ou toute autre langue humaine en soi, bien qu'il puisse comprendre l'intonation et le langage corporel humain avec une grande précision.

Cela signifie que nous ne pouvons pas directement instruire Charlie sur ce qu'il doit faire, mais nous pouvons utiliser des friandises pour l'inciter à faire quelque chose. Cela pourrait être aussi simple que de s'asseoir ou de se rouler sur commande ou de serrer la main. Pour cet exemple, considérons l'« acte de serrer la main ».

Comme vous le savez probablement, les règles sont assez simples. Si Charlie serre la main ou fait quelque chose de similaire, il reçoit une friandise. S'il n'obéit pas ou se comporte mal, il ne recevra aucune friandise.

En d'autres termes, si Charlie effectue l'action souhaitée, il reçoit une friandise ; sinon, rien.

Après quelques itérations de « friandise ou pas de friandise », Charlie reconnaîtra le bon ensemble d'actions à effectuer pour obtenir une friandise. Lorsqu'il se comportait mal, il a réalisé que de telles actions défavorables conduisaient à des conséquences défavorables. À l'avenir, lorsque Charlie sera confronté à des situations similaires, il saura quelle est l'action la plus souhaitable à prendre pour maximiser la friandise ou la récompense.

« RL signifie que l'IA peut désormais être appliquée à des problèmes de prise de décision séquentielle pour atteindre des objectifs stratégiques, contrairement à des tâches perceptives ponctuelles comme la reconnaissance d'images. »

Chris Nicholson
Fondateur et PDG de Pathmind

Appliquer le concept d'apprentissage par renforcement à cet exemple fait de Charlie l'agent. La maison dans laquelle il vit devient son environnement, et la friandise qu'il reçoit est sa récompense. S'asseoir est un état, tout comme serrer la main. La transition de s'asseoir à serrer la main peut être considérée comme une action.

Votre langage corporel et votre intonation déclenchent l'action (ou, dans ce contexte, la réaction). La méthode de sélection d'une action basée sur l'état qui vous aidera à obtenir le meilleur résultat s'appelle la politique.

Chaque fois que Charlie effectue l'action souhaitée et passe d'un état (s'asseoir) à un autre (serrer la main), il reçoit une friandise. Étant donné que Charlie est un bon garçon, nous ne le punissons pas s'il se comporte mal. Au lieu d'une pénalité ou d'une punition, il ne recevra pas de récompense s'il n'effectue pas l'action souhaitée, ce qui est quelque chose de plus proche d'une pénalité.

Cela est très similaire à la façon dont un agent apprend dans l'apprentissage par renforcement.

L'apprentissage par renforcement dans le jeu

Les jeux et l'apprentissage par renforcement partagent une longue histoire. Les jeux sont les domaines optimaux et stimulants pour tester les algorithmes d'apprentissage par renforcement.

Nous avons tous joué à des jeux informatiques ou vidéo à un moment donné de notre vie. Cela pourrait avoir été l'un des jeux Atari 8 bits, un jeu de console comme Halo, ou un jeu de société comme les échecs.

Quel que soit le jeu auquel vous avez joué, il vous a peut-être fallu quelques tentatives pour comprendre les règles avant de finalement gagner une partie. En bref, il faut du temps, de la stratégie et de la pratique pour devenir un pro. Et, bien sûr, il y a une motivation sous forme de points ou de récompenses dans le jeu. Vous obtenez une récompense positive lorsque vous terminez une mission. Vous marquez des points négatifs si vous tombez d'une falaise ou si vous êtes arrêté parce que votre niveau de recherche est plus élevé qu'il ne devrait l'être.

Indépendamment de la complexité du jeu, les concepts ci-dessus restent universels. Si votre comportement dans le jeu est conforme aux instructions du jeu, vous gagnerez des points et gagnerez. Sinon, vous perdrez des points et échouerez. Les mêmes règles s'appliquent à l'apprentissage par renforcement.

Voyons comment vous pouvez apprendre à une machine à jouer à des jeux.

Le cerveau humain peut naturellement reconnaître le but d'un jeu, mais c'est difficile pour les machines. Vous pourriez appliquer l'apprentissage supervisé pour enseigner aux machines, mais cela nécessite des données d'entraînement provenant de joueurs humains précédents. Étant donné que notre ensemble de compétences finira par plafonner, cela signifie que l'agent RL ne pourrait jamais devenir "meilleur" qu'un humain.

Dans l'apprentissage par renforcement, il n'y a pas de jeu de données d'entraînement ni de valeur de sortie. L'agent peut naturellement rivaliser, échouer et apprendre de ses erreurs en fonction des valeurs de récompense et de pénalité. Prenons le jeu de Pong comme exemple.

Jeu de Pong

Source : ponggame.org

Le but de Pong est de faire rebondir la balle avec votre raquette pour qu'elle se retrouve derrière l'adversaire. Au départ, l'agent ne comprendra pas cela et échouera de nombreuses fois. Mais à un moment donné, il fera un mouvement correct et sera positivement renforcé pour répéter l'action.

Après plusieurs parties de Pong, l'agent d'apprentissage par renforcement devrait avoir une compréhension générale de la probabilité de se déplacer VERS LE HAUT avec succès par rapport à la probabilité de se déplacer VERS LE BAS. Ces actions sont renforcées jusqu'à ce que la récompense totale soit maximisée. En termes de Pong, cela signifie gagner le jeu sans que votre adversaire ne marque un seul point.

Apprentissage par renforcement et AlphaGo

AlphaGo est la référence en matière d'apprentissage par renforcement avancé dans le jeu. Développé par DeepMind, ce programme informatique d'apprentissage profond est devenu le meilleur joueur de Go au monde en battant Ke Jie, l'un des meilleurs joueurs de Go au monde.

Voici un aperçu rapide de la façon dont AlphaGo est devenu champion du monde :

  • AlphaGo, comme tout agent d'apprentissage, a commencé sans aucune connaissance du jeu.
  • Il a ensuite été alimenté par la structure de base et la stratégie du jeu à l'aide de milliers d'exemples de joueurs amateurs et professionnels.
  • Il a atteint un niveau de compétence élevé en trois jours, et les testeurs ont commencé à jouer le programme contre lui-même.
  • Cela a conduit à une itération constante, un renforcement et un couplage avec des algorithmes de recherche.
  • AlphaGo est rapidement devenu une version différente et plus avancée de lui-même – Fan, Lee, Master, et finalement, Zero.
  • AlphaGo Master a affronté le meilleur joueur humain, le champion du monde 18 fois Ke Jie.

En seulement 40 jours d'auto-formation, AlphaGo Zero a surpassé AlphaGo Master et a atteint une cote Elo supérieure à 5 000, ce qui est essentiellement des niveaux surhumains.

Processus de décision de Markov : Représenter le RL mathématiquement

Le processus de décision de Markov (MDP) est la façon dont les problèmes d'apprentissage par renforcement sont représentés mathématiquement. Il est utilisé pour formaliser les problèmes de RL, et si l'environnement est entièrement observable, il peut être modélisé à l'aide de MDP.

Dans MDP, les paramètres suivants sont utilisés pour obtenir une solution à un problème d'apprentissage par renforcement :

  • Ensemble d'états possibles - S
  • Ensemble de modèles
  • Ensemble d'actions possibles- A
  • Récompense - R
  • Politique
  • Valeur - V

L'état de l'agent peut être représenté à l'aide de l'état de Markov. L'état de Markov suit la propriété de Markov, ce qui signifie que l'état futur est indépendant du passé et ne peut être défini qu'avec le présent.

Supposons que l'agent RL se trouve dans un environnement de labyrinthe composé de quatre rangées et de quatre colonnes, ce qui constitue un nombre total de 16 blocs. Si l'agent se trouve sur un bloc particulier et que ses deux blocs adjacents ont la même valeur attribuée (à ne pas confondre avec la récompense), il sera difficile pour l'agent de choisir entre eux.

Dans de telles situations, l'équation de Bellman est utilisée. C'est un constituant critique de l'apprentissage par renforcement et aide à résoudre le MDP. Résoudre signifie trouver la politique optimale et les fonctions de valeur.

Les éléments clés de l'équation de Bellman sont :

  • Action
  • État
  • Récompense
  • Facteur d'actualisation

L'équation de Bellman est également associée à la programmation dynamique. Elle est utilisée pour calculer les valeurs d'un problème de décision à un moment donné, en tenant compte des valeurs des états précédents. Avec l'équation, vous pouvez décomposer des problèmes complexes en sous-problèmes plus simples et récursifs et trouver des solutions optimales.

Approches pour implémenter l'apprentissage par renforcement

Il existe généralement trois façons d'implémenter un algorithme d'apprentissage par renforcement : basé sur la valeur, basé sur la politique, ou basé sur le modèle. Ces approches déterminent comment l'agent prendra des actions et interagira avec l'environnement.

Apprentissage par renforcement basé sur la valeur

Cette approche consiste à trouver la fonction de valeur optimale, qui est essentiellement la valeur maximale à un état sous n'importe quelle politique.

Apprentissage par renforcement basé sur la politique

Dans cette approche, l'agent essaie de développer une politique afin que l'action effectuée à chaque état aide à maximiser la récompense future.

L'approche basée sur la politique peut être divisée en deux :

  • Déterministe : Dans cette sous-division, la même action est produite par la politique à n'importe quel état.
  • Stochastique : Ici, la probabilité détermine l'action produite.

Apprentissage par renforcement basé sur le modèle

Dans cette approche, un modèle virtuel est créé pour chaque environnement, et l'agent l'explore pour apprendre. Étant donné que la représentation du modèle est différente pour chaque environnement, il n'existe pas d'algorithme ou de solution RL particulier pour cette approche.

Algorithmes d'apprentissage par renforcement

Les algorithmes d'apprentissage par renforcement peuvent être classés en deux : algorithmes RL sans modèle et algorithmes RL basés sur le modèle. Q-learning et deep Q learning sont des exemples d'algorithmes RL sans modèle.

Q-learning

Q-learning est une méthode RL basée sur la valeur pour fournir des informations. Elle est utilisée pour l'apprentissage par différence temporelle et détermine à quel point une action est bonne à un état particulier. Le Q-learning est un apprenant hors politique, ce qui signifie que l'agent apprendra la fonction de valeur basée sur l'action dérivée d'une autre politique.

Qu'est-ce que l'apprentissage par différence temporelle ?

L'apprentissage par différence temporelle est une approche pour prédire une quantité qui dépend des valeurs futures d'un signal particulier.

Le Q-learning commence par l'initialisation de la table Q. Ensuite, l'agent sélectionne une action et l'exécute. La récompense pour l'action est mesurée, puis la table Q est mise à jour. Une table Q est une table ou une matrice créée lors du Q-learning. Après chaque action, la table est mise à jour.

Dans le Q-learning, l'objectif de l'agent est de maximiser la valeur de Q. Dans cette méthode, l'agent s'efforce de trouver la meilleure action à prendre à un état particulier. Le Q signifie qualité, ce qui indique la qualité de l'action prise par l'agent.

Méthode de Monte Carlo

La méthode de Monte Carlo (MC) est l'une des meilleures façons pour un agent d'obtenir la meilleure politique pour obtenir la récompense cumulative la plus élevée. Cette méthode ne peut être utilisée que dans des tâches épisodiques, qui sont des tâches ayant une fin définie.

Dans la méthode MC, l'agent apprend directement à partir d'épisodes d'expérience. Cela signifie également que l'agent n'a initialement aucune idée de quelle action mène à la récompense la plus élevée, donc les actions sont choisies au hasard. Après avoir sélectionné un ensemble de politiques aléatoires, l'agent prendra conscience des politiques qui mènent aux récompenses les plus élevées et s'améliorera dans le choix des politiques.

SARSA

State-action-reward-state-action (SARSA) est une méthode d'apprentissage par différence temporelle sur politique. Cela signifie qu'elle apprend la fonction de valeur basée sur l'action actuelle dérivée de la politique actuellement utilisée.

SARSA reflète le fait que la fonction principale utilisée pour mettre à jour la valeur Q dépend de l'état actuel de l'agent (S), de l'action choisie (A), de la récompense qu'il obtient pour l'action (R), de l'état dans lequel l'agent entre après avoir effectué l'action (S), et de l'action qu'il effectue dans le nouvel état (A).

Réseau neuronal Q profond

Réseau neuronal Q profond (DQN) est le Q-learning avec l'aide de réseaux neuronaux. Il est idéal lorsque les espaces d'état et d'action sont importants, car définir une table Q sera une tâche complexe et chronophage. Au lieu d'une table Q, les réseaux neuronaux déterminent les valeurs Q pour chaque action en fonction de l'état.

Applications de l'apprentissage par renforcement

L'apprentissage par renforcement est utilisé pour enseigner aux systèmes d'IA à jouer à des jeux. Et ils s'améliorent de manière exponentielle. En dehors de cela, il est utilisé dans la finance pour évaluer les stratégies de trading et peut également être utilisé en chimie pour optimiser les réactions chimiques. Les entreprises peuvent également utiliser l'apprentissage par renforcement profond pour enseigner aux robots à ramasser et placer correctement les marchandises.

Voici d'autres applications de RL :

  • Planification de la stratégie commerciale
  • Contrôle des aéronefs et contrôle du mouvement des robots
  • Automatisation industrielle
  • Traitement des données
  • NLP augmenté
  • Systèmes de recommandation
  • Enchères et publicité
  • Contrôle des feux de circulation

Défis de l'apprentissage par renforcement

L'apprentissage par renforcement est un type puissant d'apprentissage automatique. Cependant, il présente également certains défis associés.

Tout d'abord, l'apprentissage par renforcement se produit dans un environnement de retour différé. Si la tâche à accomplir est complexe, plus il faudra de temps à l'agent pour apprendre et atteindre des récompenses maximales.

Par exemple, un agent peut prendre quelques heures pour apprendre le jeu de Pong, mais AlphaZero a pris 40 jours et des millions de parties pour maîtriser le Go. Bien que ce soit toujours un exploit remarquable, cela semble être une courbe d'apprentissage lente lorsqu'on regarde des applications du monde réel comme la robotique.

La mise à l'échelle ou l'ajustement des réseaux neuronaux qui contrôlent l'agent est également un grand défi. Il n'y a pas d'autres moyens de communiquer avec l'agent que les récompenses et les pénalités. Cela signifie également que l'agent pourrait trouver un moyen de maximiser les récompenses sans réellement accomplir la mission assignée.

Glossaire de l'apprentissage par renforcement

L'intelligence artificielle peut être un sujet assez accablant, surtout lorsque vous apprenez de nouveaux termes. Voici une révision de certains des termes utilisés dans l'apprentissage par renforcement et ce qu'ils signifient.

  • Agent : Le système d'IA qui subit le processus d'apprentissage. Également appelé l'apprenant ou le décideur. L'algorithme est l'agent.
  • Action : L'ensemble de tous les mouvements possibles qu'un agent peut faire.
  • Environnement : Le monde à travers lequel l'agent se déplace et reçoit des retours. L'environnement prend l'état actuel de l'agent et l'action comme entrée, puis produit la récompense et l'état suivant.
  • État : Une situation immédiate dans laquelle l'agent se trouve. Cela peut être un moment ou une position spécifique dans l'environnement. Cela peut également être une situation actuelle ainsi qu'une situation future. En termes simples, c'est l'état de l'agent dans l'environnement.
  • Récompense : Pour chaque action effectuée, l'agent reçoit une récompense de l'environnement. Une récompense peut être positive ou négative, selon l'action.
  • Politique : La stratégie que l'agent utilise pour déterminer l'action suivante en fonction de l'état actuel. En d'autres termes, elle mappe les états aux actions afin que l'agent puisse choisir l'action avec la récompense la plus élevée.
  • Modèle : La vue de l'agent sur l'environnement. Il mappe les paires état-action aux distributions de probabilité sur les états. Cependant, tous les agents RL n'utilisent pas un modèle de leur environnement.
  • Fonction de valeur : En termes simples, la fonction de valeur représente à quel point un état est favorable pour l'agent. La valeur de l'état représente la récompense à long terme que l'agent recevra en commençant par cet état particulier pour exécuter une politique spécifique.
  • Facteur d'actualisation : Le facteur d'actualisation (γ) détermine à quel point l'agent se soucie des récompenses dans un avenir lointain par rapport à celles dans un avenir immédiat. C'est une valeur entre zéro et un. Si le facteur d'actualisation est égal à 0, l'agent n'apprendra que sur les actions qui produisent des récompenses immédiates. S'il est égal à 1, l'agent évaluera ses actions en fonction de la somme de ses récompenses futures.
  • Programmation dynamique (DP) : Une technique algorithmique utilisée pour résoudre un problème d'optimisation en le décomposant en sous-problèmes. Elle suit le concept que la solution optimale au problème global dépend de la solution optimale à ses sous-problèmes.

Si ces termes vous accablent, pensez à ce que serait l'apprentissage par renforcement dans la vie réelle. L'agent, c'est vous, et l'environnement, ce sont vos environs et les lois de la physique comme la gravité.

Si vous apprenez à marcher, l'état pourrait être la position de vos jambes. Si vous prenez la meilleure action, vous obtenez une récompense, qui est de marcher quelques pas. Sinon, vous obtenez une pénalité, ce qui dans ce cas signifie que vous tombez et vous blessez.

C'est l'heure du jeu pour les robots

Les humains aiment les récompenses. La gamification est le moyen le plus simple de nous inciter à accomplir une tâche sans nous sentir démotivés. C'est pourquoi jouer à un sport semble plus amusant que de faire de l'exercice dans une salle de sport.

L'apprentissage par renforcement attire les agents IA à prendre les bonnes décisions en échange de récompenses. Nous n'avons pas encore entendu ce que les robots pensent de la gamification, mais nous espérons qu'ils l'apprécient.

Certains disent que c'est la dernière invention dont nous aurons jamais besoin. Certains pensent que c'est un objectif inatteignable. Cela s'appelle l'intelligence générale artificielle et, en effet, ce serait notre plus grande invention ou la plus grande menace jamais vue.

Amal Joby
AJ

Amal Joby

Amal is a Research Analyst at G2 researching the cybersecurity, blockchain, and machine learning space. He's fascinated by the human mind and hopes to decipher it in its entirety one day. In his free time, you can find him reading books, obsessing over sci-fi movies, or fighting the urge to have a slice of pizza.