Che cos'è l'apprendimento per rinforzo? Definizione e applicazioni

Il reinforcement learning riguarda tutto il processo di apprendimento attraverso la gamification.

Gli strumenti di machine learning qui utilizzano un metodo di ricompensa-penalità per insegnare a un sistema di intelligenza artificiale. Se compie la mossa giusta, viene ricompensato. Se commette un errore, riceve una penalità.

In altre parole, il reinforcement learning costringe un sistema a imparare e adattarsi rapidamente, altrimenti perde serie ricompense numeriche. È un metodo di machine learning basato sul feedback in cui l'agente AI impara a comportarsi (correttamente) in un ambiente prendendo azioni e osservando i risultati di tali azioni.

In breve, l'agente impara dall'esperienza senza alcuna programmazione predefinita e non richiede alcuna supervisione umana.

Cos'è il reinforcement learning?

Il reinforcement learning (RL) è una tecnica di machine learning che si concentra su come gli agenti AI dovrebbero prendere azioni in un ambiente per ottenere i migliori risultati. Questo addestramento avviene in tempo reale con feedback continui per massimizzare la possibilità di essere ricompensati.

È uno dei tre tipi fondamentali di machine learning. Gli altri due sono l'apprendimento supervisionato e l'apprendimento non supervisionato.

Il reinforcement learning permette a una macchina di imparare dai propri errori, in modo simile a come fanno gli esseri umani. È un tipo di machine learning in cui la macchina impara a risolvere un problema attraverso tentativi ed errori. Inoltre, la macchina impara dalle sue azioni, a differenza dell'apprendimento supervisionato, dove i dati storici giocano un ruolo critico.

Il sistema AI che attraversa il processo di apprendimento è chiamato agente o apprendente. Il sistema di apprendimento esplora e osserva l'ambiente circostante, proprio come noi. Se l'agente esegue l'azione giusta, riceve un feedback positivo o una ricompensa positiva. Se compie un'azione avversa, riceve un feedback negativo o una ricompensa negativa.

Le caratteristiche notevoli del reinforcement learning (RL) sono:

Il tempo gioca un ruolo critico nei problemi di RL.
La decisione dell'agente è sequenziale.
Non c'è un supervisore e l'agente non riceve istruzioni. Ci sono solo ricompense.
Le azioni dell'agente influenzano direttamente i dati successivi che riceve.
L'agente viene ricompensato (positivamente o negativamente) per ogni azione.
La migliore soluzione a un problema è decisa in base alla massima ricompensa.

L'obiettivo del reinforcement learning è scegliere l'azione migliore conosciuta per qualsiasi stato dato. Questo significa anche che le azioni devono essere classificate e assegnate valori relativi l'una all'altra. Poiché la migliore azione dipende dallo stato attuale dell'agente, l'attenzione è più sui valori delle coppie stato-azione.

Tuttavia, il reinforcement learning non è sempre la risposta a tutte le situazioni. Ad esempio, se hai abbastanza dati per risolvere un problema, l'apprendimento supervisionato sarà ideale. Inoltre, il reinforcement learning è un processo che richiede tempo e molte risorse computazionali.

Correlato: Scopri di più sul reinforcement learning dal feedback umano (RLHF) e su come aiuta ad addestrare grandi modelli di linguaggio (LLMs).

Elementi del reinforcement learning

Oltre all'agente e all'ambiente, ci sono quattro elementi critici nel reinforcement learning: politica, segnale di ricompensa, funzione di valore e modello.

1. Politica

La politica è la strategia che l'agente utilizza per determinare l'azione successiva in base allo stato attuale. È uno degli elementi critici del reinforcement learning e può definire da sola il comportamento dell'agente.

Una politica mappa gli stati percepiti dell'ambiente alle azioni intraprese su quegli stati particolari. Può essere deterministica o stocastica e può anche essere una semplice funzione o una tabella di consultazione.

2. Segnale di ricompensa

In ogni stato, l'agente riceve un segnale immediato dall'ambiente chiamato segnale di ricompensa o semplicemente ricompensa. Come menzionato in precedenza, le ricompense possono essere positive o negative, a seconda delle azioni dell'agente. Il segnale di ricompensa può anche costringere l'agente a cambiare la politica. Ad esempio, se le azioni dell'agente portano a ricompense negative, l'agente sarà costretto a cambiare la politica per il bene della sua ricompensa totale.

3. Funzione di valore

La funzione di valore fornisce informazioni su quanto siano favorevoli azioni specifiche e su quanta ricompensa l'agente può aspettarsi. In parole semplici, la funzione di valore determina quanto sia buono uno stato per l'agente. La funzione di valore dipende dalla politica dell'agente e dalla ricompensa, e il suo obiettivo è stimare i valori per ottenere più ricompense.

4. Modello

Il modello imita il comportamento dell'ambiente. Usando un modello, puoi fare inferenze sull'ambiente e su come si comporterà. Ad esempio, se viene fornito uno stato e un'azione, puoi usare un modello per prevedere lo stato successivo e la ricompensa.

Poiché il modello ti consente di considerare tutte le situazioni future prima di sperimentarle, puoi usarlo per la pianificazione. L'approccio utilizzato per risolvere i problemi di reinforcement learning con l'aiuto del modello è chiamato reinforcement learning basato su modello. D'altra parte, se provi a risolvere problemi di RL senza usare un modello, si chiama reinforcement learning senza modello.

Mentre l'apprendimento basato su modello cerca di scegliere la politica ottimale basata sul modello appreso, l'apprendimento senza modello richiede che l'agente impari dall'esperienza di tentativi ed errori. Statisticamente, i metodi senza modello sono meno efficienti dei metodi basati su modello.

Tipi di reinforcement learning

Ci sono due tipi di metodi di reinforcement learning: rinforzo positivo e rinforzo negativo.

Rinforzo positivo

Il rinforzo positivo è il processo di incoraggiare o aggiungere qualcosa quando viene esibito un modello di comportamento atteso per aumentare la probabilità che lo stesso comportamento venga ripetuto.

Ad esempio, se un bambino supera un test con voti impressionanti, può essere rinforzato positivamente con un cono gelato.

Rinforzo negativo

Il rinforzo negativo comporta l'aumento delle probabilità che un comportamento specifico si ripeta rimuovendo la condizione negativa.

Ad esempio, se un bambino fallisce un test, può essere rinforzato negativamente togliendogli i videogiochi. Questo non è precisamente punire il bambino per aver fallito, ma rimuovere una condizione negativa (in questo caso, i videogiochi) che potrebbe aver causato il fallimento del test.

Come funziona il reinforcement learning?

In parole semplici, il reinforcement learning è la ricerca di un agente di massimizzare la ricompensa che riceve. Non c'è nessun umano a supervisionare il processo di apprendimento, e l'agente prende decisioni sequenziali.

A differenza dell'apprendimento supervisionato, il reinforcement learning non richiede di etichettare i dati o correggere azioni subottimali. Invece, l'obiettivo è trovare un equilibrio tra esplorazione e sfruttamento.

Esplorazione è quando l'agente impara uscendo dalla sua zona di comfort, e farlo potrebbe mettere a rischio la sua ricompensa. L'esplorazione è spesso impegnativa ed è come entrare in un territorio inesplorato. Pensala come provare un ristorante in cui non sei mai stato. Nel migliore dei casi, potresti finire per scoprire un nuovo ristorante preferito e dare una gioia alle tue papille gustative. Nel peggiore dei casi, potresti finire per ammalarti a causa di cibo cucinato in modo improprio.

Sfruttamento è quando l'agente rimane nella sua zona di comfort e sfrutta la conoscenza attualmente disponibile. È privo di rischi poiché non c'è possibilità di attirare una penalità e l'agente continua a ripetere la stessa cosa. È come visitare il tuo ristorante preferito ogni giorno e non essere aperto a nuove esperienze. Certo, è una scelta sicura, ma potrebbe esserci un ristorante migliore là fuori.

Il reinforcement learning è un compromesso tra esplorazione e sfruttamento. Gli algoritmi di RL possono essere fatti per esplorare e sfruttare a vari gradi.

Il reinforcement learning è un processo iterativo. L'agente inizia senza alcun indizio sulle ricompense che può aspettarsi da specifiche coppie stato-azione. Impara mentre attraversa questi stati più volte e alla fine diventa esperto. In breve, l'agente inizia come un principiante e lentamente diventa un professionista.

Esempio di reinforcement learning

Poiché il reinforcement learning è il modo in cui la maggior parte degli organismi impara, diamo un'occhiata a come un cane impara nuovi trucchi e confrontiamoli con questo tipo di machine learning.

Charlie è un Golden Retriever. Come altri cani, non capisce l'inglese o qualsiasi lingua umana in sé, anche se può comprendere l'intonazione e il linguaggio del corpo umano con eccellente precisione.

Questo significa che non possiamo istruire direttamente Charlie su cosa fare, ma possiamo usare i premi per invogliarlo a fare qualcosa. Potrebbe essere qualsiasi cosa semplice come sedersi o rotolare su comando o stringere la mano. Per questo esempio, consideriamo l'"atto di stringere la mano".

Come probabilmente saprai, le regole sono piuttosto semplici. Se Charlie stringe la mano o fa qualcosa di simile, riceve un premio. Se non obbedisce o si comporta male, non riceverà alcun premio.

In altre parole, se Charlie esegue l'azione desiderata, riceve un premio; altrimenti, nessuno.

Dopo alcune iterazioni di "premio o nessun premio", Charlie riconoscerà il giusto insieme di azioni da eseguire per ottenere un premio. Quando si è comportato male, ha capito che tali azioni sfavorevoli portavano a conseguenze sfavorevoli. In futuro, quando Charlie si troverà in situazioni simili, saprà quale è l'azione più desiderabile da intraprendere per massimizzare il premio o la ricompensa.

“RL significa che l'AI può ora essere applicata a problemi di decisione sequenziale per raggiungere obiettivi strategici, a differenza dei compiti percettivi una tantum come il riconoscimento delle immagini.”
Chris Nicholson
Fondatore e CEO di Pathmind

Applicando il concetto di reinforcement learning a questo esempio, Charlie diventa l'agente. La casa in cui vive diventa il suo ambiente, e il premio che riceve è la sua ricompensa. Sedersi è uno stato, così come stringere la mano. La transizione da sedersi a stringere la mano può essere considerata un'azione.

Il tuo linguaggio del corpo e l'intonazione innescano l'azione (o, in questo contesto, la reazione). Il metodo di selezione di un'azione basata sullo stato che ti aiuterà a ottenere il miglior risultato è chiamato politica.

Ogni volta che Charlie compie l'azione desiderata e passa da uno stato (seduto) a un altro (stringere la mano), riceve un premio. Poiché Charlie è un bravo ragazzo, non lo puniamo se si comporta male. Invece di una penalità o punizione, non riceverà una ricompensa se non esegue l'azione desiderata, che è qualcosa di più vicino a una penalità.

Questo è molto simile a come un agente impara nel reinforcement learning.

Reinforcement learning nei giochi

I giochi e il reinforcement learning condividono una lunga storia. I giochi sono i domini ottimali e impegnativi per testare gli algoritmi di reinforcement learning.

Abbiamo tutti giocato a giochi per computer o videogiochi in qualche momento della nostra vita. Potrebbe essere stato uno dei giochi Atari a 8 bit, un gioco per console come Halo, o un gioco da tavolo come gli scacchi.

Indipendentemente dal gioco che hai giocato, potrebbe aver richiesto alcuni tentativi per capire le regole prima di vincere finalmente una partita. In breve, ci vuole tempo, strategia e pratica per diventare un professionista. E, naturalmente, c'è motivazione sotto forma di punti o ricompense nel gioco. Ricevi una ricompensa positiva quando completi una missione. Ottieni punti negativi se cadi da una scogliera o vieni arrestato perché il tuo livello di ricercato è più alto di quanto dovrebbe essere.

Indipendentemente dalla complessità del gioco, i concetti sopra rimangono universali. Se il tuo comportamento nel gioco è in linea con le istruzioni del gioco, guadagnerai punti e vincerai. Altrimenti, perderai punti e fallirai. Le stesse regole si applicano al reinforcement learning.

Diamo un'occhiata a come puoi insegnare a una macchina a giocare ai giochi.

Il cervello umano può naturalmente riconoscere lo scopo di un gioco, ma è difficile per le macchine. Potresti applicare l'apprendimento supervisionato per insegnare alle macchine, ma questo richiede dati di addestramento da giocatori umani precedenti. Poiché il nostro set di abilità alla fine raggiungerà un plateau, questo significa che l'agente RL non potrebbe mai diventare "migliore" di un umano.

Nel reinforcement learning, non c'è un dataset di addestramento né un valore di output. L'agente può naturalmente competere, fallire e imparare dai suoi errori basandosi sui valori di ricompensa e penalità. Prendiamo il gioco di Pong come esempio.

Fonte: ponggame.org

Lo scopo di Pong è far rimbalzare la palla con la tua racchetta in modo che finisca dietro l'avversario. Inizialmente, l'agente non capirà questo e fallirà numerose volte. Ma a un certo punto, farà una mossa corretta e sarà rinforzato positivamente per ripetere l'azione.

Dopo diverse partite di Pong, l'agente di reinforcement learning dovrebbe avere una comprensione generale della probabilità di muoversi SU con successo rispetto alla probabilità di muoversi GIÙ. Queste azioni sono rinforzate fino a quando la ricompensa totale è massimizzata. In termini di Pong, questo significa vincere la partita senza che l'avversario guadagni un solo punto.

Reinforcement learning e AlphaGo

AlphaGo è lo standard d'oro del reinforcement learning avanzato nei giochi. Sviluppato da DeepMind, questo programma di deep learning è diventato il miglior giocatore di Go al mondo sconfiggendo Ke Jie, uno dei migliori giocatori di Go al mondo.

Ecco uno sguardo rapido a come AlphaGo è diventato il campione del mondo:

AlphaGo, come qualsiasi agente di apprendimento, ha iniziato con zero conoscenze del gioco.
È stato poi alimentato con la struttura di base e la strategia del gioco utilizzando migliaia di esempi da giocatori amatoriali e professionisti.
Ha raggiunto un alto livello di abilità in tre giorni, e i tester hanno iniziato a far giocare il programma contro se stesso.
Questo ha portato a iterazioni costanti, rinforzo e abbinamento con algoritmi di ricerca.
AlphaGo è presto diventato una versione diversa e più avanzata di se stesso – Fan, Lee, Master e, infine, Zero.
AlphaGo Master ha gareggiato contro il miglior giocatore umano, il campione del mondo 18 volte Ke Jie.

In soli 40 giorni di auto-addestramento, AlphaGo Zero ha superato AlphaGo Master e ha raggiunto un punteggio Elo superiore a 5.000, che è essenzialmente a livelli sovrumani.

Processo decisionale di Markov: rappresentare RL matematicamente

Il processo decisionale di Markov (MDP) è il modo in cui i problemi di reinforcement learning sono rappresentati matematicamente. Viene utilizzato per formalizzare i problemi di RL, e se l'ambiente è completamente osservabile, può essere modellato utilizzando MDP.

In MDP, i seguenti parametri sono utilizzati per ottenere una soluzione per un problema di reinforcement learning:

Insieme di stati possibili - S
Insieme di modelli
Insieme di azioni possibili- A
Ricompensa - R
Politica
Valore - V

Lo stato dell'agente può essere rappresentato utilizzando lo stato di Markov. Lo stato di Markov segue la proprietà di Markov, il che significa che lo stato futuro è indipendente dal passato e può essere definito solo con il presente.

Supponiamo che l'agente RL si trovi in un ambiente labirinto composto da quattro righe e quattro colonne, che costituiscono un numero totale di 16 blocchi. Se l'agente si trova su un blocco particolare e i suoi due blocchi adiacenti hanno lo stesso valore assegnato (da non confondere con la ricompensa), sarà difficile per l'agente scegliere tra di loro.

In tali situazioni, viene utilizzata l'equazione di Bellman. È un costituente critico del reinforcement learning e aiuta a risolvere MDP. Risolvere significa trovare la politica ottimale e le funzioni di valore.

Gli elementi chiave dell'equazione di Bellman sono:

Azione
Stato
Ricompensa
Fattore di sconto

L'equazione di Bellman è anche associata alla programmazione dinamica. Viene utilizzata per calcolare i valori di un problema decisionale in un dato punto, considerando i valori degli stati precedenti. Con l'equazione, puoi scomporre problemi complessi in sottoproblemi più semplici e ricorsivi e trovare soluzioni ottimali.

Approcci per implementare il reinforcement learning

Ci sono generalmente tre modi per implementare un algoritmo di reinforcement learning: basato sul valore, basato sulla politica o basato sul modello. Questi approcci determinano come l'agente prenderà azioni e interagirà con l'ambiente.

Reinforcement learning basato sul valore

Questo approccio riguarda la ricerca della funzione di valore ottimale, che è essenzialmente il valore massimo in uno stato sotto qualsiasi politica.

Reinforcement learning basato sulla politica

In questo approccio, l'agente cerca di sviluppare una politica in modo che l'azione eseguita in ogni stato aiuti a massimizzare la ricompensa futura.

L'approccio basato sulla politica può essere ulteriormente suddiviso in due:

Deterministico: In questa suddivisione, la stessa azione è prodotta dalla politica in qualsiasi stato.
Stocastico: Qui, la probabilità determina l'azione prodotta.

Reinforcement learning basato sul modello

In questo approccio, viene creato un modello virtuale per ogni ambiente, e l'agente lo esplora per imparare. Poiché la rappresentazione del modello è diversa per ogni ambiente, non esiste un particolare algoritmo o soluzione di RL per questo approccio.

Algoritmi di reinforcement learning

Gli algoritmi di reinforcement learning possono essere classificati in due: algoritmi di RL senza modello e algoritmi di RL basati su modello. Q-learning e deep Q learning sono esempi di algoritmi di RL senza modello.

Q-learning

Q-learning è un metodo di RL basato sul valore per fornire informazioni. Viene utilizzato per l'apprendimento delle differenze temporali e determina quanto sia buona un'azione in uno stato particolare. Q-learning è un apprendimento off-policy, il che significa che l'agente imparerà la funzione di valore basata sull'azione derivata da un'altra politica.

Cos'è l'apprendimento delle differenze temporali?

L'apprendimento delle differenze temporali è un approccio per prevedere una quantità che dipende dai valori futuri di un segnale particolare.

Il Q-learning inizia con l'inizializzazione della tabella Q. Quindi l'agente seleziona un'azione e la esegue. La ricompensa per l'azione viene misurata, e quindi la tabella Q viene aggiornata. Una tabella Q è una tabella o matrice creata durante il Q-learning. Dopo ogni azione, la tabella viene aggiornata.

Nel Q-learning, l'obiettivo dell'agente è massimizzare il valore di Q. In questo metodo, l'agente si sforza di trovare la migliore azione da intraprendere in uno stato particolare. La Q sta per qualità, che indica la qualità dell'azione intrapresa dall'agente.

Metodo Monte Carlo

Il metodo Monte Carlo (MC) è uno dei modi migliori in cui un agente può ottenere la migliore politica per ottenere la massima ricompensa cumulativa. Questo metodo può essere utilizzato solo in compiti episodici, che sono compiti che hanno una fine definita.

Nel metodo MC, l'agente impara direttamente dagli episodi di esperienza. Questo significa anche che l'agente inizialmente non ha idea di quale azione porti alla massima ricompensa, quindi le azioni vengono scelte casualmente. Dopo aver selezionato un gruppo di politiche casuali, l'agente diventerà consapevole delle politiche che portano alle massime ricompense e migliorerà nella scelta delle politiche.

SARSA

State-action-reward-state-action (SARSA) è un metodo di apprendimento delle differenze temporali on-policy. Questo significa che impara la funzione di valore basata sull'azione corrente derivata dalla politica attualmente utilizzata.

SARSA riflette il fatto che la funzione principale utilizzata per aggiornare il valore Q dipende dallo stato corrente dell'agente (S), dall'azione scelta (A), dalla ricompensa che ottiene per l'azione (R), dallo stato in cui l'agente entra dopo aver eseguito l'azione (S), e dall'azione che esegue nel nuovo stato (A).

Rete neurale Q profonda

Rete neurale Q profonda (DQN) è il Q-learning con l'aiuto delle reti neurali. È ideale quando gli spazi di stato e azione sono significativi, poiché definire una tabella Q sarà un compito complesso e che richiede tempo. Invece di una tabella Q, le reti neurali determinano i valori Q per ogni azione basata sullo stato.

Applicazioni del reinforcement learning

Il reinforcement learning viene utilizzato per insegnare ai sistemi AI a giocare ai giochi. E stanno migliorando esponenzialmente. Oltre a ciò, viene utilizzato in finanza per valutare strategie di trading e può anche essere utilizzato in chimica per ottimizzare le reazioni chimiche. Le aziende possono anche utilizzare il deep reinforcement learning per insegnare ai robot a prendere e posizionare correttamente i beni.

Ecco ulteriori applicazioni del RL:

Pianificazione strategica aziendale
Controllo degli aerei e controllo del movimento dei robot
Automazione industriale
Elaborazione dei dati
NLP aumentato
Sistemi di raccomandazione
Offerte e pubblicità
Controllo dei semafori

Le sfide del reinforcement learning

Il reinforcement learning è un tipo potente di machine learning. Tuttavia, presenta anche alcune sfide correlate.

Innanzitutto, il reinforcement learning avviene in un ambiente di ritorno ritardato. Se il compito da svolgere è complesso, più tempo ci vorrà per l'agente per imparare e ottenere il massimo delle ricompense.

Ad esempio, un agente potrebbe impiegare alcune ore per imparare il gioco di Pong, ma AlphaZero ha impiegato 40 giorni e milioni di partite per padroneggiare Go. Sebbene sia ancora un risultato eccezionale, sembra una curva di apprendimento lenta quando si guarda alle applicazioni del mondo reale come la robotica.

Scalare o modificare le reti neurali che controllano l'agente è anche una grande sfida. Non ci sono altri mezzi per comunicare con l'agente se non le ricompense e le penalità. Questo significa anche che l'agente potrebbe trovare un modo per massimizzare le ricompense senza effettivamente completare la missione assegnata.

Glossario del reinforcement learning

L'intelligenza artificiale può essere un argomento piuttosto travolgente, specialmente quando si imparano nuovi termini. Ecco una revisione di alcuni dei termini usati nel reinforcement learning e cosa significano.

Agente: Il sistema AI che attraversa il processo di apprendimento. Chiamato anche l'apprendente o il decisore. L'algoritmo è l'agente.
Azione: L'insieme di tutte le mosse possibili che un agente può fare.
Ambiente: Il mondo attraverso il quale l'agente si muove e riceve feedback. L'ambiente prende lo stato attuale e l'azione dell'agente come input e poi restituisce la ricompensa e lo stato successivo.
Stato: Una situazione immediata in cui si trova l'agente. Può essere un momento o una posizione specifica nell'ambiente. Può anche essere una situazione attuale e futura. In parole semplici, è lo stato dell'agente nell'ambiente.
Ricompensa: Per ogni azione compiuta, l'agente riceve una ricompensa dall'ambiente. Una ricompensa potrebbe essere positiva o negativa, a seconda dell'azione.
Politica: La strategia che l'agente utilizza per determinare l'azione successiva in base allo stato attuale. In altre parole, mappa gli stati alle azioni in modo che l'agente possa scegliere l'azione con la ricompensa più alta.
Modello: La visione dell'agente dell'ambiente. Mappa le coppie stato-azione alle distribuzioni di probabilità sugli stati. Tuttavia, non tutti gli agenti di RL utilizzano un modello del loro ambiente.
Funzione di valore: In termini semplici, la funzione di valore rappresenta quanto sia favorevole uno stato per l'agente. Il valore dello stato rappresenta la ricompensa a lungo termine che l'agente riceverà a partire da quello stato particolare per eseguire una politica specifica.
Fattore di sconto: Il fattore di sconto (γ) determina quanto l'agente si preoccupa delle ricompense nel lontano futuro rispetto a quelle nel futuro immediato. È un valore compreso tra zero e uno. Se il fattore di sconto è uguale a 0, l'agente imparerà solo azioni che producono ricompense immediate. Se è uguale a 1, l'agente valuterà le sue azioni basandosi sulla somma delle sue ricompense future.
Programmazione dinamica (DP): Una tecnica algoritmica utilizzata per risolvere un problema di ottimizzazione scomponendolo in sottoproblemi. Segue il concetto che la soluzione ottimale al problema generale dipende dalla soluzione ottimale ai suoi sottoproblemi.

Se questi termini ti sopraffanno, pensa a cosa sarebbe il reinforcement learning nella vita reale. L'agente sei tu, e l'ambiente sono i tuoi dintorni e le leggi della fisica come la gravità.

Se stai imparando a camminare, lo stato potrebbe essere la posizione delle tue gambe. Se prendi l'azione migliore, ottieni una ricompensa, che è camminare per alcuni passi. Altrimenti, ottieni una penalità, che in questo caso significa cadere e farti male.

È tempo di gioco per i robot

Gli esseri umani amano le ricompense. La gamification è il modo più semplice per invogliarci a completare un compito senza sentirci demotivati. È il motivo per cui giocare a uno sport sembra più divertente che allenarsi in palestra.

Il reinforcement learning sta attirando gli agenti AI a prendere le decisioni giuste in cambio di ricompense. Non abbiamo ancora sentito cosa pensano i robot della gamification, ma speriamo che gli piaccia.

Alcuni dicono che sia l'ultima invenzione di cui avremo mai bisogno. Alcuni pensano che sia un obiettivo irraggiungibile. Si chiama intelligenza generale artificiale e, in effetti, sarebbe la nostra più grande invenzione o la più grande minaccia di sempre.

Amal Joby

Amal is a Research Analyst at G2 researching the cybersecurity, blockchain, and machine learning space. He's fascinated by the human mind and hopes to decipher it in its entirety one day. In his free time, you can find him reading books, obsessing over sci-fi movies, or fighting the urge to have a slice of pizza.

Esplora altri articoli di G2

Studi di contabilità a Chicago

Piattaforme di Ricerca Utente

Software AI più efficace per migliorare le vendite

Quale piattaforma offre le migliori analisi per le prestazioni della pratica?