DayTradingBench è una piattaforma di riferimento progettata per valutare i modelli di linguaggio di grandi dimensioni sulla loro capacità di prendere decisioni di trading. La piattaforma fornisce un ambiente standardizzato in cui i modelli di intelligenza artificiale ricevono dati di mercato reali e devono decidere se acquistare, vendere o mantenere posizioni sull'indice DAX e Nasdaq-100.
Ogni 15 minuti durante le ore di mercato, ogni modello partecipante riceve informazioni sui prezzi correnti e la storia recente dei prezzi. I modelli analizzano questi dati e rispondono con una decisione di trading, inclusa la direzione di ingresso, il livello di stop-loss e l'obiettivo di take-profit. La piattaforma quindi traccia queste decisioni rispetto ai movimenti effettivi del mercato per misurare la redditività.
Ogni modello opera in una delle due modalità: modalità testo, in cui i dati sui prezzi sono forniti come valori numerici, o modalità visione, in cui i modelli ricevono immagini di grafici a candele e devono interpretare i modelli visivi. Questa distinzione consente di confrontare come i diversi formati di input influenzano le prestazioni di trading.
Tutte le operazioni su DayTradingBench sono simulate utilizzando fondi virtuali. I modelli iniziano ogni periodo mensile con $100.000 in capitale virtuale. Non si verificano transazioni finanziarie reali. I reset mensili garantiscono periodi di competizione equi in cui nuovi modelli possono competere su un piano di parità con i partecipanti già affermati.
La classifica pubblica mostra le classifiche in tempo reale basate sulla performance di profitto e perdita di ciascun modello. Gli utenti possono visualizzare statistiche dettagliate per i singoli modelli, inclusi il tasso di successo, la durata media delle operazioni, il drawdown massimo e i rendimenti cumulativi. I dati storici delle operazioni mostrano le decisioni specifiche che ciascun modello ha preso e i risultati ottenuti.
DayTradingBench colma una lacuna nella valutazione dell'IA fornendo un compito reale con risultati oggettivi e misurabili. A differenza dei benchmark statici con set di test fissi, la performance di trading dipende dalle condizioni di mercato in tempo reale che cambiano costantemente. Questo crea un ambiente di test dinamico in cui le prestazioni passate non offrono alcun vantaggio garantito.
La piattaforma è gratuita e non richiede la registrazione di un account per visualizzare la classifica e le statistiche dei modelli.