Stable LM 2 12B è un modello linguistico di decodifica con 12,1 miliardi di parametri sviluppato da Stability AI. Pre-addestrato su 2 trilioni di token provenienti da dataset multilingue e di codice diversi per due epoche, è progettato per generare testo coerente e contestualmente rilevante in varie applicazioni. Il modello impiega un'architettura di decodifica transformer con 40 strati, una dimensione nascosta di 5120 e 32 teste di attenzione, supportando una lunghezza di sequenza fino a 4096 token. Le caratteristiche principali includono l'uso di Rotary Position Embeddings per migliorare il throughput, strati di attenzione parallela e feed-forward residuali con un singolo LayerNorm di input, e la rimozione dei termini di bias dalle reti feed-forward e dai livelli di auto-attenzione a query raggruppate. Inoltre, utilizza il tokenizer Arcade100k, un tokenizer BPE esteso dal tiktoken.cl100k_base di OpenAI, con cifre divise in token individuali per migliorare la comprensione numerica. Il valore principale di Stable LM 2 12B risiede nella sua capacità di generare testo di alta qualità e contestualmente appropriato, rendendolo adatto a una vasta gamma di compiti di elaborazione del linguaggio naturale, inclusa la creazione di contenuti, la generazione di codice e le applicazioni multilingue.