Stable LM 2 12B ist ein 12,1 Milliarden Parameter umfassendes, nur dekodierendes Sprachmodell, das von Stability AI entwickelt wurde. Es wurde mit 2 Billionen Tokens aus vielfältigen mehrsprachigen und Code-Datensätzen über zwei Epochen vortrainiert und ist darauf ausgelegt, kohärenten und kontextuell relevanten Text für verschiedene Anwendungen zu generieren. Das Modell verwendet eine Transformer-Dekoder-Architektur mit 40 Schichten, einer versteckten Größe von 5120 und 32 Aufmerksamkeitsköpfen und unterstützt eine Sequenzlänge von bis zu 4096 Tokens. Zu den wichtigsten Merkmalen gehören die Verwendung von Rotary Position Embeddings für eine verbesserte Durchsatzrate, parallele Aufmerksamkeits- und Feed-Forward-Residual-Schichten mit einer einzigen Eingabe-LayerNorm und die Entfernung von Bias-Begriffen aus Feed-Forward-Netzwerken und gruppierten Abfrage-Selbstaufmerksamkeitsschichten. Darüber hinaus nutzt es den Arcade100k-Tokenizer, einen BPE-Tokenizer, der von OpenAI's tiktoken.cl100k_base erweitert wurde, wobei Ziffern in einzelne Tokens aufgeteilt werden, um das numerische Verständnis zu verbessern. Der primäre Wert von Stable LM 2 12B liegt in seiner Fähigkeit, qualitativ hochwertigen, kontextuell angemessenen Text zu generieren, was es für eine Vielzahl von Aufgaben der natürlichen Sprachverarbeitung geeignet macht, einschließlich der Erstellung von Inhalten, der Code-Generierung und mehrsprachigen Anwendungen.