MPT-7B ist ein Decoder-Transformer, der von Grund auf mit 1T Tokens englischen Texts und Codes vortrainiert wurde. Dieses Modell wurde von MosaicML trainiert. MPT-7B ist Teil der Familie der MosaicPretrainedTransformer (MPT)-Modelle, die eine modifizierte Transformer-Architektur verwenden, die für effizientes Training und Inferenz optimiert ist. Diese architektonischen Änderungen umfassen leistungsoptimierte Schichtimplementierungen und die Beseitigung von Kontextlängenbeschränkungen durch den Ersatz von Positions-Embeddings mit Attention with Linear Biases (ALiBi). Dank dieser Modifikationen können MPT-Modelle mit hoher Durchsatzeffizienz und stabiler Konvergenz trainiert werden. MPT-Modelle können auch effizient mit sowohl den standardmäßigen HuggingFace-Pipelines als auch mit NVIDIAs FasterTransformer bereitgestellt werden.