

Améliorer l'efficacité de l'entraînement des réseaux neuronaux avec des méthodes algorithmiques qui offrent rapidité, augmentent la qualité et réduisent les coûts.

MPT-7B est un transformateur de type décodeur préentraîné à partir de zéro sur 1T de tokens de texte et de code en anglais. Ce modèle a été entraîné par MosaicML. MPT-7B fait partie de la famille des modèles MosaicPretrainedTransformer (MPT), qui utilisent une architecture de transformateur modifiée optimisée pour un entraînement et une inférence efficaces. Ces changements architecturaux incluent des implémentations de couches optimisées pour la performance et l'élimination des limites de longueur de contexte en remplaçant les embeddings positionnels par l'Attention avec Biais Linéaires (ALiBi). Grâce à ces modifications, les modèles MPT peuvent être entraînés avec une efficacité de débit élevée et une convergence stable. Les modèles MPT peuvent également être servis efficacement avec les pipelines standard de HuggingFace et le FasterTransformer de NVIDIA.
MosaicML is a company dedicated to advancing the field of artificial intelligence through innovative machine learning technology. Their primary focus is on making machine learning models more efficient and accessible, aiming to accelerate AI research and its application in various industries. MosaicML combines groundbreaking research with practical engineering to create tools and technologies that optimize machine learning workflows and reduce computational costs. The solutions they offer help businesses and developers harness the power of AI more efficiently, enabling faster development and deployment of AI applications.