Llama 4 Maverick 17B Instruct (128E) ist ein hochkapazitives multimodales Sprachmodell, das von Meta entwickelt wurde, um sowohl Text- als auch Bildeingaben zu verarbeiten und mehrsprachige Text- und Codeausgaben in 12 Sprachen zu generieren. Es basiert auf einer Mischung-aus-Experten (MoE) Architektur mit 128 Experten und aktiviert 17 Milliarden Parameter pro Vorwärtsdurchlauf von insgesamt 400 Milliarden, was eine effiziente Verarbeitung gewährleistet. Optimiert für visuelle Sprachaufgaben, ist Maverick anweisungsoptimiert, um assistenzähnliches Verhalten zu zeigen, Bildverarbeitung durchzuführen und allgemeine multimodale Interaktionen zu erleichtern. Es verfügt über eine frühe Fusion für native Multimodalität und unterstützt ein Kontextfenster von bis zu 1 Million Tokens. Trainiert auf etwa 22 Billionen Tokens aus einer kuratierten Mischung aus öffentlichen, lizenzierten und Meta-Plattform-Daten, mit einem Wissensstopp im August 2024, wurde Maverick am 5. April 2025 unter der Llama 4 Community License veröffentlicht. Es ist gut geeignet für Forschungs- und kommerzielle Anwendungen, die fortgeschrittenes multimodales Verständnis und hohe Modell-Durchsatzraten erfordern.
Hauptmerkmale und Funktionalität:
- Unterstützung für multimodale Eingaben: Verarbeitet sowohl Text- als auch Bildeingaben, was umfassende Verständnis- und Generierungsfähigkeiten ermöglicht.
- Mehrsprachige Ausgabe: Generiert Text- und Codeausgaben in 12 Sprachen, darunter Arabisch, Englisch, Französisch, Deutsch, Hindi, Indonesisch, Italienisch, Portugiesisch, Spanisch, Tagalog, Thai und Vietnamesisch.
- Mischung-aus-Experten-Architektur: Nutzt 128 Experten mit 17 Milliarden aktiven Parametern pro Vorwärtsdurchlauf, optimiert die Recheneffizienz und Leistung.
- Anweisungsoptimiert: Feinabgestimmt für assistenzähnliches Verhalten, Bildverarbeitung und allgemeine multimodale Interaktionen, was seine Anwendbarkeit über verschiedene Aufgaben hinweg verbessert.
- Erweitertes Kontextfenster: Unterstützt eine Kontextlänge von bis zu 1 Million Tokens, was die Verarbeitung umfangreicher und komplexer Eingaben erleichtert.
Primärer Wert und Benutzerlösungen:
Llama 4 Maverick 17B Instruct adressiert die wachsende Nachfrage nach fortschrittlichen KI-Modellen, die in der Lage sind, Inhalte über mehrere Modalitäten und Sprachen hinweg zu verstehen und zu generieren. Seine multimodalen und mehrsprachigen Fähigkeiten machen es zu einem unschätzbaren Werkzeug für Entwickler und Forscher, die an Anwendungen arbeiten, die ein nuanciertes Sprachverständnis, Bildverarbeitung und Codegenerierung erfordern. Die anweisungsoptimierte Natur des Modells stellt sicher, dass es eine breite Palette von Aufgaben mit hoher Genauigkeit ausführen kann, von der Funktion als intelligenter Assistent bis hin zur Ausführung komplexer Denkaufgaben. Seine effiziente Architektur und das erweiterte Kontextfenster ermöglichen die Verarbeitung von groß angelegten Dateneingaben, was es sowohl für Forschungs- als auch für kommerzielle Anwendungen geeignet macht, die hohe Durchsatzraten und fortgeschrittenes multimodales Verständnis erfordern.