Kleine Sprachmodelle (SLM) sind künstliche Intelligenz (KI) Sprachmodelle, die für Effizienz, Spezialisierung und Einsatz in ressourcenbeschränkten und rechenlimitierten Umgebungen optimiert sind. Ähnlich wie große Sprachmodelle (LLMs) sind SLMs ebenfalls darauf ausgelegt, menschliche Ausgaben aus einer Vielzahl von Eingaben zu verstehen, zu interpretieren und zu generieren. Durch den Einsatz effizienter maschineller Lerntechniken, schlanker Architekturen und spezialisierter Datensätze werden diese Modelle oft umfunktioniert, um eine ausgewählte Reihe von Aufgaben auszuführen, um die Ressourceneffizienz zu maximieren. SLMs können für Organisationen, die eine kostengünstige und schnelle Bereitstellung von KI-Modellen benötigen, unerlässlich sein.
Aufgrund ihrer optimierten Architekturen können SLMs auf Edge-Geräten, mobilen Plattformen und Offline-Systemen eingesetzt werden, was eine zugängliche KI-Bereitstellung erleichtert. SLMs unterscheiden sich von LLMs, die sich auf umfassende, allgemeine Sprachmodelle konzentrieren, die komplexe, vielfältige Aufgaben in mehreren Domänen bewältigen. SLMs sind darauf ausgelegt, neu trainiert zu werden, um Spezialisierung und Ressourceneffizienz zu maximieren, wobei der Fokus auf gezielten Anwendungen statt auf breiter Intelligenz liegt.
Ein wesentlicher Unterschied zwischen SLMs und LLMs ist ihre Parametergröße, die ein direkter Indikator für ihre Wissensbasis und ihr Denkpotenzial ist. SLM-Parametergrößen reichen typischerweise von einigen Millionen bis über 10 Milliarden. Während LLMs Parametergrößen von 10 Milliarden bis zu Billionen von Parametern haben. In der Praxis werden einige SLMs auch aus LLMs durch Methoden wie Quantisierung oder Destillation abgeleitet, die die Modellgröße zur Effizienzsteigerung reduzieren, aber die ursprünglichen Trainingsdaten nicht ändern. SLMs unterscheiden sich von KI-Chatbots, die die benutzerorientierte Plattform bereitstellen, anstatt die grundlegenden Modelle selbst.
Um in die Kategorie der kleinen Sprachmodelle (SLM) aufgenommen zu werden, muss ein Produkt:
Ein kompaktes Sprachmodell anbieten, das für Ressourceneffizienz und spezialisierte Aufgaben optimiert ist und in der Lage ist, menschliche Ausgaben zu verstehen und zu generieren
Weniger als 10 Milliarden Parameter enthalten, während LLMs diese Schwelle von 10 Milliarden Parametern überschreiten
Bereitstellungsflexibilität für ressourcenbeschränkte Umgebungen wie Edge-Geräte, mobile Plattformen oder Computerhardware bieten
Für aufgabenspezifische Optimierung durch Feinabstimmung, Domänenspezialisierung oder gezieltes Training für spezifische Geschäftsanforderungen ausgelegt sein
Recheneffizienz mit schnellen Inferenzzeiten, reduziertem Speicherbedarf und geringerem Energieverbrauch im Vergleich zu LLMs aufrechterhalten