Modelos de linguagem pequenos (SLM) são modelos de linguagem de inteligência artificial (IA) otimizados para eficiência, especialização e implantação em ambientes com recursos limitados e restrições de computação. Semelhante aos modelos de linguagem grandes (LLMs), os SLMs também são projetados para entender, interpretar e gerar saídas semelhantes às humanas a partir de uma ampla gama de entradas. Aproveitando técnicas eficientes de aprendizado de máquina (ML), arquiteturas simplificadas e conjuntos de dados especializados, esses modelos são frequentemente reaproveitados para realizar uma seleção de tarefas a fim de maximizar a eficiência dos recursos. Os SLMs podem ser essenciais para organizações que necessitam de implantação de modelos de IA de forma econômica e rápida.
Devido às suas arquiteturas otimizadas, os SLMs podem ser implantados em dispositivos de borda, plataformas móveis e sistemas offline, facilitando a implantação acessível de IA. Os SLMs diferem dos LLMs, que se concentram em modelos de linguagem abrangentes e de propósito geral que lidam com tarefas complexas e diversas em vários domínios. Os SLMs são projetados para serem re-treinados para maximizar a especialização e a eficiência dos recursos, focando em aplicações direcionadas em vez de inteligência ampla.
Uma diferença chave entre SLMs e LLMs é o tamanho dos seus parâmetros, que é um indicador direto de sua base de conhecimento e potencial de raciocínio. Os tamanhos de parâmetro dos SLMs geralmente variam de alguns milhões a mais de 10 bilhões. Enquanto os LLMs têm tamanhos de parâmetro que variam de 10 bilhões a trilhões de parâmetros. Na prática, alguns SLMs também são derivados de LLMs através de métodos como quantização ou destilação, que reduzem o tamanho do modelo para eficiência, mas não alteram os dados de treinamento originais. Os SLMs diferem dos chatbots de IA, que fornecem a plataforma voltada para o usuário, em vez dos modelos fundamentais em si.
Para se qualificar para inclusão na categoria de Modelos de Linguagem Pequenos (SLM), um produto deve:
Oferecer um modelo de linguagem compacto que seja otimizado para eficiência de recursos e tarefas especializadas e capaz de compreender e gerar saídas semelhantes às humanas
Conter 10 bilhões de parâmetros ou menos, enquanto os LLMs excedem esse limite de 10 bilhões de parâmetros
Proporcionar flexibilidade de implantação para ambientes com recursos limitados, como dispositivos de borda, plataformas móveis ou hardware de computação
Ser projetado para otimização específica de tarefas através de ajuste fino, especialização de domínio ou treinamento direcionado para aplicações de negócios específicas
Manter eficiência computacional com tempos de inferência rápidos, requisitos de memória reduzidos e menor consumo de energia em comparação com os LLMs