Phi 3 small 128k no es la única opción para Modelos de Lenguaje Pequeños (SLMs). Explora otras opciones y alternativas competidoras. Otros factores importantes a considerar al investigar alternativas a Phi 3 small 128k incluyen fiabilidad y facilidad de uso. La mejor alternativa general a Phi 3 small 128k es StableLM. Otras aplicaciones similares a Phi 3 small 128k son Mistral 7B, bloom 560m, granite 3.1 MoE 3b, y Llama 3.2 1b. Se pueden encontrar Phi 3 small 128k alternativas en Modelos de Lenguaje Pequeños (SLMs).
StableLM 3B 4E1T es un modelo de lenguaje base solo de decodificación preentrenado en 1 billón de tokens de diversos conjuntos de datos en inglés y código durante cuatro épocas. La arquitectura del modelo está basada en transformadores con Embeddings de Posición Rotatoria parciales, activación SwiGLU, LayerNorm, etc.
Mistral-7B-v0.1 es un modelo pequeño, pero poderoso, adaptable a muchos casos de uso. Mistral 7B es mejor que Llama 2 13B en todos los puntos de referencia, tiene habilidades de codificación natural y una longitud de secuencia de 8k. Está lanzado bajo la licencia Apache 2.0, y lo hicimos fácil de implementar en cualquier nube.

Por Meta
MPT-7B es un transformador de estilo decodificador preentrenado desde cero en 1T tokens de texto en inglés y código. Este modelo fue entrenado por MosaicML. MPT-7B es parte de la familia de modelos MosaicPretrainedTransformer (MPT), que utilizan una arquitectura de transformador modificada y optimizada para un entrenamiento e inferencia eficientes. Estos cambios arquitectónicos incluyen implementaciones de capas optimizadas para el rendimiento y la eliminación de los límites de longitud de contexto al reemplazar los embeddings posicionales con Atención con Sesgos Lineales (ALiBi). Gracias a estas modificaciones, los modelos MPT pueden ser entrenados con alta eficiencia de rendimiento y convergencia estable. Los modelos MPT también pueden ser servidos eficientemente con tanto las tuberías estándar de HuggingFace como el FasterTransformer de NVIDIA.