Los modelos de lenguaje grande (LLM) son sistemas avanzados de inteligencia artificial (IA) diseñados específicamente para comprender, interpretar y generar texto similar al humano a partir de una amplia gama de entradas. Aprovechando técnicas de aprendizaje automático (ML) de última generación, conjuntos de datos de entrenamiento masivos y arquitecturas de transformadores, estos modelos pueden realizar tareas que van desde la traducción, resumen, respuesta a preguntas y conversación hasta aplicaciones más matizadas como el análisis de sentimientos, clasificación de texto y generación de contenido creativo. Los LLM a menudo se integran en aplicaciones y sistemas existentes para automatizar tareas que requieren mucho lenguaje, como potenciar interfaces conversacionales y apoyar ideas impulsadas por el razonamiento.
Los LLM se diferencian de los modelos de lenguaje pequeño (SLM) principalmente en la escala, especialmente en el conteo de parámetros y el volumen de datos de entrenamiento utilizados. Los LLM generalmente tienen tamaños de parámetros que van desde 10 mil millones hasta billones de parámetros, y los SLM tienen unos pocos millones hasta más de 10 mil millones de tamaños de parámetros. Esta categoría también difiere de la categoría de software de chatbots de IA, que se centra en plataformas independientes que permiten a los usuarios interactuar y comprometerse con modelos de lenguaje grande, y la categoría de software de medios sintéticos, que consiste en herramientas para que los usuarios empresariales creen medios generados por IA. Estas soluciones de LLM, en cambio, están diseñadas para ser más versátiles y fundamentales y pueden integrarse en una amplia gama de aplicaciones, no solo limitadas a chatbots o medios sintéticos.
Los LLM son típicamente de código abierto o de código cerrado/propietario. Los modelos de código abierto son descargables y modificables libremente, con pesos de modelo y códigos de entrenamiento disponibles públicamente. Los LLM de código cerrado no tienen el código fuente y los pesos del modelo disponibles públicamente para descargar, y solo están disponibles a través de API o puntos finales. Además, algunos LLM tienen capacidades de razonamiento, que ayudan a descomponer problemas complejos, aplicar lógica y seguir procesos de pensamiento para trazar una solución. Los LLM sin capacidades de razonamiento, también conocidos como modelos base, se centran en predicciones del siguiente token para predecir patrones. Las capacidades de razonamiento pueden ser más lentas y deliberadas, mientras que los LLM sin razonamiento son más rápidos.
Para calificar para la inclusión en la categoría de Modelos de Lenguaje Grande (LLM), un producto debe:
Ofrecer un modelo de lenguaje a gran escala capaz de comprender y generar texto similar al humano a partir de una variedad de entradas, disponible para uso comercial
Proporcionar un modelo de lenguaje que tenga un tamaño de parámetro superior a 10 mil millones, en comparación con los modelos de lenguaje pequeño de menos de 10 mil millones de parámetros
Proporcionar API robustas y seguras o herramientas de integración, permitiendo a las empresas de varios sectores incorporar sin problemas el modelo en sus sistemas o procesos existentes
Tener mecanismos integrales para abordar posibles problemas relacionados con la privacidad de los datos, el uso ético y la moderación de contenido, asegurando la confianza del usuario y el cumplimiento normativo
Ofrecer soporte al cliente confiable y documentación extensa, junto con actualizaciones y mejoras consistentes, ayudando así a los usuarios en la integración y uso efectivo del modelo, al tiempo que asegura su relevancia continua y adaptabilidad a los requisitos cambiantes