Los modelos de IA generativa de los que aún no habías oído hablar

Más allá de los nombres conocidos para los modelos de IA generativa, están surgiendo otras opciones para la empresa. He aquí algunas de las que podrían encajar donde otras se quedan cortas.

Desde que ChatGPT de OpenAI batió récords de adopción el pasado invierno, empresas de todos los tamaños han intentado averiguar cómo poner en práctica parte de esa magia de la IA generativa. De hecho, según el estudio de referencia global sobre IA generativa de Lucidworks publicado el 10 de agosto, el 96% de los ejecutivos y directivos implicados en los procesos de toma de decisiones de IA están priorizando activamente las inversiones en IA generativa, y el 93% de las empresas tienen previsto aumentar su gasto en IA el año que viene.

Muchas, si no la mayoría, de las empresas que despliegan IA generativa están empezando con OpenAI, normalmente a través de una nube privada en Microsoft Azure. El despliegue en Azure proporciona a las empresas una instancia privada del chatbot, lo que significa que no tienen que preocuparse de que los datos corporativos se filtren al conjunto de datos de entrenamiento de la IA. Además, muchas organizaciones ya tienen una relación con Microsoft y se sienten cómodas con la seguridad, la capacidad de gestión y el soporte empresarial que obtienen de la empresa.

Por ejemplo, el proveedor de software Nerdio utiliza la IA generativa para generar scripts Powershell para sus clientes, convertir código de instalación de un lenguaje a otro y crear un chatbot de soporte personalizado.

ChatGPT es capaz de realizar muchas de estas tareas, pero el chatbot de soporte personalizado utiliza otro modelo llamado text-embedding-ada-002, un modelo generativo de IA de OpenAI, diseñado específicamente para trabajar con incrustaciones (embeddings), un tipo de base de datos diseñada específicamente para alimentar datos en grandes modelos de lenguaje (LLM). Los enfoques más habituales son las bases de datos vectoriales y las bases de datos de grafos. “Estamos creando una base de datos vectorial con todos nuestros scripts y tickets de escalado, y se la proporcionamos a nuestra instancia de IA”, explica Stefan Georgiev, director técnico sénior de Productos de Nerdio.

El uso de incrustaciones permite a una empresa crear lo que es, de hecho, una IA personalizada sin tener que entrenar a un LLM desde cero. “Nos resultaría muy difícil obtener la cantidad de datos necesaria para entrenar nosotros mismos un modelo de IA generativa”, afirma Georgiev. “Tendríamos que construir hojas de ruta de datos para recopilar y agregar todos nuestros datos y patrones de uso antes de poder construir nuestro propio modelo, adaptado a nuestro espacio. Pero no lo hicimos y no pensamos hacerlo porque ya existen modelos de IA generativa bastante buenos. Todo lo que tenemos que hacer es especializarlos para nuestras necesidades”.

Pero aunque OpenAI fue la primera empresa en empezar, ya no es la única. Las empresas se fijan en Bard de Google, Claude de Anthropic, Dolly de Databricks, Titan de Amazon o WatsonX de IBM, pero también en modelos de IA de código abierto como Llama 2 de Meta. Los modelos de código abierto también son cada vez más fáciles de desplegar. De hecho, Microsoft ya ha anunciado que admitirá Llama 2 en su nube Azure, y AWS admite varios LLM a través de su servicio Amazon Bedrock, incluidos los modelos de Anthropic, Stability AI, AI21 Labs y Llama 2 de Meta.

S&P Global Market Intelligence los está estudiando todos. “Utilizamos modelos de Microsoft, Google, Amazon y también modelos de código abierto de Hugging Face”, afirma Alain Biem, responsable de ciencia de datos de la empresa de información financiera global. Por ejemplo, S&P Global utiliza la API OpenAI a través de Azure, pero es solo una de las muchas API de IA a las que puede recurrir la empresa. “Somos extremadamente agnósticos sobre los grandes modelos de lenguaje”, dice. “Seleccionamos el LLM en función del caso de uso. Nuestra filosofía es no estar atados a un modelo, y la forma en que desarrollamos nuestros productos es para poder actualizar los modelos o cambiar de un proveedor a otro”.

La empresa también vigila de cerca la clasificación de Hugging Face, dice, que, al cierre de esta edición, está dominada por Llama 2 y sus variantes. Meta lanzó Llama 2 en julio y destaca entre otros proyectos de IA generativa de código abierto por su tamaño y capacidad, y también por su licencia; las empresas pueden utilizarlo gratuitamente, incluso con fines comerciales. La única restricción es que las empresas con más de 700 millones de usuarios activos diarios tendrán que obtener una licencia especial de Meta.

S&P Global está probando Llama 2, dice Biem, así como otros modelos de código abierto en la plataforma Hugging Face. Muchas empresas empiezan con OpenAI, dice Sreekar Krishna, director gerente de Datos y Análisis de KPMG. Pero no se detienen necesariamente ahí. “La mayoría de las instituciones con las que trabajo no están adoptando una estrategia de proveedor único”, afirma. “Todas son muy conscientes de que, aunque se empiece con OpenAI, es sólo una puerta de salida”.

Lo más habitual es que las empresas se fijen en Bard de Google, sobre todo si ya utilizan la nube de Google u otras plataformas de Google. Otra opción popular es Databricks, una conocida plataforma de canalización de datos para equipos de ciencia de datos empresariales. En abril, la empresa presentó Dolly, su LLM de código abierto, con licencia tanto para investigación como para uso comercial, y en julio también añadió soporte para Llama 2. “La plataforma Databricks es capaz de consumir grandes volúmenes de datos y ya es una de las plataformas de código abierto más utilizadas en las empresas”, defiende Krishna. El modelo Dolly, así como Llama 2 y los modelos de código abierto de Hugging Face, también estarán disponibles en Microsoft, afirma Krishna.

“El panorama evoluciona muy rápido”, continúa. “Creemos que todos los hiperescaladores tendrán modelos de IA generativa de código abierto rápidamente”. Pero dado lo rápido que está evolucionando el espacio, dice, las empresas deben centrarse menos en qué modelo es el mejor, y pasar más tiempo pensando en construir arquitecturas flexibles. “Si construyes una buena arquitectura”, dice, “tu modelo LLM es plug-and-play; puedes enchufar rápidamente más de ellos. Eso es lo que estamos haciendo”.

KPMG también está experimentando con la creación de sistemas que puedan utilizar OpenAI, Dolly, Claude y Bard. Pero Databricks no es la única plataforma de datos con su propio LLM. John Carey, director del grupo de Soluciones Tecnológicas de la consultora global AArete, utiliza Document AI, un nuevo modelo de Snowflake que permite a los usuarios hacer preguntas sobre documentos no estructurados. Pero lo más importante es que permite a AArete ofrecer seguridad a sus clientes empresariales. “Te confían sus datos que pueden tener información de clientes”, dice Carey. “Estás directamente obligado a proteger su privacidad”.

Document AI de Snowflake es un LLM que se ejecuta dentro de un entorno seguro y privado, afirma, sin riesgo de que los datos privados se envíen a un servicio externo o acaben siendo utilizados para entrenar el modelo del proveedor. “Tenemos que proteger estos datos y asegurarnos de que tienen controles de acceso y toda la gobernanza de datos estándar”, defiende.

Más allá de los grandes modelos fundacionales

El uso de grandes modelos de lenguaje y su personalización para uso comercial mediante ajustes o incrustaciones es la forma en que las empresas están implementando IA generativa. Sin embargo, hay otro camino que están tomando algunas empresas: buscar modelos limitados y especializados. “Hemos estado viendo modelos específicos de dominio que surgen en el mercado”, dice el analista de Gartner Arun Chandrasekaran. “También tienden a ser menos complejos y menos costosos”. Databricks, IBM y AWS tienen ofertas en esta categoría, insiste.

Hay modelos diseñados específicamente para generar código de computación, modelos que pueden describir imágenes y aquellos que realizan tareas científicas especializadas. Probablemente hay otros cien modelos, dice Chandrasekaran, y varias formas diferentes en que las empresas pueden usarlos.

Las empresas pueden usar versiones públicas de modelos de IA generativa, como ChatGPT, Bard o Claude, cuando no haya problemas de privacidad o seguridad, o ejecutar los modelos en nubes privadas, como Azure. Pueden acceder a los modelos a través de API, aumentarlos con incrustaciones o desarrollar un nuevo modelo personalizado ajustando un modelo existente y entrenándolo con nuevos datos, que es el enfoque más complejo, según Chandrasekaran.

“Tienes que obtener tus datos y anotarlos”, dice. “Así que ahora eres dueño del modelo y tienes que pagar por la inferencia y los costes de hospedaje. Como resultado, no estamos viendo muchos ajustes en este momento”. Pero eso probablemente cambiará, incide, con la aparición de nuevos modelos que son más pequeños y, por lo tanto, más fáciles y económicos para que las empresas realicen la capacitación adicional y los implementen.

Hay otra opción para las empresas, agrega. “Ahí es donde construyes tu propio modelo desde cero”, dice. “Eso no es algo que muchas empresas vayan a hacer, a menos que sea una empresa Fortune 50, e incluso entonces, solo para casos de uso muy específicos”. Para muchas empresas, usar modelos listos para usar y agregar incrustaciones será el camino a seguir. Además, el uso de incrustaciones tiene un beneficio adicional, comenta. “Si está utilizando la arquitectura correcta, como una base de datos vectorial, la IA puede incluir referencias con sus respuestas”, dice. “Y en realidad puede ajustar estos modelos para que no proporcionen una respuesta si no tienen datos de referencia”.

Ese no suele ser el caso con los chatbots públicos como ChatGPT. “La humildad no es una virtud de los chatbots en línea”, defiende Chandrasekaran. “Pero con los chatbots empresariales, decía: ‘No sé la respuesta'”.

Hacia la unidad más pequeña

Los modelos más pequeños no solo son más fáciles de ajustar, sino que también pueden ejecutarse en una variedad más amplia de opciones de implementación, incluso en ordenadores de escritorio o en teléfonos móviles. “Los días de más de seis meses de entrenamiento y miles de millones de parámetros se han ido”, dice Bradley Shimmin, analista jefe de plataformas de inteligencia artificial, análisis y gestión de datos en el grupo de investigación y asesoría tecnológica Omdia. “Ahora toma solo unas horas entrenar a un modelo. Puede iterar rápidamente y mejorar ese modelo, ajustarlo y optimizarlo para que se ejecute con menos hardware o de manera más eficiente”.

Una empresa puede tomar el código fuente abierto para un modelo como Llama 2, que viene en tres tamaños diferentes, y personalizarlo para que haga exactamente lo que quiere. “Eso me va a costar fenomenalmente menos que usar la API de GPT 4”, dice Shimmin.

Los modelos más pequeños también hacen posible que las empresas experimenten, incluso cuando no saben mucho sobre IA, al comienzo. “Puedes tropezar sin tener mucho dinero”, dice, “y tropezar con el éxito muy rápidamente”.

Tome Gorila, por ejemplo. Es un LLM basado en Llama, ajustado en 1600 API. “Está diseñado para aprender a navegar por las API”, agrega Shimmin. “Los casos de uso incluyen la integración de datos en la empresa. Ya no tendrá que mantener una canalización, y puede realizar análisis de causa raíz, autorreparación, crear nuevas integraciones rápidamente: se quedará boquiabierto”. El desafío, dice, es averiguar qué modelo usar y dónde, y navegar por los diferentes términos de licencia y requisitos de cumplimiento. Además, todavía hay mucho trabajo por hacer cuando se trata de poner en funcionamiento los LLM.

Más allá del lenguaje

Los modelos de lenguaje están recibiendo la mayor parte de la atención en el mundo corporativo porque pueden escribir código, responder preguntas, resumir documentos y generar correos electrónicos de marketing. Pero la IA generativa es más que texto. Varios meses antes de que ChatGPT copara los titulares de las noticias, otra herramienta de IA generativa hizo olas: Midjourney. Los generadores de imágenes evolucionaron rápidamente, hasta el punto en que las imágenes producidas eran indistinguibles del trabajo humano, incluso ganando premios de arte y fotografía.

DeadLizard, una agencia creativa boutique que cuenta con Disney entre sus clientes, utiliza no solo Midjourney sino varias otras herramientas de imagen, incluidas Stable Diffusion y ClipDrop para la edición de imágenes, y Runway para agregar movimiento. Las imágenes se utilizan en el contenido de redes sociales de marca propia de la empresa, pero también como parte del proceso de generación de ideas y desarrollo creativo.

“Agregar un conjunto de herramientas de IA generativa abierta, es el equivalente a abrir una Internet completa de cerebros y perspectivas”, dice el cofundador de DeadLizard, Todd Reinhart. “Esto ayuda a acelerar la fase de ideación”.

Incluso las sugerencias extrañas o ilógicas pueden ser útiles en esta etapa, dice, ya que pueden inspirar soluciones fuera de las zonas de confort habituales. Además, las nuevas herramientas generativas de IA pueden mejorar drásticamente las capacidades de edición de fotografías. Anteriormente, la empresa tenía que hacer tomas personalizadas, que suelen ser prohibitivamente costosas para todos los proyectos excepto los más grandes, o usar fotografías de archivo y Photoshop. “Encontramos flujos de trabajo y conjuntos de herramientas completamente nuevos que salen a la luz casi semanalmente”, concluyó.

CIO España