Hace ocho años, cuando Nvidia aún era una compañía que hacía gráficas para videojuegos, la compañía apuntó a algo que está empezando a entrar en la conversación: la robótica física. Son los robots con inteligencia artificial integrada para comportarse de forma autónoma. Como un ChatGPT con brazos, oídos y ojos. Ha llovido mucho desde entonces y es ahora cuando estamos empezando a entrar en ese futuro. Sin embargo, Nvidia ha seguido experimentando con esa forma de hacer que el mundo físico y digital converjan, y su último producto es Nemotron 3 Nano Omni.
Un modelo de IA que ve, escucha y lee el mundo físico.
Modelos Omni. Estos modelos son multimodales, pero en un sentido mucho más estricto. Mientras los modelos que solemos usar a diario necesitan de canales separados para procesar y generar audio, texto, imagen y vídeo, un modelo omni está diseñado para ser intrínsecamente multimodal. Esto implica que utilizan una arquitectura de red neuronal única entrenada de extremo a extremo para que la interacción entre modelos y estímulos sea más natural, veloz y capaz de reconocer más matices.
Un ejemplo es una IA que puede “ver” lo que captura una cámara, analizar toda la situación y dar un feedback al usuario de una forma más rápida que una que puede hacer lo mismo, pero cuyo modelo de texto tiene que preguntar al de vídeo qué ha visto para, después, generar el contenido. En menos palabras aún: imita mejor la forma en la que los humanos percibimos y respondemos a los estímulos del mundo.
Integración. Y eso es lo que Nvidia afirma que puede hacer Nemotron 3 Nano Omni. En la misma arquitectura, es un modelo que integra capacidades de visión, audio y lenguaje para eliminar el flujo de trabajo fragmentado de los actuales agentes de IA. Según la compañía, está construido sobre una arquitectura híbrida de mezcla de expertos (las IAs entrenadas en diversas materias) con 30.000 millones de parámetros, de los cuales 3.000 millones son para inferencia.
Se ha diseñado como un modelo nueve veces más rápido que los modelos separados y que tiene tres veces más rendimiento que otros modelos omni abiertos consumiendo 2,75 veces menos capacidad de cómputo en tareas como el razonamiento a partir de un vídeo.
Vale, pero para qué. Esa es la pregunta clave, más allá de los números y de las capacidades en bruto de esta tecnología. Los casos de uso que detalla la compañía son los siguientes:
Para profesionales. Lo que está claro es que Nemotron 3 Nano Omni no es algo que se lance con el objetivo de que sea algo para las masas como otros modelos de IA que vemos a diario. Nvidia lo enfoca en algo empresarial, una herramienta a la que acceder a través de plataformas como Hugging Face y para implementarse en sistemas locales como DGX Spack o Jetson. Es decir, no es algo al alcance de cualquiera.
Lo interesante es que es una tecnología que está empujando fuerte la narrativa de los agentes como entes omnipotentes, y cuadra con el discurso más reciente de Jensen Huang, CEO de la compañía, de que la IA no llegará para quitarnos el trabajo, sino para ‘micromanagearnos’.
Imagen | Nvidia
En Xataka | Hay una empresa que ha crecido un 3.000% en bolsa batiendo incluso el rendimiento de Nvidia: Sandisk
-
La noticia
Nvidia no solo es el pegamento de la IA: ahora tiene un modelo omnipotente que lee, ve y escucha. Todo a la vez
fue publicada originalmente en
Xataka
por
Alejandro Alcolea
.
completa toda los campos para contáctarnos