DeepSeek, a fondo: cómo es la Inteligencia Artificial con la que China desafía a Estados Unidos
- 2 Horas, 57 Minutos
- LaTercera.com
- Noticias
DeepSeek, a fondo: cómo es la Inteligencia Artificial con la que China desafía a Estados Unidos
En menos de un mes, DeepSeek, un proyecto secundario de un pequeño laboratorio de Inteligencia Artificial (IA) de China, cuyo ícono es una ballena, ha golpeado duramente el tablero geopolítico de la IA.
El primer mazazo vino para la Navidad de 2024, ese día DeepSeek lanzó su modelo de IA —llamado V3—, y aseguró haber logrado un nivel de inteligencia comparable a ChatGPT, con una inversión de apenas cinco millones de dólares.
El segundo golpe fue todavía más grande. Ocurrió el pasado 20 de enero, mientras Donald Trump comenzó su segundo mandato como presidente de Estados Unidos, y anunció junto a Sam Altman la puesta en marcha del proyecto Stargate, la mayor inversión de la historia en IA, unos 500 mil millones de dólares.
Acaso como una respuesta, ese mismo día DeepSeek puso al aire un nuevo modelo de IA, el DeepSeek-R1.
🛠️ DeepSeek-R1: Technical Highlights
— DeepSeek (@deepseek_ai) January 20, 2025
📈 Large-scale RL in post-training
🏆 Significant performance boost with minimal labeled data
🔢 Math, code, and reasoning tasks on par with OpenAI-o1
📄 More details: https://t.co/jWMxMVhGAQ
🐋 4/n pic.twitter.com/mIUBn3qJhQ
La pequeña empresa asiática usó las mismas mediciones (benchmark) de ChatGPT para probar que su modelo R1, pese a las restricciones de EE.UU. a China en la compra de chips de gama alta de NVIDIA, es tan bueno como el o1 de OpenAI.
Pero además, DeepSeek añadió una diferencia decidora que acabaría por derrumbar el valor de varias compañías norteamericanas en la bolsa.
Mientras, usar el o1 de OpenAI cuesta 200 dólares al mes, DeepSeek-R1 es completamente gratis.
Este avance también ha causado una onda expansiva en Silicon Valley, ya que desafía la creencia prevaleciente de que se necesitan inversiones masivas para lograr capacidades avanzadas de IA.
Qué es DeepSeek y cómo funciona el modelo DeepSeek-R1
DeepSeek es un proyecto de un laboratorio de Inteligencia Artificial en China, de no más de 200 empleados, que es propietario de dos modelos de IA.
El primero, llamado V3, apareció en Navidad, y un segundo aparecido más recientemente el DeepSeek-R1, que fue estrenado el pasado 20 de enero.
El modelo de IA DeepSeek-R1 fue entrenado en apenas dos meses utilizando técnicas innovadoras y el hardware disponible con las limitaciones impuestas a China por el gobierno estadounidense.
La empresa utilizó un enfoque de “aprendizaje profundo” para entrenar su modelo, explica en su canal de YouTube el experto español Gustavo Entrala, que implica alimentar el modelo con grandes cantidades de datos para que pueda aprender a identificar patrones y hacer predicciones.
El chatbot de DeepSeek-R1 está disponible para cualquier usuario en el sitio deepseek.com y también en la APP DeepSeek disponible para equipos Android y iPhone, de manera gratuita.
🎉 Introducing DeepSeek App!
— DeepSeek (@deepseek_ai) January 15, 2025
💡 Powered by world-class DeepSeek-V3
🆓 FREE to use with seamless interaction
📱 Now officially available on App Store & Google Play & Major Android markets
🔗Download now: https://t.co/DIwqqkbK93
🌟 1/3 pic.twitter.com/QorHk2lEwj
¿Qué restricciones impone Estados Unidos a China en la “guerra fría de la Inteligencia Artificial”?
Estados Unidos impuso duras restricciones a China en la llamada “guerra fría de la IA”, lo que suponía haber dejado muy atrás al país asiático en términos de plazos.
Y a las empresas chinas muy por debajo de las empresas tecnológicas norteamericanas en términos de equipamiento.
El que China no contase con la última tecnología disponible en Estados Unidos, suponía que demoraría más tiempo en alcanzar a las empresas norteamericanas responsables de modelos de IA como ChatGPT (OpenAI), Llama (Meta) o xAI de Elon Musk.
En rigor, Estados Unidos considera que los chips más avanzados para la IA, en particular los de NVIDIA, suponen un bien estratégico en un contexto de guerra fría con China, en ámbitos como el comercio, las armas y la tecnología.
Dice Entrala que se espera que cuando la IA se aplique al armamento militar, marcará la diferencia y hasta el momento de la aparición de DeepSeek, parecía que Estados Unidos llevaba la delantera en “al menos 5 años”.
Las limitaciones introducidas por la administración de Joe Biden, sometieron a los chips de NVIDIA al control de exportaciones de Estados Unidos a China.
Debido a esta medida, NVIDIA comenzó a fabricar chips para IA solamente para el mercado chino.
Así surgieron los chips H800, el equivalente al H100, el chip más utilizado a día de hoy en los data centers de IA en Estados Unidos.
Pero los chips H800 tienen limitaciones, como el volumen de datos que pueden manejar y la velocidad de transferencia.
Son mucho menos capaces que los más avanzados chips de NVIDIA, pero además no son baratos. Un solo chip H800 ha alcanzado a cotizarse en el mercado chino en más de $70.000 dólares.
Para hacerse una idea del trabajo de DeepSeek, en la documentación para el modelo V3, la empresa china sostiene que ha empleado un clúster, o un grupo de chips interconectados, de 2.048 chips H800 de NVIDIA.
Lo que en costos supone un 3% de lo que a OpenAI le costó entrenar el modelo 01. Y también muy lejos de los mil millones de dólares que Elon Musk invirtió para construir su data center Colossus, o los quinientos mil millones de dólares que costará el anuncio de Trump Stargate.
¿DeepSeek es peor que ChatGPT o Gemini por la baja potencia de los chips?
La respuesta es no.
La calidad de un modelo de IA se mide a través de lo que se conoce como benchmark, o métricas de comparación.
Hay varios estándares de comparación, pero lo paradójico de DeepSeek es que para medir la calidad de sus modelos utilizó el benchmark de OpenAI.
O sea que la empresa china ha usado el propio sistema de comparación de OpenAI para medirse contra OpenAI.
El benchmark de OpenAI se compone de un test de matemáticas, que es el estándar AIME (American Invitational Mathematics Examination), otro de biología, física y química llamado GPQA (Graduate-Level Google-Proof Q&A), y dos test de programación más un tercero de lógica y razonamiento llamado Zebra.
En comparación con el modelo o1, el más avanzado de OpenAI, DeepSeek-R1 queda prácticamente empatado, como se puede en el siguiente gráfico:
🚀 DeepSeek-R1 is here!
— DeepSeek (@deepseek_ai) January 20, 2025
⚡ Performance on par with OpenAI-o1
📖 Fully open-source model & technical report
🏆 MIT licensed: Distill & commercialize freely!
🌐 Website & API are live now! Try DeepThink at https://t.co/v1TFy7LHNy today!
🐋 1/n pic.twitter.com/7BlpWAPu6y
¿Cómo DeepSeek ha superado las limitaciones de hardware?
La empresa china ha entrenado sus modelos introduciendo innovaciones importantes en los algoritmos, logrando optimizar la capacidad de los chips que disponen.
DeepSeek ha empleado una técnica llamada destilación, en donde un modelo aprendiz dialoga con un modelo existente. Los dos modelos dialogan a través de preguntas, millones de preguntas, y el aprendiz va destilando el conocimiento del modelo mayor.
Sobre este primer punto, OpenAI ha denunciado que DeepSeek ha entrenado su modelo utilizando ChatGPT o1, y que cuenta con evidencia.
A la hora de diseñar un modelo que puede reflexionar y es capaz de elaborar una respuesta mucho más certera, el modelo R1 también ha usado una técnica para que piense por sí mismo, llamada Reinforcement learning.
Y han simplificado la computación necesaria para hacer inferencia, que es lo que pasa cuando hacemos una consulta a una IA. Cada vez que hacemos una pregunta a un chatbot, estamos generando inferencia. Y DeepSeek ha conseguido simplificar la inferencia aplicando técnicas de compresión nuevas.
¿Quién está detrás de DeepSeek?
DeepSeek es un proyecto secundario de una organización llamada High-Flyer, que opera fondos de inversión cuánticos y gestiona unos 8.000 millones de dólares en activos, según cifras de The Wall Street Journal.
La firma lleva años utilizando la IA para tomar decisiones de inversión.
Liang Wenfeng, el fundador de DeepSeek, es un ingeniero y experto en matemáticas que se ha dedicado a gestionar inversiones.
Nació en 1985 y creció en Sanyang, una de las ciudades portuarias de la costa sur de China que ha comerciado con el mundo durante siglos.
Obtuvo calificaciones sobresalientes en el colegio y fue a la Universidad de Shenyang, en China.
Durante su época como estudiante universitario, comenzó a escribir algoritmos de IA para seleccionar acciones.
En 2015, fundó High-Flyer con dos compañeros de universidad y se estima que en ese punto adquirió sus primeros chips de NVIDIA.
Con High-Flyer comenzó a contratar a estudiantes chinos de posgrados de IA para ponerlos a trabajar en un modelo de inteligencia artificial general, a otro nivel con respecto a los actuales.
En 2024 dijo a la publicación china 36Kr: “Para los tecnólogos, que otros sigan tu trabajo da una gran sensación de logro. El código abierto es más una cultura que un comportamiento comercial, y contribuir a él nos hace ganar respeto”.
A finales de 2022, cuando OpenAI estrenó su primer modelo de ChatGPT, apenas unas pocas empresas chinas tenían más de 10.000 chips de alta gama de dicha empresa.
High-Flyer era una de ellas.
En entrevista con 36Kr, Liang afirmó que: “Es como comprar un piano. En primer lugar, es porque te lo puedes permitir. Y en segundo lugar, es porque tienes un grupo de personas que están ansiosas por tocar música en él”.
¿Cómo queda el tablero de la Inteligencia Artificial en el mundo?
Salvo contadas excepciones, como Aleph Alpha en Alemania o el modelo Mistral en Francia, se pensaba que Estados Unidos tenía el dominio absoluto de la IA generativa.
La aparición de DeepSeek significa que, aunque Estados Unidos sigue siendo el líder, China ha demostrado que se puede replicar la calidad de los mejores modelos en menos tiempo que antes y con menos recursos.
Esto tiene importantes implicaciones para el futuro del desarrollo de la IA, ya que significa que más empresas y organizaciones podrán desarrollar sus propios modelos de IA, con menores costos de entrenamiento y en menores plazos.
Lo que supone que la competencia se amplía, ya que un modelo de código abierto con la capacidad de DeepSeek-R1, que es totalmente gratuito, impulsará que otras compañías elaboren modelos abiertos de gran capacidad.
El éxito de DeepSeek también tiene implicaciones geopolíticas. Equilibra la balanza en innovación en IA entre Estados Unidos y el resto del mundo.
China ahora tiene un modelo de IA que es comparable a GPT de OpenAI, lo que podría dar al gigante asiático una ventaja en la carrera por la inteligencia artificial.
Además, ahora cualquier país podrá desarrollar su propio modelo de IA, pese a las restricciones de Estados Unidos en la venta de chips de gama alta y en conocimiento de que los costos de entrenamiento son mucho más bajos.
Comentarios