China sigue pisando el acelerador con la IA. Lo demuestra el nuevo y gigantesco modelo de DeepSeek

1 Días, 18 Horas, 24 Minutos
Xataka.com
Tecnología

Una startup china llamada DeepSeek acaba de lanzar DeepSeek V3, un LLM absolutamente gigantesco que está disponible con una licencia MIT "abierta" que permite a los desarrolladores descargarlo de GitHub y modificarlo para diversos escenarios, incluyendo algunos comerciales.

Rendimiento prometedor. Según las pruebas internas, DeepSeek V3 supera a modelos de IA Open Source como a otros propietarios y que solo pueden usarse a través de una API. En pruebas como la de programación de Codeforces el modelo chino logró superar a Llama 3.1 405B, a GPT-4o y a Qwen 2.5 72B, aunque todos ellos tienen muchos menos parámetros y eso puede influir en el rendimiento y las comparaciones. Solo Claude 3.5 Sonnet parece resistir su capacidad, y superó o igualó al modelo chino en varias pruebas.

Captura De Pantalla 2024 12 27 A Las 13 06 41

Entrenamiento eficiente y barato pero voraz. Según sus responsables, DeepSeek V3 "solo" necesitó 2,788 millones de horas de entrenamiento en 2.048 GPUs H800, las versiones capadas de las H100 de NVIDIA. Según sus responsables el entrenamiento costó tan solo 5,5 millones de dólares, y se estima que para entrenar GPT-4 OpenAI invirtió cerca de 80 millones de dólares. Para entrenarlo utilizaron un conjunto de datos (dataset) con 14,8 billones de tokens, una cifra igualmente enorme: un millón de tokens equivale aproximadamente a 750.000 palabras. Andrej Karpathy, cofundador de OpenAI (desde hace meses fuera de la empresa) se mostró sorprendido por esa eficiencia y reducido coste del entrenamiento.

Un 60% más grande que Llama 3.1 405B. Meta tenía hasta ahora uno de los modelos de IA más grandes del mercado con 405.000 millones de parámetros (405B). El modelo de DeepSeek llega a los 671B, casi un 66% más. La pregunta, claro, es si tantos parámetros sirven de algo.

En Xataka

China tiene un plan para ganar la carrera y el control por la IA. Está en las antípodas del europeo

Cuantos más parámetros, (normalmente) mejor. El número de parámetros suele tener una fuerte relación con la capacidad de los modelos. Los modelos de IA que corren localmente en nuestros PCs o móviles suelen tener muchos menos (3B, 7B, 14B suelen ser sus tamaños) y los que se ejecutan en centros de datos son capaces de ser mucho más grandes y capaces tanto en precisión como en opciones y potencia, como ocurre con DeepSeek V3. Pero claro, cuanto más grandes son más recursos de computación necesitan para ser usados con cierta fluidez.

Dos innovaciones para lograr mejorar. DeepSeek V3 hace uso de una arquitectura Mixture-of-Experts que solo activa algunos parámetros de forma óptima para procesar diversas tareas de forma eficiente. Sus responsables han introducido dos mejoras llamativas en este nuevo modelo. La primera, una estrategia de balanceo de carga que monitoriza y ajusta la carga en los "expertos". La segunda, un sistema de predicción de tokens. La combinación de ambas permite que la generación de tokens triplique la de DeepSeek V2: ahora llega a 60 tokens por segundo al usar el mismo hardware que su predecesor.

China coge carrerilla. Este nuevo modelo "abierto" es la última demostración del gran avance que China está haciendo a pesar de los cortapisas de la guerra comercial con Estados Unidos. DeepSeek ya nos sorprendió hace poco más de un mes con su modelo DeepSeek-R1, capaz de competir con o1 de OpenAI en el ámbito del "razonamiento" por IA. Y otras startups y grandes empresas de tecnología chinas siguen trabajando de forma frenética, y los frutos son visibles y prometedores. Y además, con un enfoque Open Source que los hace especialmente interesantes para investigadores y académicos.

Imagen | Xataka con Freepik Pikasso

En Xataka | China iba a la zaga en IA, pero no para de lanzar modelos cada vez más avanzados. Y muy socialistas

-
La noticia China sigue pisando el acelerador con la IA. Lo demuestra el nuevo y gigantesco modelo de DeepSeek fue publicada originalmente en Xataka por Javier Pastor .

ver noticia completa

Autoridades de Gaza elevan a más de 45.500 los muertos por la ofensiva de Israel contra la Franja

La energía nuclear vive una segunda juventud en Europa: Francia abrirá otra central 25 años después

En 1647 el Parlamento británico prohibió celebrar las Navidades. Solo consiguió llenar el país de revueltas

China sigue pisando el acelerador con la IA. Lo demuestra el nuevo y gigantesco modelo de DeepSeek

Xataka.com

Comentarios

Escribe un comentario

>Autoridades de Gaza elevan a más de 45.500 los muertos…

>La energía nuclear vive una segunda juventud en Europa: Francia…

>En 1647 el Parlamento británico prohibió celebrar las Navidades. Solo…

Trending

Los más leidos

Fuentes

Fuentes

Fuentes

Fuentes

Fuentes

Fuentes

Comentarios

Escribe un comentario

>Autoridades de Gaza elevan a más de 45.500 los muertos…

>La energía nuclear vive una segunda juventud en Europa: Francia…

>En 1647 el Parlamento británico prohibió celebrar las Navidades. Solo…