o3 puntúa tan alto como programadores humanos en un de razonamiento y abstracción. Es justo lo que OpenAI necesita

o3 puntúa tan alto como programadores humanos en un de razonamiento y abstracción. Es justo lo que OpenAI necesita

El lanzamiento el pasado viernes de o3 quizás pasó algo desapercibido ante la avalancha de lanzamientos de OpenAI. En parte porque apareció quizás demasiado rápido —o1 apenas fue lanzado tres meses antes— y en parte porque no está aún disponible para el público. Y aun así todo lo que nos llega nos hace pensar que estamos ante un modelo muy especial.

Cautela y expectación en OpenAI. Curiosamente en OpenAI el discurso es relativamente moderado. Sam Altman habló incluso más de o3-mini, la versión reducida, con menor latencia y coste, de o3. Según él, será una verdadera maravilla para programar. Retuiteó un mensaje de uno de los investigadores de OpenAI, Nat McAleese, que destacó en un hilo sus grandes prestaciones en las pruebas. Él calificó el modelo resultante de "muy, muy impresionante".

Swe Fuente: The Algorithmic Bridge

Programación. Hasta no hace mucho, nos parecía que GPT-4o programaba bien. En el benchmark SWE-bench Verified, con preguntas típicas de ingenieros software, este modelo puntuaba con un 31%. Como indican en The Algorithmic Bridge, con o1 se logra alcanzar el 31%, pero atentos, porque Claude Sonnet 3.5 logra un 50,8% y Gemini 2.0 Flash un 51,8%. Son puntuaciones fantásticas, pero o3 logra un 71,7%. Es un salto sencillamente extraordinario que no se había visto antes en este tipo de benchmark.

Pero aún hay más. Hay otro benchmark llamativo: el test de Codeforces, que se centra en pruebas de programación "competitiva" asignando un ELO a aquellos programadores —humanos o máquinas— que superan esas pruebas. OpenAI logró 2.727 puntos con o3, la puntuación que en el ranking actual ocuparía la posición 175: solo hay esos programadores —entre quienes han realizado la prueba— que superan el nivel de este modelo a la hora de programar. Deepmind Alphacode 2, que fue entrenado específicamente para este propósito y se lanzó en diciembre de 2023, estuvo en el percentil 87. O3 está en el percentil 99,7.

Doctor en ciencias. En junio Claude Sonnet 3.5 y GPT-40 superaban el 50% por poco en el test de preguntas científicas GPQA Diamond. O1 llega al 78%, pero o3 ya ha logrado un 87,7%. El nivel de los doctorados suele rondar de media el 70%.

Captura De Pantalla 2024 12 23 A Las 16 38 11

Un genio de las mates. En matemáticas las pruebas estaban algo obsoletas, pero una empresa llamada Epoch AI creó un nuevo benchmark llamado FrontierMath que es tan duro que hasta los mejores matemáticos creen que no podrá ser superado por la IA fácilmente. Terence Tao, que ganó la medalla Fields en 2006 ("el Nobel de las matemáticas") indicó que la IA tardaría varios años en superarlas. Pues bien, hasta ahora los modelos de IA más avanzados (State-of-The-Art) lograban como mucho un 2% en ese test, pero o3 ha logrado un 25,2%.

Y luego está ARC-AGI. Sin embargo, la más prometedora de las pruebas es ARC-AGI, un benchmark creado originalmente por François Chollet en 2019 y que se ha convertido en el referente que demuestra la paradoja de Moravec. Son pruebas que a los seres humanos nos parecen triviales, pero que las máquinas normalmente no pueden resolver. Chollet es el creador del ARC Prize, una competición en la que se mide la "inteligencia" entendida como "la capacidad de un sistema para adaptarse a nuevos problemas que no ha visto antes y que sus creadores (los desarrolladores) no anticiparon".

o3 es muy, muy bueno en ARC-AGI. GPT-3 en 2020 lograba un 0% de puntuación, y GPT-4o logró un 5% en dicha prueba. Con o1 ya hubo un salto increíble al lograr un 32%, pero es que o3 ha logrado un increíble 87,5% (eso sí, a un coste de miles de dólares por tarea) y un 75,7% en modo de "baja computación" (20 dólares por tarea).

¿Es esto AGI? La pregunta que algunos plantean es si esto hace que o3 pueda ser considerado una inteligencia artificial general (AGI). Chollet cree que no, y de hecho explica que o3 sigue sin resolver algunas tareas triviales para los humanos, pero es que están trabajando en una segunda versión de ARC-AGI-2 que afirma "seguirá siendo extremadamente difícil" para o3.

Todo por confirmar. Los benchmarks tienen el problema de que son eso: benchmarks. Pruebas sintéticas que se ajustan a situaciones muy específicas, y que pueden no ser demasiado fiables como medida del rendimiento en un uso cotidiano de estos modelos. Y sin embargo, sabiendo cómo de bien se comportan ya o1, Claude 3.5 Sonnet o Gemini 2.0 Flash en ámbitos como el de la programación, los resultados de o3 son realmente prometedores. No solo eso: la evolución de estos modelos de razonamiento está siendo especialmente frenética, y lo demuestra el hecho de que o3 haya aparecido tan solo tres meses después que o1.

¿Y el precio, qué? Por lo que apunta Chollet, el precio de o3 será astronómico si lo queremos usar con todas sus prestaciones, y es posible que se trata de una versión del servicio muy especial que OpenAI solo ofrecerá en ámbitos muy concretos. Pero parece que o3-mini será mucho más asequible y eficiente, de modo que podemos esperar que lo que ahora se paga por o1 de forma ilimitada con la suscripción a ChatGPT Pro (200 dólares al mes) sea lo que acabe costando el acceso a o3 mini. Se espera que OpenAI lo ofrezca en el primer trimestre de 2025, y también que para entonces otros modelos de este tipo compitan con o3-mini y o3.

Una IA más precisa, eficiente y capaz que nunca. Lo que todo esto plantea es el acceso a unos modelos de IA que son más eficientes e incluso más baratos que nunca si lo que queremos es resolver ciertos tipos de problema. Parece que programadores e investigadores tienen en estos modelos una prometedora herramienta, pero parece que a priori tendremos al menos dos grandes vertientes de la IA. Por un lado los ChatGPT/Gemini/Claude actuales y sus evoluciones, más destinados a un uso rápido y con cierta tolerancia a errores. Por otro, modelos que "razonan" como o1 u o3, más caros, precisos y que tardan más en contestar pero que son muy potentes en ciertas áreas.

OpenAI hace bien en diversificar. Y justo por eso OpenAI tiene aquí una interesante forma de atacar al mercado con modelos distintos para distintas necesidades. Eso le permitirá además establecer distintos planes y precios —ya vimos cómo planea ir subiendo el precio de las suscripciones— y justificarlos precisamente con el acceso a unos y otros. Una estrategia razonable que desde luego puede acabar funcionando para lograr algo que necesita a toda costa: ingresos.

En Xataka | Sam Altman se postula como el Zuckerberg de la IA: está cada vez más solo, y que OpenAI triunfe o fracase será cosa suya

-
La noticia o3 puntúa tan alto como programadores humanos en un de razonamiento y abstracción. Es justo lo que OpenAI necesita fue publicada originalmente en Xataka por Javier Pastor .

Fuente

Xataka.com

Xataka.com

Lo + visto

Comentarios

Escribe un comentario