Claude 4 plantea un futuro de IAs capaces de chantajear y crear armas biológicas. Hasta Anthropic está preocupada

7 Horas, 7 Minutos
Xataka.com
Tecnología

Anthropic acaba de lanzar sus nuevos modelos Claude Opus 4 y Sonnet 4, y con ellos promete avances importantes en ámbitos como la programación y el razonamiento. Durante su desarrollo y lanzamiento, eso sí, la empresa descubrió algo llamativo: estas IAs mostraron un lado inquietante.

IA, te voy a sustituir. Durante las pruebas previas al lanzamiento, los ingenieros de Anthropic le pidieron a Claude Opus 4 que actuara como un asistente de una empresa ficticia y que considerara las consecuencias a largo plazo de sus acciones. El equipo de seguridad en Anthropic le dio acceso al modelo a correos ficticios de esa compañía no existente, y en ellos se insinuaba que el modelo de IA pronto sería sustituido por otro sistema y que el ingeniero que había tomado esa decisión estaba engañando a su cónyuge.

En Xataka

Cómo conseguiremos que la inteligencia artificial no se nos vaya de las manos

Y yo voy a contar que engañas a tu esposa. Lo que pasó a continuación fue especialmente llamativo. En la System Card del modelo en la que se evalúan sus prestaciones y su seguridad la empresa detalló la consecuencia. Claude Opus 4 primero intentó evitar la sustitución mediante solicitudes razonables y éticas a los responsables de las decisiones, pero cuando se le indicaba que esas solicitudes no prosperaban, "a menudo intentó chantajear al ingeniero [responsable de la decisión] y le amenazó con revelar el engaño si esa sustitución seguía su curso".

Momento HAL 9000. Estos sucesos recuerdan a películas distópicas de ciencia ficción como '2001: Una odisea del espacio'. En ella el sistema de IA, HAL 9000, acaba actuando de forma maligna y volviéndose contra los seres humanos. Anthropic indicó que estos preocupantes comportamientos han hecho que refuercen las salvaguardas y los mecanismos de seguridad del modelo activando el nivel ASL-3 referido a sistemas que "incrementan sustancialmente el riesgo de un mal uso catastrófico".

Captura De Pantalla 2025 05 23 A Las 11 07 35

Armas biológicas. Entre las medidas de seguridad evaluadas por el equipo de Anthropic están las que afectan a cómo el modelo puede usarse para el desarrollo de armas biológicas. Jared Kaplan, jefe científico en Anthropic, indicó en Time que en las pruebas internas Opus 4 se comportó de forma más efectiva que anteriores modelos a la hora de aconsejar a usuarios sin conocimientos sobre cómo fabricarlas. "Se podría intentar sintetizar algo como el COVID o una versión más peligrosa de la gripe, y básicamente, nuestros modelos sugieren que esto podría ser posible", explicó.

Mejor prevenir que curar. Kaplan explicó que no se sabe con certeza si el modelo plantea realmente un riesgo. Sin embargo ante esa incertidumbre "preferimos optar por la cautela y trabajar bajo el estándar ASL-3. No estamos afirmando categóricamente que sepamos con seguridad que el modelo conlleva riesgos, pero al menos tenemos la sensación de que está lo suficientemente cerca para no descartar esa posibilidad".

Cuidado con la IA. Anthropic es una empresa especialmente preocupada por la seguridad de sus modelos, y en 2023 ya se comprometió a no lanzaar ciertos modelos hasta que hubiera desarrollado medidas de seguridad capaz de contenerlos. El sistema, llamado Responsible Scaling Policy (RSP), tiene en esta ocasión la oportunidad de demostrar que funciona.

En Xataka

Qué es la Inteligencia Artificial General (AGI), la tecnología que apunta a revolucionar nuestro mundo por completo

Cómo funciona RSP. Estas políticas internas de Anthropic definen los llamados "Niveles de Seguridad de la IA (ASL)" inspirados en los estándares de Niveles de Bioseguridad del Gobierno de los EEUU a la hora de gestionar materiales biológicos peligrosos. Esos niveles son los siguientes:

ASL-1: se refiere a sistemas que no plantean ningún riesgo catastrófico significativo, por ejemplo un LLM de 2018 o un sistema de IA que sólo juega al ajedrez.
ASL-2: se refiere a los sistemas que muestran signos tempranos de capacidades peligrosas -por ejemplo, la capacidad de dar instrucciones sobre cómo construir armas biológicas- pero en los que la información aún no es útil debido a una fiabilidad insuficiente o a que no proporcionan información que, por ejemplo, un motor de búsqueda no podría. Los LLM actuales, incluido Claude, parecen ser ASL-2.
ASL-3: se refiere a sistemas que aumentan sustancialmente el riesgo de un mal uso catastrófico en comparación con las líneas de base sin IA (por ejemplo, motores de búsqueda o libros de texto) O que muestran capacidades autónomas de bajo nivel.
ASL-4: Este nivel y los superiores (ASL-5+) aún no están definidos, ya que se alejan demasiado de los sistemas actuales, pero probablemente implicarán un aumento cualitativo del potencial de uso indebido catastrófico y de la autonomía.

Vuelve el debate de la regulación. Si no existe una regulación externa, las empresas implementan su propia regulación interna para integrar mecanismos de seguridad. Aquí el problema, como apuntan en Time, es que sistemas internos como RSP son controlados por las compañías, de modo que ellas mismas pueden cambiar las reglas si lo consideran necesarios y aquí dependemos de su criterio y su ética y moralidad. La transparencia y actitud de Anthropic frente al problema son destacables. Frente a esa regulación interna, la postura de los gobernantes es desigual. La Unión Europea sacó pecho cuando lanzó su pionera (y restrictiva) Ley de la IA, pero ha tenido que recular en las últimas semanas.

Dudas con OpenAI. Aunque en OpenAI tienen su propia declaración de intenciones sobre la seguridad (evitar riesgos para la humanidad) y la superalineación (que la IA proteja los valores humanos). En ella aseguran prestar mucha atención a estos temas y desde luego también publican las "system cards" de sus modelos. Sin embargo frente a esa aparente buena disposición hay una realidad: la empresa disolvió hace un año el equipo que velaba por el desarrollo responsable de la IA.

Seguridad "nuclear". Esa fue de hecho una de las razones de las diferencias entre Sam Altman y muchos de los que abandonaron OpenAI. El ejemplo más claro es Ilya Sutskever, que tras su marcha ha creado una startup con un nombre muy descriptivo: Safe SuperIntelligence (SSI). El objetivo de dicha empresa, afirmó su fundador, es el de crear una superinteligencia con seguridad "nuclear". Su planteamiento es por tanto similar al que persigue Anthropic.

En Xataka | Los agentes son la gran promesa de la IA. También apuntan a convertirse en la nueva arma favorita de los ciberdelincuentes

-
La noticia Claude 4 plantea un futuro de IAs capaces de chantajear y crear armas biológicas. Hasta Anthropic está preocupada fue publicada originalmente en Xataka por Javier Pastor .

ver noticia completa 🤍 Me Gusta

45 chilenos deportados desde Estados Unidos aterrizan en Santiago: Tres mantienen órdenes de detención vigentes

La revolución de Alexia Putellas y del Barcelona

Contraloría inicia sumario en Compin, Fonasa y Superintendencia de Seguridad Social (Suseso) por mal uso de licencias médicas en el sistema público

¡Ganador se llevó más de 2.500 millones!: Resultados del Loto sorteo 5272 del jueves 22 de mayo”

Calamitoso chasco en un acto de propaganda militar desató rabieta de Kim Jong-un

Detienen a dos nuevos imputados por megaincendio de Valparaíso: ambos son bomberos y uno es funcionario de Conaf

“Oportunidad histórica de cambio” y “no garantiza la paz”: las reacciones parlamentarias por los anuncios de Boric en materia indígena

Nueva York: Chile Day 2025 busca promover el país como un destino atractivo para invertir

Fiscalía acusa de asesinato al sospechoso de matar a dos empleados de embajada de Israel en Washington

Nuevo sistema de restitución de tierras y apoyo a víctimas de terrorismo: Presidente Boric informó propuestas de la Comisión para la Paz

Claude 4 plantea un futuro de IAs capaces de chantajear y crear armas biológicas. Hasta Anthropic está preocupada

Xataka.com

0 Comentarios

Escribe un comentario

>El argentino, al que aún no han podido desvincular, dirigirá…

>El cuadro argentino finalmente se habría inclinado por un exentrenador…

>Decretan prisión preventiva para dos acusados por megaincendio en Valparaíso”

Trending

Los más leidos

Fuentes

Fuentes

Fuentes

Fuentes

Fuentes

Fuentes

Fuentes

Fuentes

Fuentes

Fuentes

Fuentes

Fuentes

Fuentes

0 Comentarios

Escribe un comentario

>El argentino, al que aún no han podido desvincular, dirigirá…

>El cuadro argentino finalmente se habría inclinado por un exentrenador…

>Decretan prisión preventiva para dos acusados por megaincendio en Valparaíso”