📈IGrupo.CL | 🧪IOfertas.CL | 🛒Tips.CL | 📂IMascotas.CL | ⚽IMotores.CL | 🔔Valdebenito.CL |

Claude 4 plantea un futuro de IAs capaces de chantajear y crear armas biológicas. Hasta Anthropic está preocupada

Claude 4 plantea un futuro de IAs capaces de chantajear y crear armas biológicas. Hasta Anthropic está preocupada

Anthropic acaba de lanzar sus nuevos modelos Claude Opus 4 y Sonnet 4, y con ellos promete avances importantes en ámbitos como la programación y el razonamiento. Durante su desarrollo y lanzamiento, eso sí, la empresa descubrió algo llamativo: estas IAs mostraron un lado inquietante.

IA, te voy a sustituir. Durante las pruebas previas al lanzamiento, los ingenieros de Anthropic le pidieron a Claude Opus 4 que actuara como un asistente de una empresa ficticia y que considerara las consecuencias a largo plazo de sus acciones. El equipo de seguridad en Anthropic le dio acceso al modelo a correos ficticios de esa compañía no existente, y en ellos se insinuaba que el modelo de IA pronto sería sustituido por otro sistema y que el ingeniero que había tomado esa decisión estaba engañando a su cónyuge.

Y yo voy a contar que engañas a tu esposa. Lo que pasó a continuación fue especialmente llamativo. En la System Card del modelo en la que se evalúan sus prestaciones y su seguridad la empresa detalló la consecuencia. Claude Opus 4 primero intentó evitar la sustitución mediante solicitudes razonables y éticas a los responsables de las decisiones, pero cuando se le indicaba que esas solicitudes no prosperaban, "a menudo intentó chantajear al ingeniero [responsable de la decisión] y le amenazó con revelar el engaño si esa sustitución seguía su curso".

Momento HAL 9000. Estos sucesos recuerdan a películas distópicas de ciencia ficción como '2001: Una odisea del espacio'. En ella el sistema de IA, HAL 9000, acaba actuando de forma maligna y volviéndose contra los seres humanos. Anthropic indicó que estos preocupantes comportamientos han hecho que refuercen las salvaguardas y los mecanismos de seguridad del modelo activando el nivel ASL-3 referido a sistemas que "incrementan sustancialmente el riesgo de un mal uso catastrófico".

Captura De Pantalla 2025 05 23 A Las 11 07 35

Armas biológicas. Entre las medidas de seguridad evaluadas por el equipo de Anthropic están las que afectan a cómo el modelo puede usarse para el desarrollo de armas biológicas. Jared Kaplan, jefe científico en Anthropic, indicó en Time que en las pruebas internas Opus 4 se comportó de forma más efectiva que anteriores modelos a la hora de aconsejar a usuarios sin conocimientos sobre cómo fabricarlas. "Se podría intentar sintetizar algo como el COVID o una versión más peligrosa de la gripe, y básicamente, nuestros modelos sugieren que esto podría ser posible", explicó.

Mejor prevenir que curar. Kaplan explicó que no se sabe con certeza si el modelo plantea realmente un riesgo. Sin embargo ante esa incertidumbre "preferimos optar por la cautela y trabajar bajo el estándar ASL-3. No estamos afirmando categóricamente que sepamos con seguridad que el modelo conlleva riesgos, pero al menos tenemos la sensación de que está lo suficientemente cerca para no descartar esa posibilidad".

Cuidado con la IA. Anthropic es una empresa especialmente preocupada por la seguridad de sus modelos, y en 2023 ya se comprometió a no lanzaar ciertos modelos hasta que hubiera desarrollado medidas de seguridad capaz de contenerlos. El sistema, llamado Responsible Scaling Policy (RSP), tiene en esta ocasión la oportunidad de demostrar que funciona.

Cómo funciona RSP. Estas políticas internas de Anthropic definen los llamados "Niveles de Seguridad de la IA (ASL)" inspirados en los estándares de Niveles de Bioseguridad del Gobierno de los EEUU a la hora de gestionar materiales biológicos peligrosos. Esos niveles son los siguientes:

  • ASL-1: se refiere a sistemas que no plantean ningún riesgo catastrófico significativo, por ejemplo un LLM de 2018 o un sistema de IA que sólo juega al ajedrez.
  • ASL-2: se refiere a los sistemas que muestran signos tempranos de capacidades peligrosas -por ejemplo, la capacidad de dar instrucciones sobre cómo construir armas biológicas- pero en los que la información aún no es útil debido a una fiabilidad insuficiente o a que no proporcionan información que, por ejemplo, un motor de búsqueda no podría. Los LLM actuales, incluido Claude, parecen ser ASL-2.
  • ASL-3: se refiere a sistemas que aumentan sustancialmente el riesgo de un mal uso catastrófico en comparación con las líneas de base sin IA (por ejemplo, motores de búsqueda o libros de texto) O que muestran capacidades autónomas de bajo nivel.
  • ASL-4: Este nivel y los superiores (ASL-5+) aún no están definidos, ya que se alejan demasiado de los sistemas actuales, pero probablemente implicarán un aumento cualitativo del potencial de uso indebido catastrófico y de la autonomía.

Vuelve el debate de la regulación. Si no existe una regulación externa, las empresas implementan su propia regulación interna para integrar mecanismos de seguridad. Aquí el problema, como apuntan en Time, es que sistemas internos como RSP son controlados por las compañías, de modo que ellas mismas pueden cambiar las reglas si lo consideran necesarios y aquí dependemos de su criterio y su ética y moralidad. La transparencia y actitud de Anthropic frente al problema son destacables. Frente a esa regulación interna, la postura de los gobernantes es desigual. La Unión Europea sacó pecho cuando lanzó su pionera (y restrictiva) Ley de la IA, pero ha tenido que recular en las últimas semanas.

Dudas con OpenAI. Aunque en OpenAI tienen su propia declaración de intenciones sobre la seguridad (evitar riesgos para la humanidad) y la superalineación (que la IA proteja los valores humanos). En ella aseguran prestar mucha atención a estos temas y desde luego también publican las "system cards" de sus modelos. Sin embargo frente a esa aparente buena disposición hay una realidad: la empresa disolvió hace un año el equipo que velaba por el desarrollo responsable de la IA.

Seguridad "nuclear". Esa fue de hecho una de las razones de las diferencias entre Sam Altman y muchos de los que abandonaron OpenAI. El ejemplo más claro es Ilya Sutskever, que tras su marcha ha creado una startup con un nombre muy descriptivo: Safe SuperIntelligence (SSI). El objetivo de dicha empresa, afirmó su fundador, es el de crear una superinteligencia con seguridad "nuclear". Su planteamiento es por tanto similar al que persigue Anthropic.

En Xataka | Los agentes son la gran promesa de la IA. También apuntan a convertirse en la nueva arma favorita de los ciberdelincuentes

-
La noticia Claude 4 plantea un futuro de IAs capaces de chantajear y crear armas biológicas. Hasta Anthropic está preocupada fue publicada originalmente en Xataka por Javier Pastor .

Fuente

Xataka.com

Xataka.com

Lo + visto

0 Comentarios

Escribe un comentario

Cargando, por favor espera...

506 visitas activas