Claude Mythos: Anthropic filtró su modelo más peligroso

Claude Mythos: cajón abierto con documentos clasificados filtrándose en oficina


Una empresa que construye IA de frontera dejó expuestos accidentalmente sus propios secretos por un error de configuración en su gestor de contenidos. Así es como el mundo se enteró de que Claude Mythos existe: no por un comunicado oficial, sino porque cualquiera con la búsqueda correcta podía leer el borrador del blog que Anthropic nunca quiso publicar todavía.

Qué se filtró y cómo

Según reportó Fortune el 26 de marzo de 2026, un error humano en la configuración del CMS de Anthropic dejó accesibles cerca de 3,000 documentos no publicados en un repositorio de datos público y buscable. Entre ellos, el borrador de un blog que describe a Claude Mythos como "el modelo más capaz que hemos construido hasta la fecha" y que representa un "step change" —un salto cualitativo— respecto a todo lo anterior. El documento fue localizado de forma independiente por investigadores de seguridad de LayerX Security y de la Universidad de Cambridge antes de que Anthropic cerrara el acceso.

Anthropic confirmó la existencia del modelo tras ser contactado por Fortune. La compañía lo describe como un modelo de propósito general con avances significativos en razonamiento, programación y ciberseguridad, actualmente en pruebas con un grupo reducido de clientes de acceso anticipado.

El problema que nadie quería anunciar así

El borrador filtrado introduce también el nombre "Capybara" —una nueva categoría de modelos por encima de Opus— y documenta que Claude Mythos obtiene puntajes "dramáticamente más altos" que Claude Opus 4.6 en pruebas de programación, razonamiento académico y ciberseguridad. Eso último es donde la narrativa se complica.

Anthropic describe al modelo como "actualmente muy por delante de cualquier otro modelo de IA en capacidades cibernéticas", y advierte que anticipa una oleada de exploits automatizados que superarán la capacidad defensiva de los sistemas actuales. Por eso, el plan de lanzamiento prioriza a organizaciones defensivas: darles ventaja antes de que el modelo esté disponible para actores con otras intenciones.

El modelo más peligroso del mundo se presentó al público por un CMS mal configurado, no por un hacker. La ironía no es menor.

Lo que el accidente revela sobre la industria

La filtración no es solo un incidente de seguridad operacional. Es una ventana al proceso interno de cómo una empresa de IA de frontera gestiona —o intenta gestionar— la comunicación sobre sus propios riesgos. El borrador filtrado no es un documento de marketing: es un documento de evaluación de riesgo que describe con franqueza capacidades que la propia compañía considera peligrosas.

El contexto importa: en febrero de 2026, OpenAI clasificó a GPT-5.3-Codex como el primer modelo con capacidades "altas" en tareas de ciberseguridad bajo su propio marco de preparación. Anthropic navegó riesgos similares con Claude Opus 4.6 esa misma semana. La frontera entre "herramienta de defensa" y "arma ofensiva automatizada" se está volviendo cada vez más delgada, y las empresas que construyen estos modelos lo saben mejor que nadie.

Lo que la filtración de Mythos expone no es una empresa incompetente. Es la tensión estructural de un sector que avanza más rápido de lo que puede comunicar con responsabilidad lo que está construyendo.

Lo que nadie te cuenta sobre la IA. Sin ads, sin spam. Cancela cuando quieras, sin drama.
Suscríbete
Compartir