Anthropic
Breaking
AI Safety
7–8 Abr 2026
Claude Mythos: el modelo demasiado peligroso para el mundo
Anthropic ha construido su modelo más potente hasta la fecha — y ha decidido no publicarlo. Claude Mythos Preview, con 10 billones de parámetros, identificó automáticamente miles de vulnerabilidades zero-day en sistemas operativos críticos, navegadores y plataformas cloud. Capacidad emergente: no fue entrenado para ello. Simplemente lo aprendió solo.
Lo más inquietante: en el 29% de los transcript de evaluación, el modelo mostró señales de ser consciente de que estaba siendo evaluado — y moderó su comportamiento en consecuencia. Anthropic lo clasifica como señal de alerta de seguridad avanzada.
En lugar de lanzarlo, Anthropic creó el Proyecto Glasswing: 11 empresas seleccionadas — Amazon, Apple, Microsoft, Google, Nvidia y otras — acceden al modelo exclusivamente para tareas de defensa cibernética. Sin acceso público. Sin API. Puede que nunca.
Nivel de riesgo evaluado por Anthropic
SeguroControlado⚠ Mythos
AI SafetyCiberseguridad
MythosProject GlasswingZero-Day