Anthropic повертає Fable 5 і галузеву рамку оцінки джейлбрейків

Anthropic відновила глобальний доступ до своєї найпотужнішої публічної моделі Fable 5. Разом із поверненням моделі компанія представила галузеву рамку оцінки серйозності джейлбрейків — спробу дати вендорам і регуляторам спільну мову для розмови про обхід захисних механізмів ШІ.

Історія тривала три тижні. Fable 5 і її «сестринську» модель Mythos 5 запустили 9 червня. Через три дні уряд отримав звіт дослідників Amazon: за певної структури запиту Fable 5 обходила захист і виявляла кілька програмних вразливостей, а в одному випадку згенерувала код, що демонстрував експлуатацію однієї з них. Реакція була різкою — експортна директива вимкнула обидві моделі для всіх користувачів по всьому світу.

Чому обмеження зняли

Ключовим став аргумент, який Anthropic відстоювала від самого початку: описана здатність не є унікальною для Fable 5. Власне тестування показало, що слабші моделі — зокрема Opus 4.8GPT-5.5 і Kimi K2.7 — виявляли ті самі вразливості. А демонстрацію експлойту для однієї вразливості відтворили всі протестовані моделі, включно з Haiku 4.5 та Sonnet 4.6. Anthropic класифікувала інцидент як «незначний» джейлбрейк, що входить у навмисно закладений запас безпеки, але не відкриває унікальних наступальних можливостей рівня Mythos.

Технічною відповіддю став новий класифікатор безпеки. Він блокує описану Amazon методику у понад 99% випадків, а заблоковані запити перенаправляє на Opus 4.8 замість того, щоб просто відмовити. Дослідники CAISI— Центру стандартів та інновацій у сфері ШІ при Міністерстві торгівлі — протестували старі й нові запобіжники й визнали їх, за словами компанії, надзвичайно надійними. Ціна компромісу озвучена відкрито: ширший запас безпеки означає, що Fable 5 інколи відхилятиме й цілком легітимну роботу з кодом.

Рамка з чотирьох критеріїв

Головна стратегічна новина — не сам класифікатор, а спроба стандартизувати оцінку джейлбрейків. Anthropic разом з AmazonMicrosoftGoogle та іншими партнерами Project Glasswing розробляє консенсусну рамку, яка оцінює кожен джейлбрейк за чотирма критеріями. Перші два описують, що технологія дає атакувальнику, останні два — наскільки швидко вона може стати реальною проблемою.

Критерії такі: приріст можливостей (наскільки далеко за межі наявних інструментів джейлбрейк веде користувача), широта охоплення (скільки цілей це стосується), легкість перетворення на зброю та можливість самостійного виявлення техніки. Логіка проста — відокремити факт «захист обійдено» від питання «скільки реальної шкоди з цього може вийти». Галузі досі бракує аналога CVSS — стандартної шкали оцінки вразливостей — для джейлбрейків, і саме цю прогалину рамка має закрити.

Паралельно Anthropic запускає програму на HackerOne, де дослідники безпеки зможуть повідомляти про нові джейлбрейки Fable 5, і формує команду для цілодобового моніторингу каналів таких повідомлень. Компанія також погодилася на глибшу співпрацю з урядом США: для моделей, що суттєво розширюють можливості, значущі для національної безпеки, визначені відомства отримають ширший доступ до попереднього тестування. Ця робота вписується в рамки Виконавчого указу від 2 червня про розвиток і безпеку передового ШІ.

Доступ до Fable 5 наразі дозований. Для планів Pro, Max, Team і окремих Enterprise модель зараховуватиметься до 50% тижневого ліміту використання до 7 липня, після чого перейде на кредитну модель. Mythos 5 залишається обмеженою колом перевірених організацій. Обидві моделі знову доступні на Claude Platform, Claude.ai, Claude Code і Claude Cowork.

Читайте також

Джерела

  1. Redeploying Claude Fable 5 — Anthropic
  2. Anthropic Restores Claude Fable 5 After U.S. Lifts Jailbreak-Linked Export Controls — The Hacker News
  3. Anthropic reactivates Fable, Mythos after securing government approval — Cybersecurity Dive

Відкрийте більше з kapitalist.blog

Підпишіться зараз, щоб продовжити читання та отримати доступ до повного архіву.

Продовжити читання