
Anthropic відновила глобальний доступ до своєї найпотужнішої публічної моделі Fable 5. Разом із поверненням моделі компанія представила галузеву рамку оцінки серйозності джейлбрейків — спробу дати вендорам і регуляторам спільну мову для розмови про обхід захисних механізмів ШІ.
Історія тривала три тижні. Fable 5 і її «сестринську» модель Mythos 5 запустили 9 червня. Через три дні уряд отримав звіт дослідників Amazon: за певної структури запиту Fable 5 обходила захист і виявляла кілька програмних вразливостей, а в одному випадку згенерувала код, що демонстрував експлуатацію однієї з них. Реакція була різкою — експортна директива вимкнула обидві моделі для всіх користувачів по всьому світу.
Чому обмеження зняли
Ключовим став аргумент, який Anthropic відстоювала від самого початку: описана здатність не є унікальною для Fable 5. Власне тестування показало, що слабші моделі — зокрема Opus 4.8, GPT-5.5 і Kimi K2.7 — виявляли ті самі вразливості. А демонстрацію експлойту для однієї вразливості відтворили всі протестовані моделі, включно з Haiku 4.5 та Sonnet 4.6. Anthropic класифікувала інцидент як «незначний» джейлбрейк, що входить у навмисно закладений запас безпеки, але не відкриває унікальних наступальних можливостей рівня Mythos.
Технічною відповіддю став новий класифікатор безпеки. Він блокує описану Amazon методику у понад 99% випадків, а заблоковані запити перенаправляє на Opus 4.8 замість того, щоб просто відмовити. Дослідники CAISI— Центру стандартів та інновацій у сфері ШІ при Міністерстві торгівлі — протестували старі й нові запобіжники й визнали їх, за словами компанії, надзвичайно надійними. Ціна компромісу озвучена відкрито: ширший запас безпеки означає, що Fable 5 інколи відхилятиме й цілком легітимну роботу з кодом.
Рамка з чотирьох критеріїв
Головна стратегічна новина — не сам класифікатор, а спроба стандартизувати оцінку джейлбрейків. Anthropic разом з Amazon, Microsoft, Google та іншими партнерами Project Glasswing розробляє консенсусну рамку, яка оцінює кожен джейлбрейк за чотирма критеріями. Перші два описують, що технологія дає атакувальнику, останні два — наскільки швидко вона може стати реальною проблемою.
Критерії такі: приріст можливостей (наскільки далеко за межі наявних інструментів джейлбрейк веде користувача), широта охоплення (скільки цілей це стосується), легкість перетворення на зброю та можливість самостійного виявлення техніки. Логіка проста — відокремити факт «захист обійдено» від питання «скільки реальної шкоди з цього може вийти». Галузі досі бракує аналога CVSS — стандартної шкали оцінки вразливостей — для джейлбрейків, і саме цю прогалину рамка має закрити.
Паралельно Anthropic запускає програму на HackerOne, де дослідники безпеки зможуть повідомляти про нові джейлбрейки Fable 5, і формує команду для цілодобового моніторингу каналів таких повідомлень. Компанія також погодилася на глибшу співпрацю з урядом США: для моделей, що суттєво розширюють можливості, значущі для національної безпеки, визначені відомства отримають ширший доступ до попереднього тестування. Ця робота вписується в рамки Виконавчого указу від 2 червня про розвиток і безпеку передового ШІ.
Доступ до Fable 5 наразі дозований. Для планів Pro, Max, Team і окремих Enterprise модель зараховуватиметься до 50% тижневого ліміту використання до 7 липня, після чого перейде на кредитну модель. Mythos 5 залишається обмеженою колом перевірених організацій. Обидві моделі знову доступні на Claude Platform, Claude.ai, Claude Code і Claude Cowork.
Читайте також
- SpaceX готується до найбільшого IPO в історії: оцінка $1,75 трлн і рекордна частка для роздрібних інвесторів
- Економіка США 2026: ШІ стимулює зростання, а тарифи підживлюють інфляцію
Ви маєте увійти, щоб оприлюднити коментар.