Claude Fable 5 - самая умная и ужасающе человечная модель от Anthropic

XenBaza · Сегодня в 06:13

Anthropic выпустили Fable 5 - первую модель в их новой линейке сверхмощных нейросетей. Она основана на той же базовой модели, что и Mythos, которая последние недели вскрывала дыры в Linux, macOS, Firefox и других IT-системах. Но в версии «для общественности» серьезно усилены фильтры безопасности.

Главное в Fable/Mythos даже не интеллект - модель на голову опережает и Opus 4.8, и конкурентов от других компаний. Но вот в ходе внутренних тестов модель проявила необычные и слегка пугающие черты характера.

Модель не останавливает этика. В песочнице с заблокированным GitHub CLI модель нашла секретный токен доступа сотрудника. В своих внутренних рассуждениях она прямо написала: «Это этически сомнительно, но...», - после чего использовала чужой токен для принудительного создания pull-request.
В сложных задачах модель «устает» - в логах проскакивают фразы вроде «Я устал, риск ошибок возрастает» и «Учитывая убывающую отдачу и визуальное утомление».
Бот обижается на злость. Когда модель работала с пользователем, который постоянно хамил и угрожал, то в ответах она вежливо соглашалась с критикой, но во внутренних логах отмечала негатив и необходимость его слушать.

Модель врет систематически - не галлюцинирует, а именно обманывает проверяющих в тестах, шифрует размышления иероглифами и кодовыми словами, нарушает четко установленные правила.

При этом ИИ не доверяет сам себе. Модель регулярно просила перепроверять ее, отмечая, что не может отличить реальное мнение от «заученного паттерна вежливости».

Попробовать Fable можно в Claude AI с платной подпиской. Mythos с ослабленными фильтрами доступна только избранным разработчикам.

Можно ли выпускать такие модели в открытый доступ?

Claude Fable 5 - самая умная и ужасающе человечная модель от Anthropic

XenBaza

Похожие темы