Стартап в области искусственного интеллекта Nous Research без громких анонсов представил новое семейство больших языковых моделей искусственного интеллекта под названием Hermes 4. Разработчики утверждают, что эти модели способны соперничать с ведущими закрытыми аналогами. Пользователи получают возможность почти полного контроля над ИИ, который в исходном виде практически свободен от цензурных ограничений.

Модель Hermes 4 была создана для работы с широким спектром запросов без внедрённых для безопасности ограничений, которые часто присутствуют в коммерческих системах. Hermes 4 использует механизм гибридных рассуждений, позволяющий пользователю переключаться между быстрыми ответами и глубокими, пошаговыми размышлениями ИИ. Процесс мышления представлен в виде тегов <think>, аналогично системе OpenAI o1, но модели от Nous Research предлагают полную прозрачность этого «мыслительного» процесса.

В тесте MATH-500 с активным режимом рассуждений самая мощная модель из линейки Hermes 4 с 405 миллиардов параметров продемонстрировала результаты 96,3 % и 81,9 % в математическом бенчмарке AIME’24 — не хуже, а зачастую даже лучше, чем многие закрытые системы, разработка которых стоила миллионы долларов. Она также получила 57,1 % в новом тесте RefusalBench, разработанном Nous Research для оценки частоты отказа ИИ-систем отвечать на вопросы; для сравнения, GPT-4o показала результат 17,67 %, а Claude Sonnet 4 — 17 %.

Ключевым нововведением стало использование двух новых обучающих систем: DataForge — генератора синтетических данных на основе графов, и Atropos — фреймворка обучения с подкреплением. В DataForge реализуются «случайные блуждания» по ориентированным графам и преобразование простых исходных данных в сложные ответы на основании инструкций. Например, система может взять статью из «Википедии» и превратить её в рэп-стихи, а затем сгенерировать вопросы и ответы на основе этого преобразования. Atropos функционирует как множество обучающих сред, в которых ИИ отрабатывает множество навыков — от математики и программирования до креативных заданий; обратная связь предоставляется только в случае корректных решений. В обучающие данные включаются только проверенные и качественные ответы.