OpenAI представила две ИИ-модели для систем безопасности

OpenAI анонсировала две новые рассуждающие модели искусственного интеллекта, разработанные для выявления различных угроз безопасности на онлайн-платформах. Эти модели, выпущенные под лицензией с открытыми весами, теперь доступны широкому кругу пользователей. Новые открытые модели получили названия gpt-oss-safeguard-120b и gpt-oss-safeguard-20b, где число в конце указывает на количество параметров.

Эти разработки являются адаптированными версиями бесплатных моделей gpt-oss, представленных в августе. Важно отметить, что, хотя модели имеют открытые веса (что обеспечивает прозрачность и возможность контроля для пользователей), они не являются полностью открытыми исходными кодами. Организации могут настраивать эти модели в соответствии со своими внутренними политиками.

Благодаря тому, что модели генерируют цепочки рассуждений, разработчики могут видеть, как именно ИИ приходит к тому или иному выводу. Например, на сайтах с отзывами модели серии gpt-oss-safeguard могут использоваться для фильтрации подозрительно поддельных комментариев, а на игровых форумах — для автоматического удаления сообщений, касающихся читерских схем. OpenAI создала эти модели в сотрудничестве с Discord, SafetyKit и организацией ROOST, специализирующейся на инфраструктуре безопасности ИИ-систем. В настоящее время модели доступны в формате предварительных версий для исследователей, что позволит OpenAI собрать отзывы экспертов.