Представлена открытая ИИ-модель DeepSeek V3

Китайская компания DeepSeek выпустила открытую модель искусственного интеллекта DeepSeek V3, предоставляющую пользователям широкие возможности: лицензия позволяет свободно скачивать, модифицировать и использовать ее в большинстве проектов, включая коммерческие.

DeepSeek V3 – мощная модель, которая отлично справляется с написанием статей, электронных писем, переводом и генерацией кода. Тесты разработчика показали, что она обгоняет большинство аналогов, особенно в программировании, где DeepSeek V3 оказалась сильнее Meta Llama 3.1 405B, OpenAI -4o и Alibaba Qwen 2.5 72B. Кроме того, она успешно прошла тест Aider Polyglot, показав свою способность генерировать код для различных проектов.

Модель DeepSeek V3 была обучена на массивном наборе данных, включающем 14,8 триллиона проектов. После развертывания на платформе Hugging Face, DeepSeek V3 продемонстрировала размер в 685 миллиардов параметров, что примерно в 1,6 раза превышает размер модели Llama 3.1 405B (405 миллиардов параметров). Как правило, количество параметров, то есть внутренних переменных, которые используются моделями для прогнозирования и принятия решений, прямо пропорционально ее способностям: чем больше параметров, тем более мощной является модель. Однако запуск таких моделей требует значительных вычислительных ресурсов.