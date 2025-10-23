DeepSeek-OCR — это ИИ-модель, которая извлекает текст из документов, изображений и PDF-файлов. Главное отличие от привычных OCR-систем: модель не просто "читает" текст, а понимает структуру документа и может работать с разными форматами вывода.

Интересный концепт в статье — имитация человеческой памяти. Модель может сжимать старые части документа сильнее, чем новые, подобно тому, как мы помним недавние события детально, а далёкие — размыто.

Ключевые возможности:

1. Модель предлагает 6 режимов работы — от экономичного Tiny (64 визуальных токена) до мощного Gundam-M (1853 токена).

2. Обучена на 30 млн страниц документов на 100+ языках. Основной фокус — китайский и английский (25млн страниц), но работает и с другими языками.

Модель состоит из DeepEncoder и DeepSeek-3B-MoE декодер.

Инфраструктура:

- Python 3.12.9, CUDA 11.8, PyTorch 2.6.0

- Поддержка vLLM для высокопроизводительной обработки (~2500 токенов/сек на A100-40G для PDF)

- Доступна через Hugging Face Transformers.

Практические сценарии использования:

1. Обработка архивов

2. Автоматизация документооборота

3. Мультиязычная поддержка

4. Научные исследования — распознавание формул, таблиц, диаграмм из публикаций.