Компания DeepSeek представила обновлённую серию моделей VL2, разработанных по принципу «смеси экспертов» (Mixture of Experts, MoE). Новая технология позволяет распознавать объекты на изображениях, анализировать документы, таблицы и диаграммы, а также интерпретировать текстовые данные.
Линейка DeepSeek-VL2 включает три версии:
- VL2-Tiny (1 млрд параметров);
- VL2-Small (2,8 млрд параметров);
- VL2 (4,5 млрд параметров).
По заявлению разработчиков, новая серия значительно превосходит предыдущую модель DeepSeek-VL. Искусственный интеллект способен идентифицировать объекты на фото, разметить их и даже предлагать рецепты по изображениям продуктов. Помимо этого, модель распознаёт рукописный текст и может преобразовывать его в печатный.


Пока DeepSeek-VL2 не интегрирована в чат-бот, но доступна в бесплатной демоверсии на Hugging Face.
Конкуренция в этой сфере растёт. В декабре 2024 года Alibaba представила QvQ-72B для анализа графиков и таблиц, а уже в январе 2025 года – Qwen 2.5-VL для разметки изображений. Оба инструмента доступны в чат-боте Qwen Chat.




























