DeepSeek представила новую модель VL2 для анализа изображений

Компания DeepSeek представила обновлённую серию моделей VL2, разработанных по принципу «смеси экспертов» (Mixture of Experts, MoE). Новая технология позволяет распознавать объекты на изображениях, анализировать документы, таблицы и диаграммы, а также интерпретировать текстовые данные.

Линейка DeepSeek-VL2 включает три версии:

  • VL2-Tiny (1 млрд параметров);
  • VL2-Small (2,8 млрд параметров);
  • VL2 (4,5 млрд параметров).

По заявлению разработчиков, новая серия значительно превосходит предыдущую модель DeepSeek-VL. Искусственный интеллект способен идентифицировать объекты на фото, разметить их и даже предлагать рецепты по изображениям продуктов. Помимо этого, модель распознаёт рукописный текст и может преобразовывать его в печатный.

DeepSeek-VL2 описала, что происходит на фотографии, но не написала, что автомобиль нарушает правила, проезжая на красный.
DeepSeek-VL2 описала, что происходит на фотографии, но не написала, что автомобиль нарушает правила, проезжая на красный.
Модель попробовала объяснить значение мема.
Модель попробовала объяснить значение мема.

Пока DeepSeek-VL2 не интегрирована в чат-бот, но доступна в бесплатной демоверсии на Hugging Face.

Конкуренция в этой сфере растёт. В декабре 2024 года Alibaba представила QvQ-72B для анализа графиков и таблиц, а уже в январе 2025 года – Qwen 2.5-VL для разметки изображений. Оба инструмента доступны в чат-боте Qwen Chat.

Комментарии
Нет комментариев. Будьте первым!