Итоги соревнования Deepseek, ГигаЧата и Яндекс Алисы

Дидактор внимательно следит за развитием диалоговых ИИ-моделей. Давно известно, что лучшие из них не только отвечают на вопросы любопытного пользователя, но и создают коды, формулы, таблицы, графики, схемы и диаграммы. А ряд из них уже создают изображения. В последнее время часто обращаюсь к их помощи для создания цифровых дидактических единиц, а также Конструкторов для учителей, которые могли бы сами создавать интерактивные плакаты, тесты, карты и т.п. Между тем, диалог с каждой из нейросетей складывается по-разному. В итоге появилась идея устроить «соревнования» между различными ИИ-моделями и выяснить их достоинства, возможности и отрицательные стороны.

В соревновании приняли участие российские нейросети от Сбера ГигаЧат и от Яндекса Алиса, а также китайский ИИ-чатбот Deepseek.

Всем нейросетям было выдано одинаковое задание:

Содержание промпта:

Мне нужен хорошо оформленный красочный тест из 10 вопросов на тему «Химические свойства кислот» с подстрочными цифрами при указании валентности. Вопросы с несколькими типами заданий: 5 вопросов с выбором 1 правильного ответа из четырёх вариантов, 2 вопроса с выбором нескольких правильных ответов из пяти вариантов, 2 вопроса на соответствие, 1 вопрос на восстановление порядка. Готовый тест должен представлять собой автономный html-файл.

Однако результат был совершенно разным:

Прежде всего, появилась проблема «короткой строки» в чатах. Из-за этого код обрывается.

Что такое «короткая строка» в контексте чат-нейросетей

Под «короткой строкой» обычно понимают ограничение на максимальную длину ответа (количество символов или токенов), которое модель может выдать за один раз. У разных сервисов эти лимиты сильно различаются:

Алиса (Yandex GPT) в бесплатном или стандартном режиме часто имеет жёсткое ограничение на вывод — например, 4000–6000 символов. Это примерно 1–2 страницы текста.

GigaChat от Сбера тоже может иметь ограничения в зависимости от тарифа, но часто чуть щедрее (до 8000–12000 символов).

DeepSeek (особенно в веб-версии и API) обычно позволяет выдавать до 32 000–64 000 токенов (это десятки тысяч символов), то есть практически любые объёмы кода.

Почему это критично для создания кода

1.Обрыв тегов и скриптов – HTML может оборваться внутри <script> или в середине стиля. Браузер не сможет его корректно интерпретировать.

2. Потеря логики – даже если обрыв произойдёт после закрывающего </html>, всё равно большая часть теста (вопросы, обработчики) будет отсутствовать.

3. Невозможность «дослать» продолжение – некоторые чаты позволяют попросить «продолжи», но нейросеть может не помнить контекст или начать генерировать заново, нарушая синтаксис. Алиса в стандартном режиме часто не поддерживает запрос на продолжение. Приходится хитрить, подробнее указывать, что мне надо.

4. Отсутствие контроля целостности – пользователь получает обрезанный HTML, вставляет его в файл и видит ошибки, но причина ему не очевидна. Тратится время на отладку.

Результаты

В итоге однозначно оказалось, что удобнее всего работать с DeepSeek, которая разработана с учётом длинного контекста и большого выходного окна. Причём мы получаем готовый html-код, готовый к употреблению. Вместе с тем, в случае с Яндекс Алисой и Гига Чатом необходимо было копировать коды, вставлять в Блокнот и сохранять как html-файлы. Это крайне неудобно, особенно с кодом Яндекс Алисы, который нужно вставлять частями. Deepseek, кроме того, что представляет готовый код, предусматривает и такие случаи, когда код из-за большой сложности всё же не влезает. Тогда нейросеть предлагает разбить код на части:  HTML (разметка)CSS (стили) и JavaScript (логика), которые удобно собрать вместе в том же Блокноте. Но это исключительные случаи, когда необходимо создать какой-то громоздкий проект.

Более того, в случае неудач с Алисой или ГигаЧатом, можно отправить их файлы на исправление в Deepseek. Коды от Алисы и Гига Чата, как правило, оказываются работоспособными в своей основе, но с небольшими ошибками, которые легко выявляются при тестировании.

Рубрики: Цифровая дидактика

Добавить комментарий

Ваш e-mail не будет опубликован.