
Дидактор внимательно следит за развитием диалоговых ИИ-моделей. Давно известно, что лучшие из них не только отвечают на вопросы любопытного пользователя, но и создают коды, формулы, таблицы, графики, схемы и диаграммы. А ряд из них уже создают изображения. В последнее время часто обращаюсь к их помощи для создания цифровых дидактических единиц, а также Конструкторов для учителей, которые могли бы сами создавать интерактивные плакаты, тесты, карты и т.п. Между тем, диалог с каждой из нейросетей складывается по-разному. В итоге появилась идея устроить «соревнования» между различными ИИ-моделями и выяснить их достоинства, возможности и отрицательные стороны.
В соревновании приняли участие российские нейросети от Сбера ГигаЧат и от Яндекса Алиса, а также китайский ИИ-чатбот Deepseek.
Всем нейросетям было выдано одинаковое задание:
Содержание промпта:
Мне нужен хорошо оформленный красочный тест из 10 вопросов на тему «Химические свойства кислот» с подстрочными цифрами при указании валентности. Вопросы с несколькими типами заданий: 5 вопросов с выбором 1 правильного ответа из четырёх вариантов, 2 вопроса с выбором нескольких правильных ответов из пяти вариантов, 2 вопроса на соответствие, 1 вопрос на восстановление порядка. Готовый тест должен представлять собой автономный html-файл.
Однако результат был совершенно разным:
Прежде всего, появилась проблема «короткой строки» в чатах. Из-за этого код обрывается.
Что такое «короткая строка» в контексте чат-нейросетей
Под «короткой строкой» обычно понимают ограничение на максимальную длину ответа (количество символов или токенов), которое модель может выдать за один раз. У разных сервисов эти лимиты сильно различаются:
Алиса (Yandex GPT) в бесплатном или стандартном режиме часто имеет жёсткое ограничение на вывод — например, 4000–6000 символов. Это примерно 1–2 страницы текста.
GigaChat от Сбера тоже может иметь ограничения в зависимости от тарифа, но часто чуть щедрее (до 8000–12000 символов).
DeepSeek (особенно в веб-версии и API) обычно позволяет выдавать до 32 000–64 000 токенов (это десятки тысяч символов), то есть практически любые объёмы кода.
Почему это критично для создания кода
1.Обрыв тегов и скриптов – HTML может оборваться внутри <script> или в середине стиля. Браузер не сможет его корректно интерпретировать.
2. Потеря логики – даже если обрыв произойдёт после закрывающего </html>, всё равно большая часть теста (вопросы, обработчики) будет отсутствовать.
3. Невозможность «дослать» продолжение – некоторые чаты позволяют попросить «продолжи», но нейросеть может не помнить контекст или начать генерировать заново, нарушая синтаксис. Алиса в стандартном режиме часто не поддерживает запрос на продолжение. Приходится хитрить, подробнее указывать, что мне надо.
4. Отсутствие контроля целостности – пользователь получает обрезанный HTML, вставляет его в файл и видит ошибки, но причина ему не очевидна. Тратится время на отладку.
Результаты
В итоге однозначно оказалось, что удобнее всего работать с DeepSeek, которая разработана с учётом длинного контекста и большого выходного окна. Причём мы получаем готовый html-код, готовый к употреблению. Вместе с тем, в случае с Яндекс Алисой и Гига Чатом необходимо было копировать коды, вставлять в Блокнот и сохранять как html-файлы. Это крайне неудобно, особенно с кодом Яндекс Алисы, который нужно вставлять частями. Deepseek, кроме того, что представляет готовый код, предусматривает и такие случаи, когда код из-за большой сложности всё же не влезает. Тогда нейросеть предлагает разбить код на части: HTML (разметка), CSS (стили) и JavaScript (логика), которые удобно собрать вместе в том же Блокноте. Но это исключительные случаи, когда необходимо создать какой-то громоздкий проект.
Более того, в случае неудач с Алисой или ГигаЧатом, можно отправить их файлы на исправление в Deepseek. Коды от Алисы и Гига Чата, как правило, оказываются работоспособными в своей основе, но с небольшими ошибками, которые легко выявляются при тестировании.