ИИ решает судоку, но не может объяснять, как | Статьи

Ученые из Университета Колорадо (Anirudh Maiya, Razan Alghamdi, Maria Leonor Pacheco, Ashutosh Trivedi, Fabio Somenzi) протестировали LLM на головоломках 6×6 судоку. Новые исследования показали, что современные языковые модели умеют решать логические задачи, но пока не способны доступно объяснять свой ход мыслей:

В исследовании использовали 2 293 уникальные головоломки.
Проверили пять моделей: четыре открытые (Gemma, Mistral и две версии Llama) и одну закрытую от OpenAI (o1-preview).
Задачи были разной сложности: от простых до «дьявольских».

Результаты:

Открытые модели решили менее 1% задач, OpenAI справилась гораздо лучше – 65% правильных решений.
Для простых головоломок (категории Easy и Medium) OpenAI показала 100% точность. Для самых сложных судоку («Diabolical») точность падала до 40%.

Границы возможностей ИИ

Авторы исследования посмотрели, как ИИ объясняет свои шаги. Для этого взяли 20 головоломок и дали экспертам оценить ответы по трем критериям:

Обоснование. Только в 5% случаев модель смогла объяснить, почему выбрала то или иное число. В остальных ответах она ограничивалась перечислением правил судоку, которые не имели отношения к конкретной головоломке.
Доступность изложения. Лишь 7,5% объяснений были ясными и последовательными, в остальных случаях сбивались на общие фразы, использовали противоречивую терминологию или просто перепрыгивали через шаги.
Практическая польза. Всего 2,5% объяснений помогали понять стратегию решения судоку.

Почему одних ответов недостаточно

Сегодня ИИ все активнее применяется в медицине, бизнесе, праве. Но если модель не умеет прозрачно объяснять свои шаги, использовать ее в критически важных сферах становится опасно. Ведь для таких задач, как постановка диагноза или юридическое решение, объяснение порой важнее самого ответа. Ученые отмечают: чтобы модели стали по-настоящему полезными партнерами, их нужно научить не только находить правильный ответ, но и переводить сложные логические шаги в понятный человеку язык.

Исследование: https://arxiv.org/pdf/2505.15993