このサイトのアカウントを使用すると、さまざまなデバイスで数独を解いたり、ゲームの進行状況を保存したりできるようになります。 登録する | サイトにログイン

AIは数独を解けるが、その方法を説明できない

コロラド大学の研究者(Anirudh Maiya、Razan Alghamdi、Maria Leonor Pacheco、Ashutosh Trivedi、Fabio Somenzi)は、6×6 数独のパズルでLLMをテストした。最新の研究によると、現代の言語モデルは論理問題を解くことができるが、推論過程を明確に説明することはまだできない:

  • 研究では2293個のユニークなパズルを使用した。
  • テストされたモデルは5つで、4つはオープンソース(Gemma、Mistral、Llamaの2バージョン)、1つはOpenAIのクローズドモデル(o1-preview)だった。
  • タスクの難易度は簡単から「悪魔級」までさまざまだった。

結果:

  • オープンソースモデルは1%未満しか解けなかったが、OpenAIは65%の正答率で大幅に優れていた。
  • 簡単なパズル(EasyとMedium)ではOpenAIが100%の精度を示したが、最も難しい数独(「Diabolical」)では精度が40%に低下した。

AIの能力の限界

研究者たちは、AIがどのように手順を説明するかを調べた。20個のパズルを選び、専門家に3つの基準で回答を評価させた:

  • 根拠。特定の数字を選んだ理由を説明できたのはわずか5%だった。それ以外は、そのパズルに関係のない一般的な数独のルールを並べるだけだった。
  • 明確さ。説明のうち7.5%だけが明確で一貫しており、残りは曖昧で矛盾していたり、手順を飛ばしていた。
  • 実用性。わずか2.5%の説明だけが、実際の解法戦略を理解する助けとなった。

なぜ答えだけでは不十分なのか

今日、AIは医学、ビジネス、法律などでますます利用されている。しかし、モデルが推論過程を透明に説明できなければ、重要な分野での利用は危険となる。診断や法的判断のようなケースでは、答えそのものよりも説明が重要になる場合がある。研究者たちは、モデルが本当に有用なパートナーとなるためには、正解を見つけるだけでなく、複雑な推論を人間が理解できる言葉に翻訳する能力が必要だと指摘している。

研究: https://arxiv.org/pdf/2505.15993

文字数独の解き方:簡単なルールと方法

文字数独の解き方:簡単なルールと方法

科学者が数独のメンタルヘルスへの効果を証明

科学者が数独のメンタルヘルスへの効果を証明

数独Xの遊び方:ルール、ヒント、戦略

数独Xの遊び方:ルール、ヒント、戦略

数独Guruの新イベント「トルコの祝日

数独Guruの新イベント「トルコの祝日