网站上的帐户将允许您在不同设备上解决谜题并保存您的进度 登记 | 登录网站

人工智能会解数独,但无法解释过程

科罗拉多大学的研究人员(Anirudh Maiya, Razan Alghamdi, Maria Leonor Pacheco, Ashutosh Trivedi, Fabio Somenzi)在6×6 数独谜题上测试了LLM。最新研究表明,现代语言模型能够解决逻辑问题,但仍无法清晰地解释其推理过程:

  • 研究中使用了2293个独特的谜题。
  • 测试了五个模型:四个开源模型(Gemma、Mistral和两个版本的Llama)以及一个来自OpenAI的闭源模型(o1-preview)。
  • 任务难度从简单到“地狱级”不等。

结果:

  • 开源模型解决了不到1%的谜题,而OpenAI表现更好,正确率达65%。
  • 对于简单的谜题(Easy和Medium),OpenAI的准确率为100%。对于最困难的数独(“Diabolical”),准确率下降到40%。

人工智能能力的局限

研究作者考察了AI如何解释其解题步骤。他们选择了20个谜题,并请专家根据三个标准进行评估:

  • 推理依据。只有5%的情况下,模型能解释为何选择某个数字。其余情况只是罗列一些与该谜题无关的数独规则。
  • 表达清晰度。仅有7.5%的解释清楚且连贯,其余的模糊、矛盾或跳过步骤。
  • 实际价值。仅2.5%的解释有助于理解解数独的策略。

为什么答案本身不够

如今,人工智能越来越多地应用于医学、商业和法律。如果模型不能透明地解释其推理,在关键领域的使用将是危险的。在诊断或法律判决等任务中,解释有时比答案本身更重要。研究人员指出,要让模型成为真正有用的伙伴,就必须不仅能找到正确答案,还能将复杂的推理过程转化为人类能够理解的语言。

研究链接: https://arxiv.org/pdf/2505.15993

如何解答字母数独:简单规则和方法

如何解答字母数独:简单规则和方法

科學家證實數獨對心理健康有益

科學家證實數獨對心理健康有益

如何玩数独 X:规则、技巧和策略

如何玩数独 X:规则、技巧和策略

数独大师》中的新活动

数独大师》中的新活动 "土耳其假期