人工智慧會解數獨，但無法解釋過程 | 文章

科羅拉多大學的研究人員（Anirudh Maiya, Razan Alghamdi, Maria Leonor Pacheco, Ashutosh Trivedi, Fabio Somenzi）在6×6 數獨謎題上測試了LLM。最新研究顯示，現代語言模型能夠解決邏輯問題，但仍無法清楚地解釋其推理過程：

研究中使用了2293個獨特的謎題。
測試了五個模型：四個開源模型（Gemma、Mistral和兩個版本的Llama）以及一個來自OpenAI的封閉模型（o1-preview）。
任務難度從簡單到「惡魔級」不等。

結果:

開源模型解決不到1%的謎題，而OpenAI表現更佳，正確率達65%。
對於簡單的謎題（Easy和Medium），OpenAI的準確率為100%。對於最困難的數獨（「Diabolical」），準確率下降到40%。

人工智慧能力的侷限

研究作者檢視了AI如何解釋其解題步驟。他們選擇了20個謎題，並請專家根據三個標準進行評估：

推理依據。只有5%的情況下，模型能解釋為何選擇某個數字。其餘情況只是列舉一些與該謎題無關的數獨規則。
表達清晰度。僅有7.5%的解釋清楚且連貫，其餘的模糊、矛盾或跳過步驟。
實際價值。僅2.5%的解釋有助於理解解數獨的策略。

為什麼答案本身不夠

如今，人工智慧越來越多地應用於醫學、商業和法律。如果模型不能透明地解釋其推理，在關鍵領域的使用將是危險的。在診斷或法律判決等任務中，解釋有時比答案本身更重要。研究人員指出，要讓模型成為真正有用的夥伴，就必須不僅能找到正確答案，還能將複雜的推理過程轉換為人類能理解的語言。

研究連結: https://arxiv.org/pdf/2505.15993