בינה מלאכותית פותרת סודוקו אך אינה יודעת להסביר כיצד | מאמרים

חוקרים מאוניברסיטת קולורדו (Anirudh Maiya, Razan Alghamdi, Maria Leonor Pacheco, Ashutosh Trivedi, Fabio Somenzi) בדקו מודלי LLM על חידות 6×6 סודוקו. מחקרים עדכניים מראים שמודלים שפתיים מודרניים מסוגלים לפתור בעיות לוגיות אך עדיין אינם יודעים להסביר את מהלך החשיבה שלהם באופן ברור:

במחקר נעשה שימוש ב-2,293 חידות ייחודיות.
נבדקו חמישה מודלים: ארבעה בקוד פתוח (Gemma, Mistral ושתי גרסאות של Llama) ואחד סגור של OpenAI (o1-preview).
רמות הקושי נעו בין קל ל״שטני״.

תוצאות:

המודלים בקוד פתוח פתרו פחות מ-1% מהחידות, בעוד ש-OpenAI הצליח הרבה יותר – עם 65% פתרונות נכונים.
עבור חידות פשוטות (Easy ו-Medium) OpenAI הציג 100% דיוק. עבור הסודוקו הקשים ביותר (״Diabolical״) הדיוק ירד ל-40%.

גבולות היכולות של הבינה המלאכותית

מחברי המחקר בחנו כיצד הבינה המלאכותית מסבירה את צעדיה. הם בחרו 20 חידות וביקשו ממומחים להעריך את התשובות לפי שלושה קריטריונים:

הנמקה. רק ב-5% מהמקרים המודל הצליח להסביר מדוע בחר מספר מסוים. בשאר המקרים הסתפק בהצגת כללים כלליים של סודוקו שלא היו רלוונטיים לחידה הספציפית.
בהירות. רק 7.5% מההסברים היו ברורים ועקביים, היתר היו מעורפלים, סותרים או דילגו על שלבים.
ערך מעשי. רק 2.5% מההסברים עזרו להבין את אסטרטגיית הפתרון בפועל.

מדוע תשובות בלבד אינן מספיקות

הבינה המלאכותית נמצאת בשימוש גובר ברפואה, בעסקים ובמשפט. אך אם מודל אינו מסוגל להסביר את reasoning שלו בשקיפות, השימוש בו בתחומים קריטיים הופך למסוכן. במקרים כמו אבחון או החלטות משפטיות, ההסבר לעיתים חשוב יותר מהתשובה עצמה. החוקרים מציינים שכדי שהמודלים יהפכו לשותפים שימושיים באמת, יש ללמד אותם לא רק למצוא תשובות נכונות אלא גם לתרגם תהליכי חשיבה מורכבים לשפה מובנת לאדם.

המחקר: https://arxiv.org/pdf/2505.15993