Η τεχνητή νοημοσύνη λύνει Sudoku αλλά δεν μπορεί να εξηγήσει πώς | Άρθρα

Ερευνητές από το Πανεπιστήμιο του Κολοράντο (Anirudh Maiya, Razan Alghamdi, Maria Leonor Pacheco, Ashutosh Trivedi, Fabio Somenzi) δοκίμασαν LLM σε γρίφους 6×6 sudoku. Πρόσφατες μελέτες δείχνουν ότι τα σύγχρονα γλωσσικά μοντέλα μπορούν να λύνουν λογικά προβλήματα αλλά δεν είναι ακόμη σε θέση να εξηγούν καθαρά τη συλλογιστική τους:

Η μελέτη χρησιμοποίησε 2.293 μοναδικούς γρίφους.
Εξετάστηκαν πέντε μοντέλα: τέσσερα ανοικτού κώδικα (Gemma, Mistral και δύο εκδόσεις του Llama) και ένα κλειστό από την OpenAI (o1-preview).
Τα καθήκοντα είχαν διαφορετικά επίπεδα δυσκολίας: από εύκολα έως «διαβολικά».

Αποτελέσματα:

Τα μοντέλα ανοικτού κώδικα έλυσαν λιγότερο από το 1% των γρίφων, ενώ το μοντέλο της OpenAI τα πήγε πολύ καλύτερα – με 65% σωστές λύσεις.
Για απλούς γρίφους (Easy και Medium) η OpenAI είχε 100% ακρίβεια. Στα πιο δύσκολα sudoku («Diabolical») η ακρίβεια έπεσε στο 40%.

Όρια των δυνατοτήτων της ΤΝ

Οι συγγραφείς της μελέτης εξέτασαν πώς η ΤΝ εξηγεί τα βήματά της. Επέλεξαν 20 γρίφους και ζήτησαν από ειδικούς να αξιολογήσουν τις απαντήσεις με βάση τρία κριτήρια:

Τεκμηρίωση. Μόνο στο 5% των περιπτώσεων το μοντέλο μπόρεσε να εξηγήσει γιατί επέλεξε έναν συγκεκριμένο αριθμό. Στις υπόλοιπες απαντήσεις περιορίστηκε σε γενικούς κανόνες sudoku που δεν σχετίζονταν με τον γρίφο.
Σαφήνεια. Μόνο το 7,5% των εξηγήσεων ήταν σαφείς και συνεκτικές. Οι υπόλοιπες ήταν ασαφείς, αντιφατικές ή παρέλειπαν βήματα.
Πρακτική αξία. Μόνο το 2,5% των εξηγήσεων βοήθησε να κατανοηθεί η στρατηγική επίλυσης.

Γιατί οι απαντήσεις από μόνες τους δεν αρκούν

Η τεχνητή νοημοσύνη χρησιμοποιείται όλο και περισσότερο στην ιατρική, στις επιχειρήσεις και στη νομική. Αν όμως ένα μοντέλο δεν μπορεί να εξηγήσει με διαφάνεια τη συλλογιστική του, η χρήση του σε κρίσιμους τομείς γίνεται επικίνδυνη. Σε περιπτώσεις όπως η διάγνωση ή οι νομικές αποφάσεις, η εξήγηση μπορεί να είναι πιο σημαντική από την ίδια την απάντηση. Οι ερευνητές τονίζουν ότι για να γίνουν πραγματικά χρήσιμοι συνεργάτες, τα μοντέλα πρέπει να μάθουν όχι μόνο να βρίσκουν σωστές απαντήσεις αλλά και να μετατρέπουν την περίπλοκη συλλογιστική σε κατανοητή γλώσσα.

Μελέτη: https://arxiv.org/pdf/2505.15993