I ricercatori dell’Università del Colorado (Anirudh Maiya, Razan Alghamdi, Maria Leonor Pacheco, Ashutosh Trivedi, Fabio Somenzi) hanno testato i LLM su puzzle di sudoku 6×6. Ricerche recenti mostrano che i modelli linguistici moderni sanno risolvere problemi logici ma non sono ancora in grado di spiegare chiaramente il loro ragionamento:
- Nello studio sono stati utilizzati 2.293 puzzle unici.
- Sono stati testati cinque modelli: quattro open source (Gemma, Mistral e due versioni di Llama) e uno proprietario di OpenAI (o1-preview).
- I puzzle variavano in difficoltà, da semplici a «diabolici».
Risultati:
- I modelli open source hanno risolto meno dell’1% dei puzzle, mentre OpenAI ha ottenuto il 65% di soluzioni corrette.
- Per i puzzle semplici (Easy e Medium), OpenAI ha raggiunto una precisione del 100%. Per i sudoku più difficili («Diabolical»), la precisione è scesa al 40%.
I limiti dell’IA
Gli autori dello studio hanno esaminato come l’IA spiega i propri passaggi. Hanno scelto 20 puzzle e chiesto agli esperti di valutare le risposte secondo tre criteri:
- Giustificazione. Solo nel 5% dei casi il modello è riuscito a spiegare perché ha scelto un determinato numero. Negli altri casi si è limitato a elencare regole generali di sudoku non pertinenti.
- Chiarezza. Solo il 7,5% delle spiegazioni era chiaro e coerente, le altre erano vaghe, contraddittorie o saltavano dei passaggi.
- Utilità pratica. Solo il 2,5% delle spiegazioni aiutava a comprendere la strategia di risoluzione.
Perché le sole risposte non bastano
L’IA viene sempre più utilizzata in medicina, negli affari e nel diritto. Ma se un modello non sa spiegare il proprio ragionamento in modo trasparente, usarlo in ambiti critici diventa rischioso. In casi come una diagnosi o una decisione legale, la spiegazione può essere più importante della risposta stessa. I ricercatori sottolineano che affinché i modelli diventino veri partner utili, devono imparare non solo a trovare la risposta giusta ma anche a tradurre i ragionamenti complessi in un linguaggio comprensibile alle persone.
Studio: https://arxiv.org/pdf/2505.15993