Pesquisadores da Universidade do Colorado (Anirudh Maiya, Razan Alghamdi, Maria Leonor Pacheco, Ashutosh Trivedi, Fabio Somenzi) testaram LLMs em quebra-cabeças de sudoku 6×6. Pesquisas recentes mostram que os modelos de linguagem modernos conseguem resolver problemas lógicos, mas ainda não conseguem explicar claramente o seu raciocínio:
- O estudo utilizou 2.293 quebra-cabeças únicos.
- Foram testados cinco modelos: quatro de código aberto (Gemma, Mistral e duas versões do Llama) e um fechado da OpenAI (o1-preview).
- As tarefas variavam em dificuldade, de fáceis a “diabólicas”.
Resultados:
- Os modelos de código aberto resolveram menos de 1% dos quebra-cabeças, enquanto o da OpenAI obteve 65% de soluções corretas.
- Para quebra-cabeças simples (Easy e Medium), a OpenAI apresentou 100% de precisão. Para os mais difíceis (“Diabolical”), a precisão caiu para 40%.
Os limites da IA
Os autores do estudo analisaram como a IA explica os seus passos. Eles escolheram 20 quebra-cabeças e pediram a especialistas para avaliar as respostas de acordo com três critérios:
- Justificativa. Apenas em 5% dos casos o modelo conseguiu explicar por que escolheu determinado número. Nos demais, limitou-se a listar regras gerais de sudoku sem relação com o quebra-cabeça.
- Clareza. Apenas 7,5% das explicações foram claras e coerentes; as demais eram vagas, contraditórias ou pulavam etapas.
- Valor prático. Apenas 2,5% das explicações ajudaram a entender a estratégia de resolução.
Por que respostas sozinhas não são suficientes
Hoje a IA é cada vez mais usada em medicina, negócios e direito. Mas se um modelo não consegue explicar o raciocínio de forma transparente, seu uso em áreas críticas torna-se arriscado. Em casos como diagnósticos ou decisões jurídicas, a explicação pode ser mais importante que a própria resposta. Os pesquisadores destacam que, para que os modelos se tornem parceiros realmente úteis, é necessário ensiná-los não apenas a encontrar a resposta correta, mas também a traduzir raciocínios complexos em uma linguagem compreensível para os humanos.
Estudo: https://arxiv.org/pdf/2505.15993