Esses pesquisadores usaram as questões de quebra -cabeça de domingo da NPR para comparar modelos de 'raciocínio' da IA
Todos os domingos, o anfitrião da NPR Will Shortz, o guru das palavras cruzadas do New York Times, chega a um questionário milhares de ouvintes em um segmento de longa duração chamado The Sunday Puzzle. Enquanto escrito para ser solucionável sem também Muito presunção, os Branciesasers geralmente são desafiadores, mesmo para concorrentes qualificados.
É por isso que alguns especialistas pensam que são uma maneira promissora de testar os limites das habilidades de solução de problemas da IA.
Em um Novo estudouma equipe de pesquisadores que vieram do Wellesley College, Oberlin College, da Universidade do Texas em Austin, Northeastern University e Startup Cursor, criaram um benchmark de IA usando enigmas de episódios de sunga de quebra -cabeças. A equipe diz que seus testes descobrem idéias surpreendentes, como os chamados modelos de raciocínio-o OpenAi da Openai, entre outros-às vezes “desistindo” e fornecem respostas que eles sabem que não estão corretas.
“Queríamos desenvolver uma referência com problemas que os humanos podem entender apenas com conhecimento geral”, disse Arjun Guha, graduação em ciência da computação no nordeste e um dos co-autores do estudo, ao TechCrunch.
A indústria da IA está um pouco de benchmarking no momento. A maioria dos testes comumente usados para avaliar a sonda de modelos de IA para habilidades, como competência em questões de matemática e ciências no nível de doutorado, que não são relevantes para o usuário médio. Enquanto isso, muitos benchmarks – até mesmo benchmarks lançados relativamente recentemente – estão se aproximando rapidamente do ponto de saturação.
As vantagens de um jogo público de rádio como o quebra -cabeça de domingo é que ele não testa o conhecimento esotérico, e os desafios são formulados de modo que os modelos não se baseiam em “memória mecânica” para resolvê -los, explicou Guha.
“Acho que o que torna esses problemas difíceis é que é realmente difícil fazer um progresso significativo em um problema até você resolvê -lo – é quando tudo se une de uma só vez”, disse Guha. “Isso requer uma combinação de insight e um processo de eliminação.”
Nenhuma referência é perfeita, é claro. O quebra-cabeça de domingo é centrado nos EUA e apenas em inglês. E como os testes estão disponíveis ao público, é possível que os modelos fossem treinados neles e possam “trapacear” em certo sentido, embora Guha diga que não tenha visto evidências disso.
“Novas perguntas são divulgadas toda semana, e podemos esperar que as perguntas mais recentes sejam verdadeiramente invisíveis”, acrescentou. “Pretendemos manter a referência fresca e rastrear como o desempenho do modelo muda com o tempo”.
Na referência dos pesquisadores, que consiste em cerca de 600 enigmas de sunga, raciocinatos, como modelos como O1 e R1 de Deepseek, superaram o resto. Modelos de raciocínio se checam completamente antes de fornecer resultados, o que os ajuda Evite algumas das armadilhas Isso normalmente tropeça nos modelos de IA. A troca é que os modelos de raciocínio demoram um pouco mais para chegar a soluções-normalmente segundos a minutos mais.
Pelo menos um modelo, o R1 de Deepseek, fornece soluções que ele sabe estar errado para algumas das perguntas do quebra -cabeça de domingo. O R1 indicará literalmente “eu desisto”, seguido de uma resposta incorreta escolhida aparentemente aleatoriamente – comportamento que esse humano certamente pode se relacionar.
Os modelos fazem outras escolhas bizarras, como dar uma resposta errada apenas para retirá -la imediatamente, tentar provocar uma melhor e falhar novamente. Eles também ficam presos “pensando” para sempre e dão explicações sem sentido para obter respostas, ou chegam a uma resposta correta imediatamente, mas depois consideram respostas alternativas sem motivo óbvio.
“Em problemas difíceis, R1 literalmente diz que está ficando 'frustrado'”, disse Guha. “Foi engraçado ver como um modelo emula o que um humano poderia dizer. Resta ver como a 'frustração' no raciocínio pode afetar a qualidade dos resultados do modelo. ”
O modelo atual de melhor desempenho na referência é O1 com uma pontuação de 59%, seguida pelo lançado recentemente O3-mini definido como alto “esforço de raciocínio” (47%). (R1 marcou 35%.) Como uma próxima etapa, os pesquisadores planejam ampliar seus testes para modelos de raciocínio adicionais, que eles esperam que ajudem a identificar áreas onde esses modelos podem ser aprimorados.
“Você não precisa de um doutorado para ser bom no raciocínio, por isso deve ser possível projetar benchmarks de raciocínio que não exigem conhecimento em nível de doutorado”, disse Guha. “Uma referência com acesso mais amplo permite que um conjunto mais amplo de pesquisadores compreenda e analise os resultados, o que, por sua vez, pode levar a melhores soluções no futuro. Além disso, como os modelos de última geração são cada vez mais implantados em ambientes que afetam a todos, acreditamos que todos devem ser capazes de intuir o que esses modelos são-e não são-capazes de “.