Cientistas projetam um novo 'benchmark AGI' que indica se qualquer modelo futuro de IA pode causar 'danos catastróficos'
Os cientistas desenvolveram um novo conjunto de testes que medem se inteligência artificial Os agentes (IA) podem modificar seu próprio código e melhorar suas capacidades sem instrução humana.
O benchmark, apelidado de “MLE-bench”, é uma compilação de 75 Testes Kagglecada um deles um desafio que testa a engenharia de aprendizado de máquina. Este trabalho envolve o treinamento de modelos de IA, a preparação de conjuntos de dados e a execução de experimentos científicos, e os testes Kaggle medem o desempenho dos algoritmos de aprendizado de máquina em tarefas específicas.
Os cientistas da OpenAI projetaram o banco MLE para medir o desempenho dos modelos de IA na “engenharia de aprendizado de máquina autônomo” – que está entre os testes mais difíceis que uma IA pode enfrentar. Eles descreveram os detalhes do novo benchmark em 9 de outubro em um artigo enviado ao arXiv banco de dados de pré-impressão.
Qualquer IA futura que obtenha bons resultados nos 75 testes que compõem o banco MLE pode ser considerada poderosa o suficiente para ser um inteligência artificial geral Sistema (AGI) – uma IA hipotética que é muito mais inteligente que os humanos – disseram os cientistas.
Cada um dos 75 testes de bancada MLE possui valor prático no mundo real. Exemplos incluem Vacina aberta — um desafio para encontrar uma vacina de mRNA para a COVID-19 — e o Desafio Vesúvio para decifrar pergaminhos antigos.
Se os agentes de IA aprenderem a realizar tarefas de investigação de aprendizagem automática de forma autónoma, isso poderá ter numerosos impactos positivos, como a aceleração do progresso científico nos cuidados de saúde, ciências climáticas e outros domínios, escreveram os cientistas no artigo. Mas, se não for controlada, poderá levar a um desastre absoluto.
“A capacidade dos agentes para realizar pesquisas de alta qualidade poderia marcar um passo transformador na economia. No entanto, os agentes capazes de realizar tarefas de pesquisa de ML abertas, ao nível de melhorar o seu próprio código de formação, poderiam melhorar as capacidades dos modelos de fronteira significativamente mais rápido que os pesquisadores humanos”, escreveram os cientistas. “Se as inovações forem produzidas mais rapidamente do que a nossa capacidade de compreender os seus impactos, corremos o risco de desenvolver modelos capazes de causar danos catastróficos ou de utilização indevida, sem desenvolvimentos paralelos na segurança, alinhamento e controlo de tais modelos.”
Eles acrescentaram que qualquer modelo que pudesse resolver uma “grande fração” do banco MLE provavelmente poderia executar muitas tarefas abertas de aprendizado de máquina por si só.
Os cientistas testaram o modelo de IA mais poderoso da OpenAI projetado até agora – conhecido como “o1.” Este modelo de IA alcançou pelo menos o nível de uma medalha de bronze Kaggle em 16,9% dos 75 testes no banco MLE. Este número melhorou quanto mais tentativas foram feitas para enfrentar os desafios.
Ganhar uma medalha de bronze equivale a estar entre os 40% melhores participantes humanos na tabela de classificação Kaggle. O modelo o1 da OpenAI alcançou uma média de sete medalhas de ouro no banco MLE, duas a mais do que um ser humano precisa para ser considerado um “Grão-Mestre Kaggle”. Apenas dois humanos conquistaram medalhas nas 75 competições diferentes do Kaggle, escreveram os cientistas no jornal.
Os pesquisadores agora estão abrindo o código do banco MLE para estimular mais pesquisas sobre as capacidades de engenharia de aprendizado de máquina dos agentes de IA – essencialmente permitindo que outros pesquisadores testem seus próprios modelos de IA no banco MLE. “Em última análise, esperamos que o nosso trabalho contribua para uma compreensão mais profunda das capacidades dos agentes na execução autónoma de tarefas de engenharia de ML, o que é essencial para a implementação segura de modelos mais poderosos no futuro”, concluíram.