Tech

O Openai diz que a Deepseek pode ter coletado indevidamente seus dados

O OpenAI diz que está revisando evidências de que a start-up chinesa Deepseek quebrou seus termos de serviço, colhendo grandes quantidades de dados de suas tecnologias de IA.

A start-up de São Francisco, que agora está avaliada em US $ 157 bilhões, disse que a DeepSeek pode ter usado dados gerados pela OpenAI Technologies para ensinar habilidades semelhantes aos seus próprios sistemas.

Esse processo, chamado destilação, é comum em todo o campo da IA. Mas os termos de serviço da OpenAI dizem que a empresa não permite que alguém use dados gerados por seus sistemas para criar tecnologias que competem no mesmo mercado.

“Sabemos que os grupos da RPC estão trabalhando ativamente para usar métodos, incluindo o que é conhecido como destilação, para replicar modelos avançados da USAI”, disse a porta -voz do Openai, Liz Bourgeois .

“Estamos cientes e analisando indicações de que a Deepseek pode ter destilado de maneira inadequada nossos modelos e compartilharemos informações como sabemos mais”, disse ela. “Tomamos contramedidas agressivas e proativas para proteger nossa tecnologia e continuaremos trabalhando em estreita colaboração com o governo dos EUA para proteger os modelos mais capazes que estão sendo construídos aqui”.

Deepseek não respondeu imediatamente a um pedido de comentário.

A Deepseek assustou as empresas de tecnologia do Vale do Silício e enviou os mercados financeiros dos EUA em uma queda no início desta semana, depois de lançar tecnologias de IA que correspondiam ao desempenho de qualquer outra coisa no mercado.

A sabedoria predominante era que os sistemas mais poderosos não podiam ser construídos sem bilhões de dólares em chips de computador especializados, mas a Deepseek disse que havia criado suas tecnologias usando muito menos recursos.

Como qualquer outra empresa de IA, a DeepSeek construiu suas tecnologias usando o código e os dados do computador encurralados em toda a Internet. As empresas de IA se apoiam fortemente em uma prática chamada de fornecimento aberto, compartilhando livremente o código que sustenta suas tecnologias – e reutilizando o código compartilhado por outras pessoas. Eles vêem isso é como uma maneira de acelerar o desenvolvimento tecnológico.

Eles também precisam de grandes quantidades de dados on -line para treinar seus sistemas de IA. Esses sistemas aprendem suas habilidades identificando padrões em texto, programas de computador, imagens, sons e vídeos. Os principais sistemas aprendem suas habilidades analisando quase todo o texto na Internet.

A destilação é frequentemente usada para treinar novos sistemas. Se uma empresa recebe dados da tecnologia proprietária, a prática pode ser legalmente problemática. Mas geralmente é permitido por tecnologias de código aberto.

O OpenAI agora está enfrentando mais de uma dúzia de ações judiciais acusando ilegalmente usando dados da Internet com direitos autorais para treinar seus sistemas. Isso inclui um processo movido pelo New York Times contra o Openai e seu parceiro Microsoft.

O processo afirma que milhões de artigos publicados pelo The Times foram usados ​​para treinar chatbots automatizados que agora competem com o canal de notícias como fonte de informações confiáveis. Tanto o Openai quanto a Microsoft negam as reivindicações.

Um relatório do Times também mostrou que o OpenAI usou a tecnologia de reconhecimento de fala para transcrever o áudio dos vídeos do YouTube, produzindo um novo texto de conversação que tornaria um sistema de IA mais inteligente. Alguns funcionários do OpenAI discutiram como esse movimento pode ir contra as regras do YouTube, disseram três pessoas com o conhecimento das conversas.

Uma equipe do Openai, incluindo o presidente da empresa, Greg Brockman, transcreveu mais de um milhão de horas de vídeos do YouTube, disseram as pessoas. Os textos foram então alimentados em um sistema chamado GPT-4, que foi amplamente considerado um dos modelos de IA mais poderosos do mundo e foi a base da versão mais recente do ChatGpt Chatbot.

Source link

Related Articles

Back to top button