Do texto às informações estruturadas de forma segura com IA
Pesquisadores de Bonn testam o uso de vários modelos de linguagem de grande porte para analisar relatórios radiológicos
A inteligência artificial (IA) e, sobretudo, os grandes modelos de linguagem (LLMs), que também constituem a base do ChatGPT, são cada vez mais procurados nos hospitais. No entanto, os dados dos pacientes devem ser sempre protegidos. Pesquisadores do Hospital Universitário de Bonn (UKB) e da Universidade de Bonn conseguiram agora mostrar que os LLMs locais podem ajudar a estruturar os achados radiológicos de maneira segura para a privacidade, com todos os dados permanecendo no hospital. Eles compararam vários LLMs sobre relatórios públicos sem proteção de dados e sobre relatórios protegidos por dados. Os modelos comerciais que exigem transferência de dados para servidores externos não mostraram vantagem sobre os modelos locais compatíveis com a proteção de dados. Os resultados foram agora publicados na revista “Radiology”.
Tudo tem que estar em seu lugar. Não só na mesa cirúrgica ou no consultório, mas também com dados. Relatórios estruturados, por exemplo, são úteis para médicos e também para uso posterior em pesquisas em bancos de dados. Posteriormente, esses dados estruturados também podem ser usados para treinar outros modelos de IA para diagnóstico baseado em imagens. Na prática, contudo, os relatórios são geralmente escritos em formato de texto livre, o que complica a sua utilização posterior. É exatamente aí que entra a aplicação da IA, mais precisamente dos LLMs.
Modelos abertos e fechados
Os LLMs podem ser divididos em duas categorias: Os modelos de pesos fechados são as variantes comerciais e bem conhecidas de IA que também são usadas em chatbots como o Chat-GPT. Modelos de peso aberto, como os modelos Llama da Meta, são uma opção que pode ser executada em servidores internos da clínica e pode até ser treinada posteriormente. Ao aplicar estes modelos, todos os dados permanecem armazenados localmente, o que torna a utilização de LLMs abertos vantajosa em termos de segurança de dados. “O problema com os modelos comerciais fechados é que, para utilizá-los, é necessário transferir os dados para servidores externos, que muitas vezes estão localizados fora da UE. Isto não é recomendado para dados de pacientes”, enfatiza o Prof. . Diretor da Clínica de Radiologia Diagnóstica e Intervencionista do UKB.
“Mas todos os LLMs são igualmente adequados para compreender e estruturar o conteúdo médico dos relatórios radiológicos? Para descobrir qual LLM é adequado para uma clínica, testamos vários modelos abertos e fechados”, explica o Dr. Sebastian Nowak, primeiro e autor correspondente do estudo e pós-doutorado na Clínica de Radiologia Diagnóstica e Intervencionista da Universidade de Bonn no UKB. “Também estávamos interessados em saber se os LLMs abertos podem ser desenvolvidos de forma eficaz no local da clínica com apenas alguns relatórios já estruturados.”
Portanto, a equipe de pesquisa realizou uma análise de 17 LLMs abertos e quatro fechados. Todos analisaram milhares de laudos radiológicos em formato de texto livre. Relatórios radiológicos públicos em inglês, sem proteção de dados, foram utilizados para a análise, bem como relatórios protegidos por dados do UKB em alemão.
Treinar faz a diferença
Os resultados mostram que no caso dos relatórios sem proteção de dados, os modelos fechados não apresentam vantagem sobre alguns dos LLMs abertos. Quando aplicados diretamente sem treinamento, LLMs abertos e maiores foram melhores do que LLMs abertos e menores. A utilização de relatórios já estruturados como dados de treinamento para LLMs abertos levou a uma melhoria efetiva na qualidade do processamento da informação, mesmo com apenas alguns relatórios preparados manualmente. O treinamento também reduziu a diferença na precisão entre LLMs grandes e pequenos.
“Em uma sessão de treinamento com mais de 3.500 relatórios estruturados, não houve mais diferença relevante entre o maior LLM aberto e um modelo de linguagem 1.200 vezes menor”, diz Nowak. “No geral, pode-se concluir que os LLMs abertos podem acompanhar os fechados e têm a vantagem de poderem ser desenvolvidos localmente de maneira segura para a proteção de dados.”
Esta descoberta tem o potencial de desbloquear bases de dados clínicas para estudos epidemiológicos abrangentes e pesquisas em IA diagnóstica. “Em última análise, isso beneficiará o paciente, ao mesmo tempo em que observa rigorosamente a proteção de dados”, explica Nowak. “Queremos permitir que outras clínicas usem nossa pesquisa diretamente e, portanto, publicamos o código e os métodos para uso e treinamento de LLM sob uma licença aberta.