O Mass General Brigham lançou o benchmark BRIDGE, uma avaliação rigorosa de 95 modelos de linguagem grande em tarefas clínicas cotidianas. Utilizando dados reais de registros eletrônicos de saúde, consultas médicas e notas de billing em nove idiomas e 14 especialidades, o teste revela diferenças significativas na precisão dos LLMs. Modelos líderes como o GPT alcançam 92% de acerto em exames de licenciamento médico padronizados, mas caem para 44% em contextos reais com linguagem nuançada e variada.
Em resumo
O benchmark BRIDGE testa LLMs em cenários autênticos de triage, diagnóstico e billing. Líderes em inglês superam rivais multilíngues em equity linguística. Desenvolvedores ganham dados para refinar ferramentas de saúde.
Metodologia e resultados principais
A avaliação processa textos clínicos reais, expondo limitações em compreensão de nuances idiomáticas e contextos especializados. Modelos de ponta registram queda média de performance de 92% para 44% ao migrar de provas teóricas para aplicações práticas. O leaderboard classifica ferramentas por especialidade e idioma, priorizando precisão em português, espanhol e outros. Essa abordagem destaca a necessidade de benchmarks ancorados em dados do mundo real para guiar adoções clínicas.
Os resultados enfatizam disparidades multilíngues, com modelos otimizados para inglês liderando, mas falhando em equity para línguas sub-representadas. Clínicos acessam o ranking para selecionar LLMs confiáveis em rotinas diárias. Desenvolvedores recebem feedback granular para iterar em fraquezas específicas.
Contexto de mercado
No setor de health tech, o BRIDGE acelera a maturação de LLMs clínicos ao quantificar o hiato entre hype promocional e utilidade prática. Hospitais e startups integram essas métricas em pipelines de procurement, priorizando ferramentas com performance acima de 60% em cenários reais. Essa transparência impulsiona investimentos em dados multilíngues e especialidades raras, elevando padrões de IA na medicina global. O impacto se estende a reguladores, que usam leaderboards para auditorias de segurança em ferramentas assistivas.