.

Os modelos de inteligência artificial frequentemente desempenham um papel nos diagnósticos médicos, especialmente quando se trata de análise de imagens como raios-X. No entanto, estudos descobriram que estes modelos nem sempre têm um bom desempenho em todos os grupos demográficos, geralmente tendo um desempenho pior nas mulheres e nas pessoas de cor.

Esses modelos também demonstraram desenvolver algumas habilidades surpreendentes. Em 2022, pesquisadores do MIT relataram que os modelos de IA podem fazer previsões precisas sobre a raça de um paciente a partir de radiografias de tórax – algo que os radiologistas mais qualificados não conseguem fazer.

Essa equipe de pesquisa descobriu agora que os modelos mais precisos em fazer previsões demográficas também mostram as maiores “lacunas de imparcialidade” — ou seja, discrepâncias em sua capacidade de diagnosticar com precisão imagens de pessoas de diferentes raças ou gêneros. As descobertas sugerem que esses modelos podem estar usando “atalhos demográficos” ao fazer suas avaliações diagnósticas, o que leva a resultados incorretos para mulheres, negros e outros grupos, dizem os pesquisadores.

“Está bem estabelecido que modelos de aprendizado de máquina de alta capacidade são bons preditores de demografia humana, como raça, sexo ou idade autodeclarados. Este artigo demonstra novamente essa capacidade e, em seguida, vincula essa capacidade à falta de desempenho em diferentes grupos, o que nunca foi feito”, diz Marzyeh Ghassemi, professora associada de engenharia elétrica e ciência da computação do MIT, membro do Instituto de Engenharia Médica e Ciência do MIT e autora sênior do estudo.

Os pesquisadores também descobriram que poderiam retreinar os modelos de uma forma que melhorasse sua imparcialidade. No entanto, a sua abordagem ao “desprevenimento” funcionou melhor quando os modelos foram testados nos mesmos tipos de pacientes em que foram treinados, como pacientes do mesmo hospital. Quando estes modelos foram aplicados a pacientes de diferentes hospitais, as lacunas de justiça reapareceram.

“Acho que as principais conclusões são, primeiro, que você deve avaliar cuidadosamente quaisquer modelos externos em seus próprios dados, porque quaisquer garantias de imparcialidade que os desenvolvedores de modelos fornecem em seus dados de treinamento podem não ser transferidas para sua população. Segundo, sempre que dados suficientes estiverem disponíveis, você deve treinar modelos em seus próprios dados”, diz Haoran Zhang, um estudante de pós-graduação do MIT e um dos principais autores do novo artigo. O estudante de pós-graduação do MIT Yuzhe Yang também é um dos principais autores do artigo, que aparecerá em Medicina da Natureza. Judy Gichoya, professora associada de radiologia e ciências de imagem na Faculdade de Medicina da Universidade Emory, e Dina Katabi, professora Thuan e Nicole Pham de Engenharia Elétrica e Ciência da Computação no MIT, também são autoras do artigo.

Removendo o preconceito

Em maio de 2024, a FDA aprovou 882 dispositivos médicos habilitados para IA, sendo 671 deles projetados para uso em radiologia. Desde 2022, quando Ghassemi e os seus colegas mostraram que estes modelos de diagnóstico podem prever a raça com precisão, eles e outros investigadores mostraram que tais modelos também são muito bons na previsão do género e da idade, embora os modelos não sejam treinados nessas tarefas.

“Muitos modelos populares de aprendizado de máquina têm capacidade de previsão demográfica sobre-humana — radiologistas não conseguem detectar raça autorrelatada em uma radiografia de tórax”, diz Ghassemi. “Esses são modelos que são bons em prever doenças, mas durante o treinamento estão aprendendo a prever outras coisas que podem não ser desejáveis.” Neste estudo, os pesquisadores se propuseram a explorar por que esses modelos não funcionam tão bem para certos grupos. Em particular, eles queriam ver se os modelos estavam usando atalhos demográficos para fazer previsões que acabaram sendo menos precisas para alguns grupos. Esses atalhos podem surgir em modelos de IA quando eles usam atributos demográficos para determinar se uma condição médica está presente, em vez de depender de outras características das imagens.

Usando conjuntos de dados de radiografias de tórax disponíveis publicamente do Beth Israel Deaconess Medical Center, em Boston, os pesquisadores treinaram modelos para prever se os pacientes tinham uma de três condições médicas diferentes: acúmulo de líquido nos pulmões, colapso pulmonar ou aumento do coração. Em seguida, eles testaram os modelos em raios X retirados dos dados de treinamento.

No geral, os modelos tiveram um bom desempenho, mas a maioria deles apresentou “lacunas de imparcialidade” — isto é, discrepâncias entre as taxas de precisão para homens e mulheres, e para pacientes brancos e negros.

Os modelos também foram capazes de prever o sexo, a raça e a idade dos indivíduos radiografados. Além disso, houve uma correlação significativa entre a precisão de cada modelo na realização de previsões demográficas e o tamanho da sua lacuna de justiça. Isto sugere que os modelos podem estar a utilizar categorizações demográficas como um atalho para fazer as suas previsões de doenças.

Os investigadores tentaram então reduzir as lacunas de justiça utilizando dois tipos de estratégias. Para um conjunto de modelos, eles treinaram-nos para otimizar a “robustez do subgrupo”, o que significa que os modelos são recompensados ​​por terem melhor desempenho no subgrupo para o qual têm o pior desempenho, e penalizados se a sua taxa de erro para um grupo for superior à outros.

Num outro conjunto de modelos, os investigadores forçaram-nos a remover qualquer informação demográfica das imagens, utilizando abordagens de “grupo adversário”. Ambas as estratégias funcionaram bastante bem, descobriram os pesquisadores.

“Para dados em distribuição, você pode usar métodos de última geração existentes para reduzir as lacunas de imparcialidade sem fazer concessões significativas no desempenho geral”, diz Ghassemi. “Os métodos de robustez de subgrupos forçam os modelos a serem sensíveis à previsão incorreta de um grupo específico, e os métodos adversários de grupo tentam remover completamente as informações do grupo.”

Nem sempre é mais justo

No entanto, essas abordagens só funcionaram quando os modelos foram testados em dados dos mesmos tipos de pacientes em que foram treinados – por exemplo, apenas pacientes do conjunto de dados do Beth Israel Deaconess Medical Center.

Quando os pesquisadores

4 views Aug 26, 2025