.

Imagine pesquisadores explorando uma sala escura com uma lanterna, sendo capaz apenas de identificar claramente o que está dentro daquele único feixe. Quando se trata de comunidades microbianas, os cientistas têm sido historicamente incapazes de ver além do feixe – pior, eles nem sequer sabiam o tamanho da sala.

Um novo estudo publicado online em 11 de outubro de 2023 em Natureza destaca a vasta gama de diversidade funcional dos micróbios através de uma nova abordagem para compreender melhor as comunidades microbianas, observando a função das proteínas dentro delas. O trabalho foi liderado por uma equipe de cientistas do Joint Genome Institute (JGI) do Departamento de Energia dos EUA (DOE), uma instalação de usuário do DOE Office of Science localizada no Laboratório Nacional Lawrence Berkeley (Berkeley Lab) e colaboradores de vários outros centros de pesquisa. ao redor do mundo.

“Mais do que duplicámos o número de famílias de proteínas conhecidas até agora e identificámos muitas novas previsões de estruturas”, disse o principal autor do artigo, Georgios Pavlopoulos, agora diretor de investigação no Centro de Investigação em Ciências Biomédicas. Alexandre Fleming. “Esta foi uma análise massiva de 1,3 bilhão de proteínas com cálculos massivamente paralelos”.

Guiada por cientistas do JGI, a equipe embarcou em uma missão para desvendar os mistérios escondidos no reino funcional “escuro”. Seu foco se concentrou na decifração do intrincado mundo da diversidade funcional das proteínas: as novas famílias de proteínas e as novas funções em micróbios ainda não revelados. Aproveitando o poder coletivo de mais de 26.000 conjuntos de dados de microbiomas, todos acessíveis através do banco de dados de Genomas Microbianos e Microbiomas Integrados (IMG/M) disponível publicamente, eles criaram com sucesso o Catálogo de Novas Famílias de Proteínas Metagenômicas (NMPF).

“Agora podemos analisar novos conjuntos de dados comparando com essas famílias de proteínas, ou analisar ainda mais as famílias de proteínas, a fim de prever novas funções”, disse Nikos Kyrpides, autor sênior do estudo e chefe do grupo Microbiome Data Science do JGI.

Iluminando a “matéria escura” funcional

As comunidades microbianas que vivem em todo o lado, desde os solos e estômagos até às profundezas do mar, são capazes de fazer muitas coisas únicas no que diz respeito aos ciclos de energia – transformar biomassa em coisas como etanol ou hidrogénio, ou energia solar em hidrogénio.

As comunidades microbianas também são incrivelmente difíceis de estudar. Muitos dos micróbios dentro deles não podem ser cultivados em laboratório. Como cada comunidade microbiana tem sua própria composição única de atores microbianos e as funções que desempenham, é impossível replicar artificialmente uma comunidade inteira.

O sequenciamento metagenômico permite aos pesquisadores estudar toda a composição genética dessas comunidades por meio do sequenciamento completo do genoma das amostras, sem ser capaz de distinguir qual gene pertence a cada espécie microbiana individual dentro de uma comunidade. Portanto, o processo depende da referência às sequências do genoma existentes.

Algumas dessas proteínas são o que os cientistas chamam de “conhecidos” – isto é, são semelhantes a genes com função conhecida. Outros são chamados de “desconhecidos conhecidos” – isto é, são semelhantes a genes previamente conhecidos de organismos isolados, mas ainda não temos certeza de sua função.

No entanto, se um gene na comunidade não corresponder a nenhum dos genes previamente conhecidos de isolados, não há muito que os cientistas possam dizer sobre a sua função ou a sua origem. Como resultado, estes genes foram normalmente descartados de qualquer análise como informação inútil. Eles representam as “incógnitas desconhecidas” porque não são semelhantes a nada que já definimos.

“Uma enorme percentagem – cerca de 30-50% das famílias de proteínas que conhecíamos até agora – ainda não tem qualquer função conhecida, mas conhecíamos as famílias”, disse Kyrpides. No entanto, “quase 20 anos de dados metagenómicos e análises metagenómicas, e ainda não houve uma análise real das famílias de proteínas dos metagenomas per se”.

Recentemente, outras equipas de investigação aproveitaram o poder da inteligência artificial para descodificar a linguagem das sequências de proteínas e obter dicas das suas possíveis funções. No entanto, estes esforços limitaram-se ao domínio das sequências de proteínas já conhecidas.

“Neste esforço, não só nos aventuramos no território desconhecido da compreensão da vasta paisagem da diversidade funcional, mas também expandimos os limites ao aplicar metodologias de IA para desvendar as suas funções”, disse Pavlopoulos. “Consequentemente, acumulamos um extenso repositório de insights inovadores, expandindo significativamente os horizontes de funções potenciais em várias categorias de proteínas, incluindo aquelas com aplicações essenciais em biotecnologia, como enzimas de edição de DNA”.

Aproveitando famílias de proteínas de uma nova maneira

A descoberta de novas famílias de proteínas começou a estagnar nos últimos anos, talvez sugerindo que os cientistas tinham “capturado” grande parte da diversidade existente, mesmo que ainda não tivessem definido exatamente o que faziam. Mas que tipo de diversidade essas “incógnitas desconhecidas” poderiam conter?

A equipe começou com 8 bilhões de genes metagenoma do IMG (o estudo também faz referência a dados dos Genomas do Microbioma da Terra do JGI, ou catálogo GEM). Em seguida, removeram quaisquer genes que tivessem, mesmo que remotamente, semelhança com genes anteriormente conhecidos, deixando-os com cerca de 1,2 mil milhões de novos genes.

Eles pegaram o que sobrou e os agruparam em famílias. A partir daí eles se concentraram em famílias com pelo menos 100 membros.

“Se você tiver 100 sequências, a qualidade do cluster é significativamente maior porque é muito difícil ter 100 sequências de diferentes locais ou habitats que se alinhem muito bem, aleatoriamente”, explicou Kyrpides. “Replicar isso 100 vezes teria sido quase impossível.”

Qua

4 views Aug 28, 2025