.
Por mais de 20 anos, os cientistas confiaram no genoma humano de referência, uma sequência genética consensual, como padrão para comparar outros dados genéticos. Utilizado em inúmeros estudos, o genoma de referência tem permitido identificar genes implicados em doenças específicas e traçar a evolução de características humanas, entre outras coisas.
Mas sempre foi uma ferramenta defeituosa. Um de seus maiores problemas é que cerca de 70% de seus dados vieram de um único homem de origem predominantemente afro-europeia cujo DNA foi sequenciado durante o Projeto Genoma Humano, o primeiro esforço para capturar todo o DNA de uma pessoa. Como resultado, pode nos dizer pouco sobre o 0,2 a um por cento da sequência genética que torna cada uma das sete bilhões de pessoas neste planeta diferentes umas das outras, criando um viés inerente nos dados biomédicos que se acredita serem responsáveis por alguns dos problemas de saúde. disparidades que afetam os pacientes hoje. Muitas variantes genéticas encontradas em populações não europeias, por exemplo, não estão representadas no genoma de referência.
Durante anos, os pesquisadores pediram um recurso mais inclusivo da diversidade humana para diagnosticar doenças e orientar tratamentos médicos. Agora, os cientistas do Consórcio de Referência do Pangenoma Humano fizeram progressos inovadores na caracterização da fração do DNA humano que varia entre os indivíduos. Como eles publicaram recentemente em Naturezaeles reuniram sequências genômicas de 47 pessoas de todo o mundo em um chamado pangenoma, no qual mais de 99% de cada sequência é processada com alta precisão.
Em camadas umas sobre as outras, essas sequências revelaram quase 120 milhões de pares de bases de DNA que não eram vistos anteriormente.
Embora ainda seja um trabalho em andamento, o pangenoma é público e pode ser usado por cientistas de todo o mundo como um novo padrão de referência do genoma humano, diz Erich D. Jarvis, da Universidade Rockefeller, um dos principais investigadores.
“Esta complexa coleção genômica representa uma diversidade genética humana significativamente mais precisa do que jamais foi capturada antes”, diz ele. “Com uma maior amplitude e profundidade de dados genéticos à sua disposição e maior qualidade dos conjuntos de genomas, os pesquisadores podem refinar sua compreensão da ligação entre genes e características de doenças e acelerar a pesquisa clínica”.
Diversidade de fornecimento
Concluído em 2003, o primeiro rascunho do genoma humano era relativamente impreciso, mas tornou-se mais nítido ao longo dos anos graças ao preenchimento de lacunas, erros corrigidos e avanço da tecnologia de sequenciamento. Outro marco foi alcançado no ano passado, quando os oito por cento finais do genoma – principalmente DNA fortemente enrolado que não codifica para proteínas e regiões repetitivas de DNA – foi finalmente sequenciado.
Apesar desse progresso, o genoma de referência permaneceu imperfeito, especialmente no que diz respeito ao crítico 0,2 a um por cento do DNA que representa a diversidade. O Human Pangenoma Reference Consortium (HPRC), uma colaboração financiada pelo governo entre mais de uma dúzia de instituições de pesquisa nos Estados Unidos e na Europa, foi lançado em 2019 para resolver esse problema.
Na época, Jarvis, um dos líderes do consórcio, estava aprimorando sequenciamento avançado e métodos computacionais por meio do Projeto Genomas de Vertebrados, que visa sequenciar todas as 70.000 espécies de vertebrados. Seu e outros laboratórios colaboradores decidiram aplicar esses avanços para conjuntos de genoma diplóide de alta qualidade para revelar a variação dentro de um único vertebrado: homo sapiens.
Para coletar uma diversidade de amostras, os pesquisadores recorreram ao Projeto 1000 Genomas, um banco de dados público de genomas humanos sequenciados que inclui mais de 2.500 indivíduos representando 26 populações geograficamente e etnicamente variadas. A maioria das amostras vem da África, que abriga a maior diversidade humana do planeta.
“Em muitos outros grandes projetos de diversidade do genoma humano, os cientistas selecionaram principalmente amostras europeias”, diz Jarvis. “Fizemos um esforço proposital para fazer o oposto. Estávamos tentando neutralizar os preconceitos do passado.”
É provável que variantes genéticas que possam informar nosso conhecimento sobre doenças comuns e raras possam ser encontradas entre essas populações.
Mãe, pai e filho
Mas, para ampliar o pool genético, os pesquisadores tiveram que criar sequências mais nítidas e claras de cada indivíduo – e as abordagens desenvolvidas pelos membros do Vertebrate Genome Project e consórcios associados foram usadas para resolver um problema técnico de longa data no campo.
Cada pessoa herda um genoma de cada pai, e é assim que acabamos com duas cópias de cada cromossomo, dando-nos o que é conhecido como genoma diplóide. E quando o genoma de uma pessoa é sequenciado, separar o DNA dos pais pode ser um desafio. Técnicas e algoritmos mais antigos cometeram erros rotineiramente ao mesclar dados genéticos dos pais de um indivíduo, resultando em uma visão nublada. “As diferenças entre os cromossomos da mãe e do pai são maiores do que a maioria das pessoas imagina”, diz Jarvis. “A mãe pode ter 20 cópias de um gene e o pai apenas duas.”
Com tantos genomas representados em um pangenoma, essa nebulosidade ameaçou se transformar em uma tempestade de confusão. Assim, o HPRC baseou-se em um método desenvolvido por Adam Phillippy e Sergey Koren no National Institutes of Health em “trios” pai-filho – uma mãe, um pai e uma criança cujos genomas foram todos sequenciados. Usando os dados da mãe e do pai, eles conseguiram esclarecer as linhas de herança e chegar a uma sequência de maior qualidade para a criança, que eles usaram para análise do pangenoma.
Novas variações
A análise dos pesquisadores de 47 pessoas rendeu 94 sequências genômicas distintas, duas para cada conjunto de cromossomos, mais o cromossomo sexual Y nos homens.
Eles então usaram técnicas computacionais avançadas para alinhar e sobrepor as 94 sequências. Dos 120 milhões de pares de bases de DNA que não foram vistos anteriormente ou em um local diferente do que foi observado na referência anterior, cerca de 90 milhões derivam de variações estruturais, que são diferenças no DNA das pessoas que surgem quando pedaços de cromossomos são rearranjados – – movido, excluído, invertido ou com cópias extras de duplicações.
É uma descoberta importante, observa Jarvis, porque est
.png)
.png)
.png)
.png)