.
A quantidade de dados gerados pelos cientistas hoje é enorme, graças à queda nos custos da tecnologia de sequenciamento e à quantidade crescente de poder computacional disponível. Mas analisar todos esses dados para descobrir informações úteis é como procurar uma agulha molecular em um palheiro. O aprendizado de máquina (ML) e outras ferramentas de inteligência artificial (IA) podem acelerar drasticamente o processo de análise de dados, mas a maioria das ferramentas de ML é difícil de ser acessada e usada por especialistas que não são de ML. Recentemente, foram desenvolvidos métodos de aprendizado de máquina automatizados (AutoML) que podem automatizar o design e a implantação de ferramentas de ML, mas geralmente são muito complexos e exigem uma facilidade com ML que poucos cientistas fora do campo de IA possuem.
Um grupo de cientistas do Wyss Institute for Biologicamente Inspired Engineering da Universidade de Harvard e do MIT agora preencheu essa necessidade não atendida criando uma nova e abrangente plataforma AutoML projetada para biólogos com pouca ou nenhuma experiência em ML. Sua plataforma, chamada BioAutoMATED, pode usar sequências de ácidos nucléicos, peptídeos ou glicanos como dados de entrada, e seu desempenho é comparável a outras plataformas AutoML, exigindo entrada mínima do usuário. A plataforma é descrita em um novo artigo publicado na Sistemas celulares e está disponível para download no GitHub.
“Nossa ferramenta é para pessoas que não têm a capacidade de criar seus próprios modelos de ML personalizados, que se veem fazendo perguntas como: ‘Tenho este conjunto de dados interessante, o ML funcionará para ele? Como faço para colocá-lo em um Modelo de ML? A complexidade do ML é o que está me impedindo de ir mais longe com este conjunto de dados, então como posso superar isso? , Ph.D. “Queríamos facilitar para biólogos e especialistas em outros domínios o uso do poder do ML e do AutoML para responder a perguntas fundamentais e ajudar a descobrir a biologia que significa alguma coisa.”
AutoML para todos
Como muitas grandes ideias, a semente que se tornaria BioAutoMATED foi plantada não no laboratório, mas durante o almoço. Valeri e co-primeiros autores Luis Soenksen, Ph.D. e Katie Collins estavam comendo juntos em uma das mesas de jantar do Instituto Wyss quando perceberam que, apesar da reputação do Instituto como um destino de classe mundial para pesquisa biológica, apenas alguns dos principais especialistas que trabalhavam lá eram capazes de construir e treinar modelos de ML que poderia beneficiar muito o seu trabalho.
“Decidimos que precisávamos fazer algo sobre isso, porque queríamos que o Wyss estivesse na vanguarda da revolução biotecnológica da IA e também queríamos que o desenvolvimento dessas ferramentas fosse conduzido por biólogos, para biólogos”, disse Soenksen, um bolsista de pós-doutorado no Wyss Institute, que também é um empreendedor em série no espaço de ciência e tecnologia. “Agora, todos concordam que a IA é o futuro, mas quatro anos atrás, quando tivemos essa ideia, não era tão óbvio, principalmente para pesquisa biológica. Então, começou como uma ferramenta que queríamos construir para servir a nós mesmos e aos nossos colegas Wyss, mas agora sabemos que pode servir muito mais.”
Embora vários sistemas AutoML já tenham sido desenvolvidos para simplificar o processo de geração de modelos ML a partir de conjuntos de dados, eles geralmente apresentam desvantagens; entre eles, o fato de que cada ferramenta AutoML é projetada para olhar para apenas um tipo de modelo (por exemplo, redes neurais) ao procurar uma solução ideal. Isso limita o modelo resultante a um conjunto restrito de possibilidades, quando, na realidade, um tipo diferente de modelo pode ser mais ideal. Outro problema é que a maioria das ferramentas do AutoML não foi projetada especificamente para receber sequências biológicas como dados de entrada. Algumas ferramentas foram desenvolvidas que utilizam modelos de linguagem para análise de sequências biológicas, mas carecem de recursos de automação e são difíceis de usar.
Para criar um AutoML completo e robusto para biologia, a equipe modificou três ferramentas AutoML existentes, cada uma usando uma abordagem diferente para gerar modelos: AutoKeras, que procura redes neurais ideais; DeepSwarm, que usa algoritmos baseados em enxames para procurar redes neurais convolucionais; e TPOT, que pesquisa redes não neurais usando uma variedade de métodos, incluindo programação genética e autoaprendizagem. O BioAutoMATED produz resultados de saída padronizados para todas as três ferramentas, para que o usuário possa compará-las facilmente e determinar qual tipo produz os insights mais úteis de seus dados.
A equipe construiu o BioAutoMATED para poder receber como entradas sequências de DNA, RNA, aminoácidos e glicanos (moléculas de açúcar encontradas nas superfícies das células) de qualquer comprimento, tipo ou função biológica. O BioAutoMATED pré-processa automaticamente os dados de entrada e, em seguida, gera modelos que podem prever funções biológicas apenas a partir das informações da sequência.
A plataforma também possui vários recursos que ajudam os usuários a determinar se precisam coletar dados adicionais para melhorar a qualidade da saída, aprender quais recursos de uma sequência os modelos “prestaram mais atenção” (e, portanto, podem ser de maior interesse biológico ) e projetar novas sequências para experimentos futuros.
Nucleotídeos e peptídeos e glicanos, oh meu Deus!
Para testar sua nova estrutura, a equipe primeiro a usou para explorar como a alteração da sequência de um trecho de RNA chamado de sítio de ligação do ribossomo (RBS) afetou a eficiência com a qual um ribossomo poderia se ligar ao RNA e traduzi-lo em proteína em E. coli bactérias. Eles alimentaram seus dados de sequência no BioAutoMATED, que identificou um modelo gerado pelo algoritmo DeepSwarm que poderia prever com precisão a eficiência da tradução. Esse modelo teve um desempenho tão bom quanto os modelos criados por um especialista em ML profissional, mas foi gerado em apenas 26,5 minutos e exigiu apenas dez linhas de código de entrada do usuário (outros modelos podem exigir mais de 750). Eles também usaram o BioAutoMATED para identificar quais áreas da sequência pareciam ser as mais importantes na determinação da eficiência da tradução e para projetar novas sequências que poderiam ser testadas experimentalmente.
Eles então passaram para testes de alimentação de dados de sequência de peptídeos e glicanos no BioAutoMATED e usaram os resultados para responder a perguntas espec&
.png)
.png)
.png)
.png)