A IA terá um tremendo impacto em nossas vidas. Como podemos nos preparar para isso?

 

Além dos vários eventos geopolíticos que definiram 2022, no nível tecnológico, foi o ano da IA. Eu também posso começar confessando: até muito recentemente, sempre que me perguntavam sobre IA em segurança cibernética, eu descartava isso como vaporware . Sempre soube que o aprendizado de máquina tinha muitas aplicações no mundo real; mas para nós, no mundo da infosec, a IA só foi usada nos lançamentos de produtos mais complicados. Para mim, “alimentado por IA” era apenas uma maneira elegante de os fornecedores dizerem “não temos base de conhecimento ou telemetria existente, então criamos algumas heurísticas”. Continuo convencido de que em mais de 95% dos casos, os produtos resultantes também continham pouca IA real. Mas o problema é que, enquanto as equipes de marketing estavam ocupadas colocando adesivos “AI” em qualquer produto que envolvesse k -means cálculo como parte de sua operação, o campo de IA real estava realmente progredindo.

O dia do acerto de contas para mim chegou quando experimentei o DALL-E 2 pela primeira vez (e logo depois, Midjourney ). Ambos os projetos permitem gerar imagens com base em descrições textuais e já causaram grande turbulência no mundo da arte.

 

modelos de linguagem

 

Nas palavras de Arthur C. Clarke, “qualquer tecnologia suficientemente avançada é indistinguível da magia”. Adoro como a tecnologia às vezes pode trazer esse sentimento de admiração para nossas vidas, mas esse sentimento infelizmente atrapalha quando tentamos pensar sobre as implicações ou limites de um novo avanço. Por esse motivo, acho que primeiro precisamos dedicar algum tempo para entender como essas tecnologias funcionam nos bastidores.

Vamos começar com ChatGPT. É um modelo de linguagem; em outras palavras, é uma representação da nossa linguagem. Como é o caso de muitos grandes projetos de aprendizado de máquina, ninguém sabe realmente como esse modelo funciona (nem mesmo o OpenAI, seus criadores). Sabemos como o modelo foi criado, mas é muito complexo para ser entendido formalmente. O ChatGPT, sendo o maior modelo de linguagem (público?) até hoje, tem mais de 175 bilhões de parâmetros. Para entender o que isso significa, imagine uma máquina gigante com 175 bilhões de botões que você pode ajustar. Toda vez que você envia um texto para o ChatGPT, esse texto é convertido em uma configuração para cada um desses botões. E, finalmente, a máquina produz a saída (mais texto) com base em sua posição. Há também um elemento de aleatoriedade, para garantir que a mesma pergunta nem sempre leve exatamente à mesma resposta (mas isso também pode ser ajustado).

 

Esta é a razão pela qual percebemos esses modelos como caixas-pretas: mesmo que você passasse a vida estudando a máquina, não está claro se você seria capaz de descobrir o propósito de um único botão (muito menos de todos eles). . Ainda assim, sabemos o que a máquina faz porque conhecemos o processo pelo qual ela foi gerada. O modelo de linguagem é um algoritmo que pode processar texto e foi alimentado com muito durante sua fase de treinamento: toda a Wikipedia, páginas da web raspadas, livros etc. Isso permitiu a criação de um modelo estatístico que conhece a probabilidade de ter uma palavra segue a outra. Se eu disser “rosas são vermelhas, violetas são”, você pode adivinhar com um grau relativamente alto de confiança que a próxima palavra será “azul”. Em poucas palavras, é assim que qualquer modelo de linguagem funciona. A tal modelo, terminar sua frase não é diferente de adivinhar qual sequência de palavras provavelmente seguirá sua pergunta com base em tudo o que foi lido antes. No caso do ChatGPT, havia mais uma etapa envolvida – chamada de ajuste fino supervisionado. Os “treinadores de IA” humanos tiveram vários bate-papos com o bot e sinalizaram todas as respostas consideradas problemáticas (imprecisas, tendenciosas, racistas, etc.) para que ele aprendesse a não repeti-las.

Se você não consegue entender a IA, arquive-a em “matemática” ou “estatística”: o objetivo desses modelos é a previsão. Ao usar o ChatGPT, desenvolvemos facilmente a sensação de que a IA “sabe” as coisas, pois é capaz de retornar informações contextualmente relevantes e específicas do domínio para consultas que vê pela primeira vez. Mas não entende o que qualquer uma das palavras significa: só é capaz de gerar mais texto que “parece” ser uma continuação natural do que foi dado. Isso explica por que o ChatGPT pode apresentar um argumento filosófico complexo, mas muitas vezes tropeça na aritmética básica: é mais difícil prever o resultado do cálculo do que a próxima palavra em uma frase.

Além disso, não tem memória: seu treinamento terminou em 2021 e a modelo está congelada. As atualizações vêm na forma de novos modelos (ou seja, GPT-4 em 2024) treinados em novos dados. Na verdade, o ChatGPT nem se lembra das conversas que você está tendo com ele: o histórico recente do bate-papo é enviado junto com qualquer novo texto que você digita para que o diálogo pareça mais natural.

Se isso ainda se qualifica como “inteligência” (e se isso é significativamente diferente da inteligência humana) será o assunto de acalorados debates filosóficos nos próximos anos.

 

Modelos de difusão

 

Ferramentas de geração de imagens como Midjourney e DALL-E são baseadas em outra categoria de modelos. Seu procedimento de treinamento, obviamente, se concentra na geração de imagens (ou coleções de pixels) em vez de texto. Na verdade, são necessários dois componentes para gerar uma imagem com base em uma descrição textual, e o primeiro é muito intuitivo. O modelo precisa de uma maneira de associar palavras a informações visuais, por isso é alimentado com coleções de imagens legendadas. Assim como no ChatGPT, acabamos com uma máquina gigante e inescrutável que é muito boa em combinar imagens com dados textuais. A máquina n&