Usamos o teste A / B para comparar uma nova versão a uma linha de base para um design, um modelo de aprendizado de máquina ou praticamente qualquer recurso do que fazemos aqui…

Se você frequenta o Meta Avance Network, deve ter notado notícias de tempos em tempos sobre os testes A / B de vários recursos aqui no Avance Network. Usamos o teste A / B para comparar uma nova versão a uma linha de base para um design, um modelo de aprendizado de máquina ou praticamente qualquer recurso do que fazemos aqui no Avance Network; esses testes fazem parte do nosso processo de tomada de decisão. Qual versão de botão, modelo preditivo ou anúncio é melhor? Não precisamos adivinhar cegamente, mas, em vez disso, podemos usar testes como parte de nosso kit de ferramentas de tomada de decisão.

Fico entusiasmado com os testes A / B porque testes como esses aproveitam o poder das estatísticas e dos dados para impactar os detalhes do dia a dia de nossas escolhas de negócios. Dan é gerente de produto da equipe, e ela usou testes extensivamente em sua equipe para orientar as decisões. Des diz: “O teste A / B nos ajuda a ganhar confiança na mudança que estamos fazendo. Ajuda-nos a validar novas ideias e orientar a tomada de decisões. Sem o teste A / B, deixamos muito do que fazemos ao acaso.”

Ao mesmo tempo, pode haver confusão sobre como abordar um teste A / B, quais são os conceitos estatísticos envolvidos em tal teste e o que você faz antes de um teste e depois de um teste. Des e sua equipe aprenderam muito implementando muitos testes, mas também tiveram alguns tropeços. “Não percebemos na época, mas quando começamos os testes A / B, adotamos uma abordagem muito rigorosa nos cálculos para determinar o tamanho da amostra. Como resultado, estávamos executando testes por um período desnecessário de tempo e a maioria foi considerada inconclusiva. Basicamente, configuramos nossos testes para ter quase 100% de confiança, o que não é muito realista ou produtivo! ” Des diz.

Para começar o teste com o pé direito, precisamos planejar um teste A / B e realizar um cálculo de potência. Isso requer a definição de uma hipótese e grupos de teste e, em seguida, considerar duas questões.

 

Até que ponto precisamos ter certeza de que estamos medindo uma mudança real?

 

Qual é o tamanho da mudança que esperamos ver por causa da nova versão, em comparação com a linha de base?

 

Vamos começar com a primeira pergunta.

 

Quão certo você precisa ter?

 

 

Estou triste por ter que dizer isso a todos vocês, mas a resposta a essa primeira pergunta não pode ser 100%. Quando medimos algo no mundo real, nunca medimos com exatidão e precisão exatas. (É basicamente por isso que tenho um emprego, eu acho!) Existem duas quantidades principais que os estatísticos usam para falar sobre quanto e de que forma podemos estar errados na medição.

 

 

 

Que porcentagem do tempo estamos dispostos a perder um efeito real? Isso é medido pelo poder .

 

Que porcentagem do tempo estamos dispostos a ser enganados para ver um efeito por acaso? Isso é chamado de nível de significância e, mais precisamente, diríamos isso como a probabilidade de rejeitar a hipótese nula .

 

Também falamos sobre esses tipos de erros, como taxa de falsos negativos e taxa de falsos positivos, que podem ser muito fáceis de entender, dado o exemplo correto.

Os padrões estatísticos típicos para essas quantidades são 80% para potência (ou seja, 20% de chance de um falso negativo) e 5% para nível de significância. Por que esses padrões são usados ​​na prática? Essa é uma ótima pergunta com uma boa quantidade de bagagem e tradição por trás dela. Se escolhermos padrões muito rígidos, talvez 95% para potência e 1% para nível de significância, todos os nossos testes A / B precisarão ser executados por mais tempo e teremos que investir mais tempo e recursos nos testes. Não seremos capazes de iterar rapidamente para resolver nossos problemas de negócios. Por outro lado, não estamos curando câncer aqui, certo ?! E se relaxássemos esses padrões estatísticos? Então, corremos o risco de fazer mudanças após mudanças em nosso produto que não melhora nada, e de investir o trabalho de nossos desenvolvedores e outros membros da equipe em mudanças que não nos movem em direção aos nossos objetivos. Queremos ser Cachinhos Dourados-o-direito quando se trata desses padrões para nossos propósitos. Para nós do Avance Network isso significa usar consistentemente 80% para poder e 5% para nível de significância em nossos cálculos de poder antes de um teste A / B.

 

Quão grande é a sua mudança?

 

Nossa segunda pergunta aqui não é sobre padrões estatísticos, mas sim sobre a diferença que esperamos ver com a mudança proposta em comparação com o status quo. Algumas frases que as pessoas usam para falar sobre esse conceito são tamanho do efeito, melhoria esperada e limite de melhoria. O tamanho do efeito pode ser diferente em diferentes contextos e diferentes partes do nosso negócio.

Estimar o tamanho do efeito requer pensamento estratégico do produto. Des diz: “Você precisa primeiro entender o desempenho de diferentes áreas do seu produto. Compreender como cada parte de seu funil é convertida hoje ajuda a decidir o tamanho do efeito que você precisa ver para que a nova mudança valha a pena. Usamos perguntas diferentes para ajudar a estimar o tamanho do efeito. Quanto trabalho de desenvolvimento é necessário para graduar o teste? Quão estrategicamente importante é? Este recurso oferece suporte a planos futuros? Qual é o tamanho do público ou da ação que estamos otimizando? Essas respostas são detalhadas como critérios de sucesso em nossos planos de teste. ” Alguns dos fatores que Des leva em consideração ao estimar o tamanho do efeito são o volume de eventos que entram no funil que está sendo considerado, a taxa de conversão de linha de base do recurso,

 

Cálculos de poder

 

Depois de estimar o tamanho do efeito para nosso teste e conhecer os padrões estatísticos que usaremos no planejamento, podemos fazer um cálculo de poder para descobrir o tamanho da amostra de que precisamos para nosso teste. O objetivo de cálculos de poder como esses é descobrir o tamanho da amostra de que precisamos para nosso teste A / B, quantas visualizações ou usuários ou envios de formulários ou outras interações que precisamos em cada grupo para atingir o poder necessário para nosso teste. Então podemos finalmente começar nosso teste! É hora de esperar que esses eventos ocorram.

Como calculamos o tamanho da amostra de que precisamos p