Atenção: Seu RPV Significância Estatística de Teste Calculadora é Enganosa

0
41
Caution: Your RPV Statistical Significance Test Calculator is Misleading
Caution: Your RPV Statistical Significance Test Calculator is Misleading

Atenção: Seu RPV Significância Estatística de Teste Calculadora é Enganosa

1 de março de 2018

Conversão De Testes

Share Tweet Share +10 Ações

A significância estatística cálculos são críticos, e usando o botão direito do teste da calculadora é imperativo para assegurar que o seu negócio é tomar as decisões certas.

Há um perigo real na tentativa de assumir que a receita se comporta como outras métricas padrão
Clique & Tweet!

Para adicionar contexto, no mundo do marketing e negócios, um monte de decisões são baseadas em fazer ajustes para algo como um site da web e, em seguida, determinar se os ajustamentos efectuados com impacto significativo no negócio. Isto é o que o teste A/B se refere neste post.

Quando da comparação de duas amostras de dados, normalmente um seria executado fora de um padrão de significância estatística de teste A/B calculadora que leva em dados e fornece algum significado números sob a suposição de que todos os dados é normal. O seguinte é o que uma distribuição normal, muitas vezes chamado de “Curva do Sino,” se parece.normal distribution or bell curve

A maioria dos dados é normalmente distribuída, então, um típico duas amostras t-test é suficiente, mas que se os dados não é normal? E o que se operam sob a suposição de normalidade leva a resultados que não são tão confiáveis?

Um usuário da Explosão Receita Por Visitante teste calculadora apontou este perigo real:

“É muito interessante ver que tantas pessoas lá fora, realmente não sei qual é o tipo de base que eles tomem suas decisões. Especialmente se eles basta usar algum bom software de procura ou ouvir algumas daquelas “é tão fácil” agências. Se você cavar mais fundo torna-se muito mais complexo.”

Receita por visitante (RPV), o principal KPI para a maioria das empresas de comércio eletrônico, é exatamente assim, distorcida e anormal. Como vamos discutir em mais detalhe, há um real perigo de ocorrência de falsos positivos quando supondo-se que a receita se comporta como outras métricas padrão.

O propósito deste blog é proporcionar a sua equipe com um melhor entendimento da metodologia utilizada na Explosão de Receita Por Visitante (RPV) calculadora. Se você é um varejista on-line, e sua equipe está olhando para tomar decisões de negócios com base nos resultados de seus testes, as chances são que você vai querer usar uma significância estatística de teste calculadora que utiliza a mais rigoroso e fiável metodologia.

Alguns podem não considerar ser o “mais fácil”, mas ele vai ser muito mais confiável e digna de confiança, como você verá abaixo.

A receita é Anormal: Eis Por que motivo É importante

A receita de dados é considerado não-paramétrica de dados.

Ou simplesmente, não segue o “normal curva em forma de sino.” A maioria das pessoas que visitam um site não vai comprar o produto, o que cria distribuições como o mostrado abaixo. Isso não seria problemático, se não pela falta de confiança dos parâmetros normais, tais como média e variância.

screenshot of sample revenue date chart

Se você olhar para a distribuição assimétrica abaixo, você vai ver que a média não é uma estatística confiável porque não é no meio dos dados!

Você pode usar mediana, mas novamente você perde um monte de dados, simplesmente usando o valor médio da distribuição. Portanto, usando parâmetros como a variância e média/mediana para comparar conjuntos de dados quando há uma inclinação pode ser arriscado, e essa abordagem é que muitos significância estatística calculadoras tomar.
left skewed and right skewed bell curves

Nem Todos os Cálculos de Receita são o Mesmo

Enquanto a significância estatística é importante, é tão importante para entender a metodologia de teste da calculadora está usando antes de confiar nos resultados.

Uma coisa é se a calculadora está dizendo a você que seus resultados são significativos, mas é muito mais arriscado se a sua significância estatística da calculadora está dando um falso-positivo e proceder de acordo com o pressuposto de que você tenha resultados significativos. Nós recomendamos fortemente contra a sua equipe, fazendo a suposição de que todas as receitas calculadoras são o mesmo, especialmente se a metodologia por trás dos cálculos são diferentes.

Nós recomendamos fortemente contra a sua equipe tornando o assumptiem que todas as receitas calculadoras são o mesmo, especialmente se a metodologia por trás dos cálculos são diferentes.
Clique & Tweet!

Agora todos os tecnicismos de lado, a não-paramétrica de dados (como receita) deve ser tratada como o que é em vez de tentar encaixar um pino quadrado em um buraco redondo.

Sabemos que as equipas que estão à procura de validação dos seus dados de teste e criamos a RPV Calculadora para fornecer os resultados mais precisos para a sua equipa principal de KPIs. Para alcançar este nível de precisão, a Receita Por Visitante Calculadora depende de o poderoso U de Mann-Whitney Teste de R para lidar com o mais pesado cálculos.

Como resultado, a RPV calculadora pode aceitar apenas arquivos CSV. O “fácil” teste de calculadoras não utilize o teste de Mann-Whitney U Test e, em vez disso, pode utilizar um proxy abordagem em que, devido a dados inclinados, eles teriam a amostra de cada população (ou amostra) muitas vezes. A partir deste, a calculadora iria encontrar a média da média da amostra para cada população, e usar isso para realizar o teste-t. Enquanto esta abordagem pode ser viável, pode não só produzir menos resultados confiáveis (porque depende de parâmetros, ao invés de incluir um conjunto de dados inteiro), mas desnecessariamente apresenta muito mais complexidade com tanta amostragem.

Então, qual é a principal vantagem? Ambos os testes são viáveis, mas o teste de Mann-Whitney U Test serve para o cálculo de métricas de receita.
Clique & Tweet!

Então, qual é a principal vantagem?

Ambos os testes são viáveis, mas o teste de Mann-Whitney U Test é significava para o cálculo de métricas de receita. e ele não exige que os dados sejam manipulados para fazê-lo funcionar, ao contrário do padrão teste t de abordagem (o que requer a suposição de normalidade).

Além disso, ao utilizar o teste t para dados anormais, é possível chegar a um significado mais cedo; isso cria um risco mais elevado de ter um falso positivo. Usando o teste de Mann-Whitney U Test, no entanto, pode ser mais confiantes de que, se o teste retorna significado, na verdade, é um resultado significativo.

Para mais destaque por que sua equipe não deve assumir que todas as receitas calculadoras são os mesmos. Abaixo temos comparado a nossa calculadora com outro (considerado um dos “mais fáceis” de significância estatística de teste A/B calculadoras para uso, pois permite um método copiar / colar). Com esta comparação, você será capaz de ver como o uso adequado de significância de cálculo (ex. Mann-Whitney U test) pode afetar diretamente o rigor dos reais resultados do teste.

Exemplo de outra receita calculadora (não utilizando o teste de Mann-Whitney U test):

revenue calculator not using mann whitney u test

Esta calculadora produz um 91.19%de nível de significância para os dados de teste. Se nós olharmos para somente essa importância de cálculo, o teste resultados parecem promissores. Na verdade, se sua equipe usa um 90% de significância estatística limite que você pode até mesmo decidir tomar uma decisão de negócios para avançar com a aplicação do teste de variação.

Se partirmos do princípio de que todas as receitas calculadoras são os mesmos, então devemos ver um semelhante nível de significância com a Explosão Receita Por Visitante Calculadora, pois estamos usando o mesmo teste exato de dados.

Explosão de RPV Calculadora (Mann-Whitney U Test)screenshot of blast rpv calculator using mann whitney u test

De acordo com o RPV Calculadora, os mesmos dados de teste resultou em apenas 73% de significância estatística!

Mesmo se o seu time tivesse a mesma de 90% de significância estatística limiar estes resultados não estão nem perto de significativo. Neste caso, sua equipe provavelmente decidir não tomar ação para implementar a variação. O exemplo acima ilustra o risco real de seu time poderão ocorrer se você usar um teste A/B calculadora que precisa dobrar os dados, usar um “mais fácil” de teste em vez de furar com uma abordagem que significou para lidar com não-paramétrica de dados, como receita.

A Explosão de RPV Calculadora não podem ser considerados como “fácil” como cortar e colar solução, mas a formatação do arquivo CSV (com uma coluna de nível de usuário de receita para o controle, e uma coluna de nível de usuário de receita para a variação) não é muito difícil. formatting csv file for RPV calculator

Mais importante ainda, uma ligeira diferença na facilidade de uso não deve servir como um obstáculo para a obtenção de qualidade de resultados de sua equipe pode depender.

Uma ligeira diferença na facilidade de uso não deve servir como um obstáculo para a obtenção de qualidade de resultados de sua equipe pode depender.

Uma outra vantagem de usar a Explosão de RPV calculadora é que é uma “one stop shop” , uma vez que funciona para testes de dados distribuídos normalmente, bem como os não-paramétrica de dados, e não se limita a conjuntos de dados, sendo o mesmo comprimento. A Explosão Receita Por Visitante calculadora não oferecem flexibilidade como ele pode trabalhar para uma série de formatos diferentes de dados. Ele é compatível com ambos os delimitado por vírgula decimal período de dados, bem como o ponto-e-vírgula delimitada por vírgula decimal de dados que é comumente encontrado em alguns países Europeus.

Quando existem testes (ex. não-paramétrico de testes U de Mann-Whitney) que mantêm o rigor da significância estatística cálculo, faria mais sentido para a depender de calculadoras que aderem a essas metodologias.

Estatísticas Simplificado

Vamos explicar rapidamente como seria de se aproximar de um normalmente distribuído exemplo. Espero que sua equipe será capaz de ver por que você não deve usar isso em distorcida de dados, e como acomodar a falta de parâmetros.

Se há dois conjuntos de dados distribuídos normalmente, o método para descobrir se eles são diferentes ou não é chamado o teste-t. Para o t-teste, você vai precisar encontrar a média (mean) de cada conjunto de dados, subtrair os médias, e dividi-los por seus desvios-padrão dividido pela raiz quadrada do tamanho da amostra. Você está provavelmente coçando a cabeça sobre a direita agora, então eu vou entrar em detalhes um pouco mais abaixo.

t test formulaCom um teste-t queremos descobrir se a média da amostra 1 e a média da amostra 2 são significativamente diferentes o suficiente para que eles teriam um grande número de diferenças, ou subtraídas uma da outra.

As possibilidades são, se é muito grande, então eles provavelmente diferentes.

Nós usamos o desvio padrão para ajustar para a propagação dos dados e o tamanho da amostra como uma forma de adicionar o rigor do nosso cálculo. Assim, se a Amostra 1 possui uma média de 100 e a Amostra 2 apresenta uma média de 10, com ambos tendo dados suficientes pontos de presente para nos dizer como fortemente distribuído a cada amostra, podemos tirar uma boa conclusão de que elas são diferentes.

Para um não-paramétrica do conjunto de dados, a nossa média de maio não estar no centro dos nossos dados, e o nosso spread é difícil de determinar, uma vez que ele não seria o mesmo em ambos os lados da média.non parametric set of data

ORIGEM

Uma solução para isso seria a de não usar a média e a variância, exceto que agora não podemos usar o teste-t. Em vez disso, podemos usar os próprios valores para comparação entre amostras. Isso é exatamente o que todos os não-paramétrico de testes e o método de Explosão da RPV calculadora leva vantagem.

O t-teste não-paramétrico equivalente, chamado U de Mann-Whitney/Wilcoxon Teste, se baseia na utilização de um sistema de classificação para comparação de duas amostras. Ele funciona através da combinação de todas as receitas, os valores das duas amostras em um vetor, e reorganizando-os em ordem crescente. Em seguida, ele separa-los novamente, lembrando o “rank” de cada valor, e testa a diferença de duas amostras, utilizando a posição.

Exemplo Rápido:

Exemplo 1: 2, 3, 4, 5 Exemplo 2: 2, 7, 8, 10

Combinado Vetor: 2(1), 2(2), 3(1), 4(1), 5(1), 7(2), 8(2), 10(2)

Fileiras: 1.5(1), 1.5(2), 3(1), 4(1), 5(1), 6(2), 7(2), 8(2)

Exemplo 1 Pontuação De Classificação: 1.5 + 3 + 4 + 5 = 13.5

Exemplo 2 Pontuação De Classificação: 1.5 + 6 + 7 + 8 = 23.5

Usando a Pontuação de Classificação para cada amostra, podemos determinar que a amostra é maior, ou se eles estão muito perto de se distinguir.

Então, o que exatamente está acontecendo aqui?

Bem, a primeira coisa a notar é que usar CADA ponto de dados. Sem agregação ou parâmetros. Como uma explicação básica, podemos combinar a amostra 1 e amostra 2, e garantir que lembrar que exemplo de cada valor veio. Nós, em seguida, ordená-los, neste caso de 1 a 8, e usar .5 para ter em conta quaisquer valores que são os mesmos em ambas as amostras, ou como eles são formalmente conhecidos, “laços.” Em seguida, usando essa ordem, ou posição, nós some todos os valores de classificação para cada amostra, e produzir uma pontuação.

Entender as Diferenças na Significância Estatística Calculadoras

Se o seu time baseia-se em resultados de testes para tomar importantes decisões de negócios, é essencial ter uma melhor compreensão das ferramentas (i.e. a significância estatística de teste A/B calculadoras) que a sua equipa está a utilizar para analisar os resultados.

Nem todas as receitas calculadoras são os mesmos. Alguns podem ser considerados “mais fácil” porque de características user-friendly, como cortar e colar opções; no entanto, não é susceptível de ser um trade-off, principalmente, o potencial de impacto para o rigor dos resultados do seu teste.

A Explosão de RPV Calculadora utiliza o teste de Mann-Whitney U para calcular a significância para a receita, porque entendemos que a receita está no fato de anormal. Quando já existe um teste não-paramétrico de que é perfeitamente adequado para trabalhar com este tipo de dados, não há necessidade de torcer e dobrar os seus dados para fazê-lo funcionar com um teste-t, que é destinado para métricas normais.

Como mostrado no exemplo anterior, a significância estatística, os cálculos podem ser diferentes, mesmo para o mesmo conjunto de dados de teste. Desde o RPV Calculadora está usando o teste de que significou para calcular significado para métricas exatamente como a receita, ele oferece um alto nível de rigor nos cálculos em comparação com o “mais fácil” teste A/B calculadoras.

Há um monte de boas alternativas lá fora, e nós encorajamos você a encontrar um que se encaixa a sua equipe. Se você está lidando com não-paramétrica de dados, tais como as receitas de um negócio de e-commerce, nós recomendamos fortemente que você mergulhe fundo e obter uma melhor compreensão sobre como que o teste específico de obras. O RPV calculadora é projetado para fornecer insights precisos, evitar falsos positivos, e permitir-lhe agir sobre essas ideias usando o melhor método possível.

Se você estiver interessado em um trabalho aprofundado de desagregação dos diferentes meio de testes não paramétricos, certifique-se de manter um olho para fora para o nosso próximo livro branco sobre este tópico.

“Eu acho que você está fazendo um ótimo trabalho ajudando as pessoas a [fazer] as decisões educadas e não apenas [mostrando] olhando agradável gráficos!” – Explosão de RPV Calculadora Usuário
Clique & Tweet!

Posts Relacionados:

 

imagem30-04-2018-19-04-49

Jack é uma Ciência de Dados Analista de Explosão do google Analytics E de Marketing, onde ele ajuda os clientes a entender e usar a Máquina de Aprendizagem e de análise de Dados para responder as questões comerciais. Ele tem um Mestrado em Economia pela Universidade de Rice e um diploma de Bacharel da Universidade do Pacífico em Engenharia. Jack Dwyer já escreveu 1 posts sobre Web Analytics do Blog.


 

DEIXE UMA RESPOSTA

Please enter your comment!
Please enter your name here

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.