Калькулятор A/B-теста
Рассчитайте статистическую значимость A/B теста (p-value, z-score) или необходимый размер выборки. Двусторонний z-test для двух пропорций. Без регистрации.
Вариант A (контроль)
Вариант B (тест)
Вердикт
Не значимо — нужно больше данных
Уверенность: 84,71% · p-value: 0,1529
Конверсия A
10%
Конверсия B
12%
Прирост (uplift)
+20%
z-статистика
1,429
Формула two-proportion z-test
z = (p₂ − p₁) / √(p̄ · (1 − p̄) · (1/n₁ + 1/n₂))
p̄ — общая конверсия по обеим группам. Двусторонний p-value считается через нормальное распределение.
Как пользоваться калькулятором
Один инструмент закрывает обе задачи продуктового аналитика: спланировать тест до запуска и оценить значимость по итогам.
Выберите режим
Сверху переключите между «значимостью теста» (анализ уже собранных данных) и «размером выборки» (планирование будущего теста).
Введите данные
Для значимости — посетители и конверсии по каждой группе. Для размера выборки — базовая конверсия, MDE, уровень значимости и мощность.
Получите результат
Вы увидите вердикт о значимости с p-value и z-score, либо точное число пользователей, нужное на каждый вариант теста.
Преимущества калькулятора
Два инструмента в одном
До теста — планируйте размер выборки. После теста — проверяйте статистическую значимость. Без переключения между сервисами.
Прозрачные формулы
Используем классический two-proportion z-test и стандартную формулу sample size для двух пропорций. Никаких чёрных ящиков.
Подходит для любых бинарных метрик
Конверсия, CTR, retention, клики по кнопке — всё, что измеряется как «случилось / не случилось» у уникального пользователя.
Частые вопросы про A/B-тесты
Какой p-value считается значимым?
Традиционно — меньше 0.05, что соответствует 95% уверенности в том, что разница между вариантами не случайна. В чувствительных областях (медицина, финансы) берут более строгий порог 0.01.
Что такое MDE?
Minimum Detectable Effect — минимальное улучшение, которое тест сможет уловить с заданной мощностью. Если базовая конверсия 10% и MDE=10%, тест засечёт изменение конверсии до 11% и выше. Меньший MDE требует кратно большего размера выборки.
Что такое statistical power?
Вероятность правильно заметить эффект, если он реально есть. Стандарт индустрии — 80%: тест с такой мощностью пропустит реальное улучшение в 20% случаев. Для важных решений берут 90%.
Можно ли остановить тест досрочно, если уже значим?
Нет. Подглядывание (peeking) на промежуточных результатах драматически увеличивает риск ложноположительного результата — реальный p-value становится сильно выше декларируемого. Нужно дойти до запланированного N и только потом смотреть итог. Если требуется ранняя остановка — используйте sequential testing или Bayesian-методы.