无需登录 数据私有 本地保存

A/B 测试显著性计算器 - Z 检验与 P 值

12
0
0
0

A/B 测试显著性计算器

使用 Z 检验计算 P 值,判断实验组与对照组的转化率差异是否具有统计显著性。支持双尾/单尾检验,可视化置信区间。

快速填充示例:
对照组 A 原始版本
实验组 B 新版本
常见问题与知识点

统计显著性用于判断实验组与对照组之间的差异是否由随机波动引起。通常当 P 值 < 0.05(置信水平 95%)时,我们认为差异具有统计显著性,即有充分证据表明实验组确实产生了不同于对照组的效果,而非偶然因素所致。

Z 检验是一种基于标准正态分布的假设检验方法。它适用于大样本(通常每组 n > 30,且转化数至少 5 个)的比例比较场景。Z 检验通过计算两组转化率差异相对于标准误的倍数(Z 统计量),来判断差异是否显著。在 A/B 测试中,当样本量足够大时,Z 检验是最常用的方法。如果样本量较小,建议使用 Fisher 精确检验或卡方检验。

不完全是。P 值 < 0.05 表示差异具有统计显著性,但还需要考虑实际显著性(效应量大小)。一个微小的提升(如 0.1%)可能在超大样本下变得"统计显著",但商业价值有限。此外,还需警惕多重比较问题(同时测试多个变体时,显著性阈值需要调整,如 Bonferroni 校正)以及样本比率偏差(SRM)。建议结合置信区间和提升幅度综合判断。

双尾检验(默认推荐):检验实验组与对照组是否存在任何方向的差异(更好或更差)。适用于不确定实验效果方向的情况。
单尾检验:仅检验实验组是否优于对照组(或仅检验是否更差)。需要预先假设方向,且更容易获得显著性。在 A/B 测试中,通常推荐双尾检验,因为它更保守、更可靠。单尾检验需要强有力的先验假设支持。

样本量越大,统计功效越高,检测到真实差异的能力越强。小样本可能导致假阴性(实际有差异但未能检测出来)。但过大的样本也可能导致微小、无实际意义的差异变得"统计显著"。建议在实验开始前使用样本量计算器估算所需最小样本量,考虑因素包括:基线转化率、最小可检测效应(MDE)、置信水平和统计功效(通常 80%)。

95% 置信区间表示:如果我们重复实验无数次,其中约 95% 的置信区间会包含真实的差异值。如果置信区间不包含 0(即上下限同号),则说明差异在对应置信水平下显著。置信区间比单一的 P 值提供了更丰富的信息——它不仅告诉我们是否显著,还展示了效应量的可能范围

测试时长取决于多个因素:样本量需求(流量大小)、基线转化率预期效应量。一般建议至少运行1-2 个完整业务周期(通常 1-4 周),以覆盖周中/周末、日间/夜间等周期性波动。避免过早终止测试("偷看"问题),也不要在达到所需样本量后无限制延长。建议使用此计算器结合样本量规划来确定合理的测试时长。