A/B测试
此条目可参照英语维基百科相应条目来扩充。 |
A/B测试为一种随机测试,将两个不同的东西(即A和B)进行假设比较[1][2]。该测试运用统计学上的假设检定和双母体假设检定。 A/B测试可以用来测试某一个变量两个不同版本的差异,一般是让A和B只有该变量不同,再测试其他人对于A和B的反应差异,再判断A和B的方式何者较佳[3]。
概述
编辑正如其名称所示,A/B测试通过对比只有一个变量不同的同一产品的两个不同版本的表现来研究该变量的作用以及影响。其中版本A可能是当前正在使用的版本,而版本B是改进版。例如,一个电商网站的购买流程就很适合做A/B测试,因为即使滞留率(drop-off rate)的微小改善也能大幅提升销售利润。(例如,对于电商网站而言)对产品的极大改变包括文字内容,架构,图片,颜色*等。
多参数检验或多项测试与A/B测试类似,但前者测试更多变量或控制更多变量。简单的A/B测试不适用于观察性研究,准实验研究和非实验研究。
A/B测试被视为一种哲学上的和商业策略上的改变,虽然其本身几乎等价于早已广泛应用的被试间设计[4]。作为一种网页开发中的哲学,A/B测试使其更具备循证实践的色彩。A/B测试的优点在于它几乎对任何事物(变量)都是连续的,并且,很多自动化电商软件现在可以对还未完成的数据库进行A/B测试。
例子
编辑一个公司拥有一个覆盖2000名消费者的数据库,公司现在决定创建 一个带有折扣代码的邮件广告以提高销售额。为此公司创建了两个版本的邮件广告并分别发给其中1000人:第一种内容为“本周六优惠结束!请用优惠代码A!”,第二种内容为“优惠即将结束,请用优惠代码B”。两种广告除此段广告词外所有其他元素均相同。然后公司通过分析两种优惠码的使用情况来研究广告词的影响。统计结果表明,使用代码A的电子邮件的响应率为5%,使用代码B的电子邮件的响应率为3%。因此,公司确定在这种情况下,第一种用语方式会更有效,并将在以后的销售中使用类似的说辞。当然,更精确的做法还应检查A和B的响应率差异是否在统计上显着,以排除随机误差的影响。
上述示例中,测试的目的是确定哪种方法更能鼓励客户购物。但是,如果测试的目的是研究哪个电子邮件将产生更高的点击率(即,收到电子邮件后实际点击该网站的人数),那么结果可能会有所不同,比如,也许有更多收到代码B的客户访问了该网站,但由于广告中没有说明促销的结束日期,所以他们中的许多人可能并不急于立即购买。
细分定位
编辑A/B测试通常随机、均匀地选取受试群体,然而受试群体对其的反应可能是非均匀的。比如在用于测试A版本的群体a中的平均反馈为x,而在用于测试B版本的群体b中的某一部分人b'的平均反馈高于x,而b群体的整体平均反馈低于x[5]。
继续举前文中的例子,假设收到优惠码A的人中,男性的平均购买率为2%,女性平均购买率为8%,总体的平均购买率为5%,而在收到优惠码B的人中,男性的平均购买率为5%,而女性平均购买率为1%,总体则为3%。若如此,则说明应对不同性别的用户使用不同的广告词。
相关条目
编辑参考资料
编辑- ^ Kohavi, Ron; Longbotham, Roger. Online Controlled Experiments and A/B Tests. Sammut, Claude; Webb, Geoff (编). Encyclopedia of Machine Learning and Data Mining (PDF). Springer. 2017 [2019-05-13]. (原始内容 (PDF)存档于2019-10-18).
- ^ Kohavi, Ron; Thomke, Stefan. The Surprising Power of Online Experiments. Harvard Business Review. September 2017: 74–82 [2019-05-13]. (原始内容存档于2019-05-13).
- ^ The ABCs of A/B Testing - Pardot. Pardot. [2016-02-21]. (原始内容存档于2016-03-01) (美国英语).
- ^ Split Testing Guide for Online Stores • Webics. Webics. 2012-08-27 [2019-12-23]. (原始内容存档于2019-12-23) (英语).
- ^ Advanced A/B Testing Tactics That You Should Know. online-behavior.com. [2019-12-23]. (原始内容存档于2019-12-23).