注意:这是本文的第二部分。你可以在这里阅读第一部分。
当产品发生变化时,人们对它的反应会有所不同。有些人习惯于产品的工作方式,不愿意改变。这被称为首要效应或改变厌恶。其他人可能会欢迎变化,一个新功能吸引他们更多地使用产品。这被称为新奇效应。然而,这两种影响都不会持续很长时间,因为人们的行为在一定时间后会稳定下来。如果a/B测试有较大或较小的初始效应,这可能是由于新的或首要效应。这是实践中常见的问题,很多面试问题都是关于这个话题的。一个面试样本问题是:
我们在一个新特性上运行了一个a/B测试,测试成功了,所以我们向所有用户启动了这个更改。然而,在推出该特性一周后,我们发现治疗效果迅速下降。怎么回事?
答案是新奇效应。随着时间的推移,随着新鲜感的消退,重复使用会减少,所以我们观察到治疗效果下降。
现在您理解了新奇和首要效应,我们如何解决潜在的问题?这是面试中典型的跟进问题。
处理这种影响的一个方法是完全排除那些影响的可能性。我们可以只对首次用户运行测试,因为新奇效应和首要效应显然不会影响这类用户。如果我们已经进行了测试,并且我们想要分析是否有新颖性或首要效应,我们可以(1)将控制组新用户的结果与治疗组的结果进行比较,以评估新颖性效应(2)将第一次用户的结果与治疗组现有用户的结果进行比较,以获得新颖性或首要效应影响的实际估计。
在A/B试验的最简单形式中,有两种变体:对照(A)和治疗(B)。有时,我们运行一个测试与多个变体,看看哪一个是最好的所有功能。当我们要测试一个按钮的多种颜色或测试不同的主页时,可能会发生这种情况。然后我们会有不止一个治疗组。在这种情况下,我们不应该简单地使用0.05的相同显著性水平来决定检验是否显著,因为我们处理的是2个以上的变异体,错误发现的概率增加。例如,如果我们有3个治疗组与对照组进行比较,观察到至少1个假阳性的机会是多少(假设我们的显著性水平是0.05)?
我们可以得到没有假阳性的概率(假设组是独立的),
PR(FP=0)=0.95*0.95*0.95=0.857
然后获得至少有1个假阳性的概率
Pr(FP>=1)=1-Pr(FP=0)=0.143
只有3个治疗组(4个变异),假阳性(或I型错误)的概率超过14%。这称为“多重测试”问题。一个面试问题是
我们正在运行一个测试与10个变体,尝试我们的登陆页面的不同版本。1个处理获胜,P值小于0.05。你能改变吗?
答案是否定的,因为多重测试问题。有几种方法来接近它。一种常用的方法是Bonferroni校正。它将显著性水平0.05除以试验次数。对于面试问题,既然我们测量了10个测试,那么测试的显著性水平应该是0.05除以10等于0.005。基本上,只有当检验的p值小于0.005时,我们才声称检验是显著的。Bonferroni校正的缺点是它往往过于保守。
另一种方法是控制错误发现率(FDR):
fdr=e[#假阳性/#拒绝]
它度量了所有对零假设的拒绝,即所有你声明有统计上显著差异的度量。他们中有多少人有真正的差异,而有多少人是假阳性。只有当您有大量的度量,比如数百个时,这才有意义。假设我们有200个指标,并将FDR上限设为0.05。这意味着我们可以看到5次假阳性。我们每次都会在那200个指标中观察到至少10个假阳性。
理想情况下,我们看到了实际的显著治疗结果,我们可以考虑向所有用户推出该功能。但有时,我们会看到相互矛盾的结果,例如一个指标上升而另一个下降,因此我们需要做出输赢的权衡。一个面试样本问题是:
运行测试后,您会看到所需的指标,例如点击率在上升,而印象数在下降。你会怎么做决定?
在现实中,产品推出决策可能涉及到很多因素,如实施的复杂性、项目管理的努力、客户支持成本、维护成本、机会成本等。
在采访中,我们可以提供解决方案的简化版本,重点放在实验的当前目标上。它是为了最大限度地参与,保留,收入,还是其他什么?此外,我们希望量化负面影响,即非目标度量中的负面变化,以帮助我们做出决定。例如,如果收入是目标,我们可以选择它,而不是最大限度地参与,假设负面影响是可以接受的。
最后,我想向您推荐两个参考资料,让您更多地了解A/B测试。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“最近复购率一直在下降,我们的营销力度不小啊,为什么用户还是走了?” “是不是广告投放的用户质量不高?还是我们的产品问题 ...
2025-02-21以下文章来源于数有道 ,作者数据星爷 SQL查询是数据分析工作的基础,也是CDA数据分析师一级的核心考点,人工智能时代,AI能为 ...
2025-02-19在当今这个数据驱动的时代,几乎每一个业务决策都离不开对数据的深入分析。而其中,指标波动归因分析更是至关重要的一环。无论是 ...
2025-02-18当数据开始说谎:那些年我们交过的学费 你有没有经历过这样的场景?熬了三个通宵做的数据分析报告,在会议上被老板一句"这数据靠 ...
2025-02-17数据分析作为一门跨学科领域,融合了统计学、编程、业务理解和可视化技术。无论是初学者还是有一定经验的从业者,系统化的学习路 ...
2025-02-17挖掘用户价值本质是让企业从‘赚今天的钱’升级为‘赚未来的钱’,同时让用户从‘被推销’变为‘被满足’。询问deepseek关于挖 ...
2025-02-17近来deepseek爆火,看看deepseek能否帮我们快速实现数据看板实时更新。 可以看出这对不知道怎么动手的小白来说是相当友好的, ...
2025-02-14一秒精通 Deepseek,不用找教程,不用买资料,更不用报一堆垃圾课程,所有这么去做的,都是舍近求远,因为你忽略了 deepseek 的 ...
2025-02-12自学 Python 的关键在于高效规划 + 实践驱动。以下是一份适合零基础快速入门的自学路径,结合资源推荐和实用技巧: 一、快速入 ...
2025-02-12“我们的利润率上升了,但销售额却没变,这是为什么?” “某个业务的市场份额在下滑,到底是什么原因?” “公司整体业绩 ...
2025-02-08活动介绍 为了助力大家在数据分析领域不断精进技能,我们特别举办本期打卡活动。在这里,你可以充分利用碎片化时间在线学习,让 ...
2025-02-071、闺女,醒醒,媒人把相亲的带来了。 我。。。。。。。 2、前年春节相亲相了40个, 去年春节相亲50个, 祖宗,今年你想相多少个 ...
2025-02-06在数据科学的广阔领域中,统计分析与数据挖掘占据了重要位置。尽管它们常常被视为有关联的领域,但两者在理论基础、目标、方法及 ...
2025-02-05在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-02-05当我们只有非常少量的已标记数据,同时有大量未标记数据点时,可以使用半监督学习算法来处理。在sklearn中,基于图算法的半监督 ...
2025-02-05考虑一种棘手的情况:训练数据中大部分样本没有标签。此时,我们可以考虑使用半监督学习方法来处理。半监督学习能够利用这些额 ...
2025-02-04一、数学函数 1、取整 =INT(数字) 2、求余数 =MOD(除数,被除数) 3、四舍五入 =ROUND(数字,保留小数位数) 4、取绝对值 =AB ...
2025-02-03作者:CDA持证人 余治国 一般各平台出薪资报告,都会哀嚎遍野。举个例子,去年某招聘平台发布《中国女性职场现状调查报告》, ...
2025-02-02真正的数据分析大神是什么样的呢?有人认为他们能轻松驾驭各种分析工具,能够从海量数据中找到潜在关联,或者一眼识别报告中的数 ...
2025-02-01现今社会,“转行”似乎成无数职场人无法回避的话题。但行业就像座围城:外行人看光鲜,内行人看心酸。数据分析这个行业,近几年 ...
2025-01-31