注意:这是本文的第一部分。您可以在这里阅读第二部分。
A/B测试,又称受控实验,在工业上被广泛应用于产品上市决策。它允许科技公司用一个用户子集来评估一个产品/特性,从而推断该产品可能如何被所有用户接收。数据科学家处于a/B测试过程的前沿,a/B测试被认为是数据科学家的核心能力之一。数据科学采访反映了这一现实。面试官通常会向应聘者提出a/B测试问题以及商业案例问题(也就是指标问题,产品感觉问题),以评估应聘者的产品知识和推动a/B测试过程的能力。
在本文中,我们将采用面试驱动的方法,将一些最常见的面试问题与A/B测试的不同组成部分联系起来,包括选择测试思路、设计A/B测试、评估测试结果以及做出是否进行测试的决定。具体来说,我们将讨论7最常见的面试问题和答案。
在你开始阅读之前,如果你是一个视频人,请随意查看这个YouTube视频,以获得这篇文章的缩略版本。
a/B测试是一个强大的工具,但并不是每个想法都是通过运行测试来选择的。有些想法的测试成本可能很高,处于早期阶段的公司可能有资源限制,因此对每个想法都运行测试是不现实的。因此,我们首先要选择哪些想法值得测试,特别是当人们对改进一个产品有不同的意见和想法时,有许多想法可以选择。例如,UX设计师可能建议更改一些UI元素,产品经理可能建议简化结帐流程,工程师可能建议优化后端算法,等等。在这种情况下,涉众依赖数据科学家来推动基于数据的决策。一个面试样本问题是:
在电子商务网站上,有几个想法可以增加转化率,比如允许多项商品结账(目前用户可以同时结账一项商品),允许非注册用户结账,改变“购买”按钮的大小和颜色,等等,你如何选择投资哪个想法?
评估不同想法价值的一种方法是使用历史数据进行定量分析以获得每个想法的机会大小。例如,在投资于电子商务网站的多项商品结账之前,通过分析每个用户购买的多项商品的数量来获得影响的上限大小。如果只有很小比例的用户购买了一个以上的商品,那么开发这个功能可能就不值得了。更重要的是调查用户的购买行为,以了解用户为什么不同时购买多个商品。是因为选择的项目太少了吗?是不是物品太贵了,他们只能买得起一个?是不是结账过程太复杂了,他们不想再经历一次?
这种分析提供了关于哪个idea是a/B测试的好候选者的方向性见解。然而,历史数据只告诉我们过去是如何做的。它无法准确预测未来。
为了获得对每个想法的全面评价,我们可以通过焦点小组和调查进行定性分析。从焦点小组收集的反馈(与用户或有洞察力的用户进行有指导的讨论)或调查中的问题提供了对用户痛点和偏好的更多见解。定性和定性分析相结合可以帮助进一步的想法选择过程。
一旦我们选择一个想法来测试,我们需要决定我们想要运行一个测试的时间,以及如何选择随机化单元。在这一节中,我们将逐一讨论这些问题。
要决定一个测试的持续时间,我们需要获得一个测试的样本大小,这需要三个参数。这些参数是:
经验法则是,样本量n大约等于16(基于α=0.05和β=0.8)乘以样本方差除以δ平方,而δ是治疗与对照的差值:
如果您有兴趣了解我们如何提出经验法则公式,请查看此视频,以获得一步一步的演练。
在面试过程中,你不需要解释你是如何得出这个公式的,但你需要解释我们如何获得每个参数,以及每个参数如何影响样本量。例如,如果样本方差较大,我们需要更多的样本,如果增量较大,我们需要更少的样本。
样本方差可以从现有数据中得到,但我们如何估计δ,即治疗与对照之间的差异?
实际上,我们在进行实验之前并不知道这一点,这就是我们使用最后一个参数的地方:最小可检测效应。在实践中,这是最小的差异。例如,我们可以考虑将收入增加0.1%作为可检测到的最小效应。在现实中,这个价值是由多个利益相关者讨论和决定的。
一旦我们知道了样本量,我们就可以通过样本量除以每组的用户数来获得运行实验的天数。如果这个数字少于一周,我们应该运行实验至少七天,以捕捉每周的模式。通常建议运行两周。当涉及到为测试收集数据时,多总是比不够好。
通常,我们通过随机选择用户并将每个用户分配到控制组或治疗组来划分控制组和治疗组。我们希望每个用户都是独立的,控制组和治疗组之间没有干扰。然而,有时这种独立性假设并不成立。当测试社交网络,如Facebook、Linkedin和Twitter,或双边市场,如Uber、Lyft和爱彼迎时,可能会发生这种情况。一个面试样本问题是:
X公司测试了一个新功能,目标是增加每个用户创建的帖子数量。他们将每个用户随机分配到控制组或治疗组。该测试在帖子数量方面以1%的优势获胜。在新特性向所有用户推出后,您预计会发生什么?会不会和1%一样,如果不是,会多还是少?(假设没有新奇效应)
答案是,我们将看到一个大于1%的值。原因如下。
在社交网络中(例如Facebook、Linkedin和Twitter),用户的行为很可能受到其社交圈中人的行为的影响。如果用户网络中的人(如朋友和家人)使用某个功能或产品,则用户倾向于使用该功能或产品。这称为网络效应。因此,如果我们以“使用者”作为随机单位,并且治疗对使用者有影响,这种影响可能会溢出到对照组,即对照组的行为受到治疗组的影响。在这种情况下,对照组和治疗组之间的差异低估了治疗效果的真正好处。对于面试问题,会超过1%。
对于双边市场(如Uber、Lyft、ebay和爱彼迎):控制组和治疗组之间的干扰也会导致对治疗效果的偏颇估计。这主要是因为控制组和治疗组之间共享资源,这意味着控制组和治疗组将争夺相同的资源。例如,如果我们有一个新产品在治疗组中吸引了更多的驱动程序,那么在对照组中可用的驱动程序就会更少。因此,我们无法准确估计治疗效果。与社会网络不同,在社会网络中,治疗效果低估了新产品的实际利益,在双边市场中,治疗效果高估了的实际效果。
既然我们知道了为什么控制和治疗之间的干扰会导致发射后的效果表现不同于治疗效果,这就引出了下一个问题:我们如何设计测试来防止控制和治疗之间的溢出?一个示例面试问题是:
我们正在推出一个新功能,为我们的骑手提供优惠券。目标是通过降低每次乘坐的价格来增加乘坐的次数。概述一个测试策略来评估新特性的效果。
有许多方法可以解决组之间的溢出,主要目标是隔离控制组和处理组中的用户。下面是几种常用的解决方案,每种方案适用于不同的场景,并且都有局限性。在实际应用中,我们要选择在一定条件下效果最好的方法,也可以将多种方法结合起来,得到可靠的结果。
社交网络:
双边市场:
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据驱动决策的时代,掌握多样的数据分析方法,就如同拥有了开启宝藏的多把钥匙,能帮助我们从海量数据中挖掘出关键信息,本 ...
2025-03-06在备考 CDA 考试的漫漫征途上,拥有一套契合考试大纲的优质模拟题库,其重要性不言而喻。它恰似黑夜里熠熠生辉的启明星,为每一 ...
2025-03-05“纲举目张,执本末从。”若想在数据分析领域有所收获,一套合适的学习教材至关重要。一套优质且契合需求的学习教材无疑是那关 ...
2025-03-04以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-04在现代商业环境中,数据分析师的角色愈发重要。数据分析师通过解读数据,帮助企业做出更明智的决策。因此,考取数据分析师证书成为了许多人提升职业竞争力的选择。本文将详细介绍考取数据分析师证书的过程,包括了解证书种类和 ...
2025-03-03在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2025-03-03数据分析师认证考试全面升级后,除了考试场次和报名时间,小伙伴们最关心的就是报名费了,报 ...
2025-03-032025年刚开启,知乎上就出现了一个热帖: 2024年突然出现的经济下行,使各行各业都感觉到压力山大。有人说,大环境越来越不好了 ...
2025-03-03大数据分析师培训旨在培养学员掌握大数据分析的基础知识、技术及应用能力,以适应企业对数据分析人才的需求。根据不同的培训需求 ...
2025-03-03小伙伴们,最近被《哪吒2》刷屏了吧!这部电影不仅在国内掀起观影热潮,还在全球范围内引发了关注,成为中国电影崛起的又一里程 ...
2025-03-03以下的文章内容来源于张彦存老师的专栏,如果您想阅读专栏《Python 数据可视化 18 讲(PyEcharts、Matplotlib、Seaborn)》,点 ...
2025-02-28最近,国产AI模型DeepSeek爆火,其创始人梁文峰走进大众视野。《黑神话:悟空》制作人冯骥盛赞DeepSeek为“国运级别的科技成果” ...
2025-02-271.统计学简介 听说你已经被统计学劝退,被Python唬住……先别着急划走,看完这篇再说! 先说结论,大多数情况下的学不会都不是知 ...
2025-02-27“我们的利润率上升了,但销售额却没变,这是为什么?” “某个业务的市场份额在下滑,到底是什么原因?” “公司整体业绩稳定, ...
2025-02-26在数据分析工作中,你可能经常遇到这样的问题: 从浏览到消费的转化率一直很低,那到底该优化哪里呢? 如果你要投放广告该怎么 ...
2025-02-25近来deepseek爆火,看看deepseek能否帮我们快速实现数据看板实时更新。 可以看出这对不知道怎么动手的小白来说是相当友好的,尤 ...
2025-02-25挖掘用户价值本质是让企业从‘赚今天的钱’升级为‘赚未来的钱’,同时让用户从‘被推销’变为‘被满足’。询问deepseek关于挖 ...
2025-02-25在当今这个数据驱动的时代,几乎每一个业务决策都离不开对数据的深入分析。而其中,指标波动归因分析更是至关重要的一环。无论是 ...
2025-02-25以下文章来源于数有道 ,作者数据星爷 SQL查询是数据分析工作的基础,也是CDA数据分析师一级的核心考点,人工智能时代,AI能为 ...
2025-02-25“最近复购率一直在下降,我们的营销力度不小啊,为什么用户还是走了?” “是不是广告投放的用户质量不高?还是我们的产品问题 ...
2025-02-25