今日头条数据分析岗面试题分享

1.如果次日用户留存率下降了5%该怎么分析？

首先采用“两层模型”分析：对用户进行细分，包括新老、渠道、活动、画像等多个维度，然后分别计算每个维度下不同用户的次日留存率。通过这种方法定位到导致留存率下降的用户群体是谁。

对于目标群体次日留存下降问题，具体情况具体分析。具体分析可以采用“内部-外部”因素考虑，内部因素分为获客（渠道质量低、活动获取非目标用户）、满足需求（新功能改动引发某类用户不满）、提活手段（签到等提活手段没打成目标、产品自然使用周期低导致上次获得的大量用户短期内不需要再使用等）；外部因素采用PEST分析，政治（政策影响）、经济（短期内主要是竞争环境，如对竞争对手的活动）、社会（舆论压力、用户生活方式变化、消费心理变化、价值观变化等偏好变化）、技术（创新解决方案的出现、分销渠道变化等）

2.关于假设检验的问题

假设检验的基本原理是：全称命题不能证明但可以被证伪。

令我们研究假设的相反假设为原假设，认为我们研究假设的发生是小概率事件。

如果我们的观察值是研究假设，那么认为可以排除原假设，我们的研究假设并不是小概率事件。

3.卖玉米如何提高收益，价格提高多少才能获取最大收益

收益 = 单价*销售量，那么我们的策略是提高单位溢价或者提高销售规模。

提高单位溢价的方法：品牌打造获得长期溢价，但缺陷是需要大量前期营销投入；加工商品占据价值链更多环节，如熟玉米、玉米汁、玉米蛋白粉；重定位商品，如礼品化等；价格歧视，根据价格敏感度对不同用户采用不同定价。

销售量=流量*转化率，上述提高单位溢价的方法可能对流量产生影响，也可能对转化率产生影响。

那么收益 = 单价*流量*转化率，短期内能规模化采用的应该是进行价格歧视，如不同时间、不同商圈的玉米价格不同，采取高定价，然后对价格敏感的用户提供优惠券等。

4.类比到头条的收益，头条放多少广告可以获得最大收益，不需要真的计算，只要有个思路就行

收益 = 出价*流量*点击率*有效转化率，放广告的数量会在提高流量，但会降低匹配程度，因此降低点击率。最大收益是找到这个乘积的最大值，是一个有约束条件的最优化问题。

同时参考价格歧视方案，可以对不同的用户投放不同数量的广告。

5. APP激活量的来源渠道很多，怎样对来源渠道变化大的进行预警

如果渠道使用时间较长，认为渠道的app激活量满足一个分布，比较可能是正态分布。求平均值和标准差，对于今日数值与均值差大于3/2/1个标准差的渠道进行预警。

对于短期的新渠道，直接与均值进行对比。

6.用户刚进来APP的时候会选择属性，怎样在保证有完整用户信息的同时让用户流失减少

采用技术接受模型（TAM）来分析，影响用户接受选择属性这件事的主要因素有：

1)感知有用性

文案告知用户选择属性能给用户带来的好处。

2)感知易用性

关联用户第三方账号（如微博），可以冷启动阶段匹配用户更有可能选择的属性，推荐用户选择

交互性做好

3)使用者态度：用户对填写信息的态度

这里需要允许用户跳过，后续再提醒用户填写
告知用户填写的信息会受到很好的保护

4)行为意图：用户使用APP的目的性，难以控制

5)外部变量：如操作时间、操作环境等，这里难以控制

7.男生点击率增加，女生点击率增加，总体为何减少

因为男女的点击率可能有较大差异，同时低点击率群体的占比增大。

如原来男性20人，点击1人；女性100人，点击99人，总点击率100/120
现在男性100人，点击6人；女性20人，点击20人，总点击率26/120

即那个段子“A系中智商最低的人去读B，同时提高了A系和B系的平均智商。”

8.F检验是干嘛的

F检验是检验两个正态分布的样本的方差是否存在显著差异
也可以用于对多组样本之间比较
计量中，F检验原假设所有自变量对因变量都没有影响，排除原假设说明至少有一个自变量对因变量有影响

9.如何识别作弊用户（爬虫程序，或者渠道伪造的假用户）

分类问题可以用机器学习的方法去解决，下面是我目前想到的特征：

渠道特征：渠道、渠道次日留存率、渠道流量以及各种比率特征

环境特征：设备（一般伪造假用户的工作坊以低端机为主）、系统（刷量工作坊一般系统更新较慢）、wifi使用情况、使用时间、来源地区、ip是否进过黑名单

用户行为特征：访问时长、访问页面、使用间隔、次日留存、活跃时间、页面跳转行为（假用户的行为要么过于一致，要么过于随机）、页面使用行为（正常用户对图片的点击也是有分布的，假用户的行为容易过于随机）

异常特征：设备号异常（频繁重置idfa）、ip异常（异地访问）、行为异常（突然大量点击广告、点赞）、数据包不完整等

10.行存储和列存储的区别

行存储：传统数据库的存储方式，同一张表内的数据放在一起，插入更新很快。缺点是每次查询即使只涉及几列，也要把所有数据读取

列存储：OLAP等情况下，将数据按照列存储会更高效，每一列都可以成为索引，投影很高效。缺点是查询是选择完成时，需要对选择的列进行重新组装。

再附上一个优缺点对比，一目了然。

“当你的核心业务是 OLTP 时，一个行式数据库，再加上优化操作，可能是个最好的选择。

End.

作者：稻娃

来源：CSDN

https://blog.csdn.net/u013382288/article/details/80390324