透过大数据看企业创新-CDA数据分析师官网

透过大数据看企业创新

2016-06-02

透过大数据看企业创新

如何发现大数据中的价值，是我们研究大数据的重要原因。作者介绍了若干简单的数据分析模型，分析创业成功的效率。另外，通过对比连续三年的演讲的话题的数量，得出了那些话题正在走向热门。而话题中的热点词的变化，也反映了话题方向的变化。

技术与创新是几乎所有初创IT公司赖以生存发展的根本，也是像Google、Apple这样的巨无霸们前进的动力，EMC也不例外。除了自上而下的创新，EMC更加注重自下而上的crowdsourcing式的创新。在每年的Innovation Showcase活动中，EMC鼓励员工针对公司的产品，服务，运营，员工等各个方面提出自己的创意。经过一系列的评审，出众的点子会入围 Finalist，甚至成为某些奖项的Winner。更重要的，这些点子还有被立项孵化的可能。

在2011年度的Innovation Showcase中，EMCer们创纪录地提出了近1500个创新Ideas，可谓百花齐放，百家争鸣。通过分析这样的数据，我们首先可以：

• 获得基本的统计信息。类似商业报表，我们可能关心的信息包含有多少人参与了这样的活动，他们的地理分布，他们的职位分布，哪些人是effective innovators等等。

更有趣的，我们可以对这些Idea进行一个主题模型分析，从而：

• 洞察到这些点子的潜在语义结构

• 分析这些点子包含的主题信息，同时刻画主题。

EMC是一个技术驱动的IT公司，通过深化主题分析的结果，我们更进一步地

• 了解到哪方面的技术是EMCer最关心的，并且

• 研究年复一年的技术趋势的变化。

为了达到这些目的，以数据分析为己任的ELC大数据实验室利用相关分析工具，通过数据科学家和对公司业务熟悉的领域专家们的密切协作，从数据中挖掘出了一些有趣的结果。在保护公司IP和个人Privacy的前提下，我们选择性地展示其中一些结果。

1.寻找Effective Innovators

Figure 1 气泡图帮助寻找effective innovators

为了在所有的Submitter中寻找最有效率的创新者，我们统计了每个Innovator的投稿数（NEntries）和入围Finalist的点子数目（NFinalists）。我们可以效率定义：

Effectiveness = NFinalists / NEntries

除了这种数值的表示，我们也使用了可视化的方法来辅助寻找effective innovator。如图所示，横轴表示NEntries，纵轴表示NFinalists。每个innovator的（NEntries, NFinalists）对应于图中的一个点。比如红框内的点表示某个Innovator投了14个Ideas，其中5个入围。定性地说，位于图中左上角的 Innovator都是有效率的创新人。需要注意的是，当多个Innovator具有相同（NEntries,NFinalists）对时，它们在图上显示为同一个点。点的颜色深度反映了这种重合度的强弱。

我们是利用Google Public Data Explorer来做这样的展现的，利用这个工具的一个好处就是方便发布分析结果：https://plus.google.com/u/0/113662585874608138956/posts/SHYJ6NjYsYj。它提供基本的交互功能，比如将鼠标放置某点上，会显示此Innovator的姓名。为了公司宝贵的人力资源，这儿显示的姓名全都做过加密，希望能替公司保护各位Innovator的信息^-^。

2.寻找Idea中蕴含的主题

通俗地说，主题分析就是去分析发现每一篇文章的主要议题是什么。比如新浪新闻上有讲政治的，有讲体育的，也有关于军事的，属于同一个主题下的文章应该在用词、表达上有一定的相似处。所以，主题分析本质上是一个聚类（Clustering）的过程，即把相似的文章聚成一类，然后通过分析这一类文章的内容来概括出主题。这儿需要强调的是，通常的主题分析是一种探索性的、无监督的分析：数据里面没有显性的主题或Tag；甚至在分析前，也不知道这些文本里蕴含了多少个主题，每个主题的名字是什么。

主题分析最流行的工具是LDA（Latent Dirichlet Allocation）。LDA是ML大牛David Blei在博士期间在老牛M. I. Jordan的指导下做的工作。最早的Journal Version是2003年的JMLR，最近Blei又写了一片关于LDA的综述类文章“Introduction to Probabilistic Topic Models”。关于这个课题，

初级的读者可以了解一下LDA是为了做什么的，重点理解Bag of Words的输入，以及输出的结果的展现。

中级的读者如果有概率图模型PGM的基础，可以试着了解LDA所基于的概率假设和概率模型是什么，去思考为什么这样的假设是合理的。这儿需要一些基本概念，比如独立，条件独立，联合分布的分解，以及图模型的plane representation。

高级的读者们需要去搞定的是基于LDA的推理算法。因为LDA是一个Bayesian Model，所以整个推理的中心就是计算感兴趣的变量的后验分布posterior probability。为了这个目标，可以采用sampling based method，比如Gibbs sampling；也可以首先把问题转化为一个优化问题，然后用Variational EM的方法迭代求解。市面上两种方法都有很多实现，可能有自己不同的应用场景，也不好说哪种方法更优。

Figure 2 文本分布图

利用LDA我们对于EMC 2011 Innovation Showcase的数据进行了分析，上图显示的是从中发现的25个主题。每个bar的高度对应属于这个主题的文章个数。对于每个主题我们可以逐一显示属于它的那些文章，并且也可以显示“Word Scoring”，即在主题中每个词的重要性。由于篇幅关系，我们这儿只关注一些特别的主题。

显然，在所有主题中，Topic22享有最高的权重。为了理解Topic 22的含义，我们看一下此主题中的重要词汇。

我们把如图所示的结果展示给熟悉公司的领域专家，得到的回答是Topic22应该是关于Employee Engagement，Productivity and Benefits 。换句话说，在这次创新活动中，有相当数量的点子是针对员工与公司的关系的。很有意思的发现!

EMC是一个High-Tech公司，理所当然的我们有更多的技术性的创新。通过对于其他主题的分析，我们找到了关于存储的主题，关于云计算的主题，关于大数据的主题等等。主题分析对于理解这些创新点子的隐含结构信息有很大的帮助。

3.寻找主题的趋势和演化规律

很幸运，EMC把员工的Idea当成公司的财富保留了下来，即使是去年，前年以及更久远的数据；更幸运的，我们拿到了这批数据，从而可以主题的趋势分析。下面我们就举例分析这几年EMCer在创新中所关注的主题的趋势。

Figure 3 三年来的主题趋势

通过在2011年的LDA模型上对于2009,2010,2011数据进行推理，我们得到了入上图所示的所有25个主题在这三年里受关注的变化。根据这个图以及前一节所进行的主题诠释，我们就可以回答诸如“近些年EMCer是如何看待cloud或者big data的?”这类问题。比如，topic22代表的employ engagement主题在2011年达到一个峰值；topic4代表的big data有一个稳步的增长；而topic9代表的cloud基本保持平稳。

主题的演化讲的是同一个主题的内容随着时间变化而变化的规律。比如说，我们看到在这三年里，每年都有将近60篇的Idea是关于cloud云计算的。我们可以通过这些文章的常用词理解关于云计算创新的演化。

通过上图我们看到，EMCer的想法和公司的战略以及主流的云计算趋势是非常吻合的：在09年EMCer对云计算的认识还停留在系统主机的基础上，到了10年大家开始讨论虚拟化以及私有云的技术，而在去年的重点则转变为包含私有云和公有云的混合云技术。

再以big data大数据主题topic4为例：

在前两年，大数据分析在EMC还只是关于一般数据库的查询和分析。2010年收购了Greenplum之后，我们看到，不仅更多的人讨论数据分析，而且在2011年大家开始关注大数据，Greenplum，和实时的分析。

4.结语

从2007年开始的5年间，EMC总共有6000多位员工参与了每年的Innovation Showcase活动。在这个分析中，Big Data Lab的数据科学们积极的和熟悉公司业务运作的F/D Engineer们协同工作，通过分析这些Idea来刻画EMC的创新生态系统。使大家对于EMCer的创新结构有了一定的了解。

通过这样的分析我们获得了重要的actionable insights来帮助提高公司创意文化。具体的actions包括对于新兴趋势进行引导和加强，组织针对某个主题的special interest group等等。只有通过这些后续的动作，才能真正让数据分析的结果发光发热，给公司增值。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

大数据云计算数据分析无监督气泡图

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇勾勒物联网与大数据的数据中心路线图

下一篇基于大数据与深度学习的自然语言对话

透过大数据看企业创新

CDA考试动态

CDA报考指南

热门栏目

最新资讯

单因素方差分析结果与多重比较

【CDA干货】13年国企财务：这样使用财务数据分析模 ...

Youtube百万粉丝大佬：数据分析师职业发展路径 ...

【干货】“数据又崩了”？其实是你还不会做归因分析 ...

【CDA干货】解锁企业数据价值的3大关键 ——从政策 ...

【CDA案例】基于 EAST和 FineBI 实现 AARRR 信用卡 ...

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...