数据分析实现商业的降维攻击
无人敢忽略”数据“在当下商业布局中的重要意义,但是,它的实用性似乎远在天边,而它的战略重要性却又近在眼前。”大数据“的投资似乎像一个无底洞,对企业来讲,实用意义在哪里?如何与当下的商业模式结合,战胜”无数据“的传统的自己?”数据“这个不明觉厉的词,到底在创造什么样的价值?
对贷款机构来说,有三个问题事关生命线:贷不贷?贷多少?收多少利息?更专业的说法是准入、授信和定价。要答对这三个问题,前提是尽可能全面地了解贷款客户,但这对传统的金融机构来说意味着巨大的成本,因而即便坏账率能控制在某个所谓“健康”的范围内,这也意味着成堆的资料、繁复的审核和繁重的抵押,也因此,为了规避风险,更多的资金被贷给了“可靠”的大企业。
小微企业的贷款业务是一世界难题,蚂蚁小贷通过数据智能与商业场景的结合找到了破解之道。
它和传统银行不同:一方面,已经服务了数百万淘宝卖家,他们的贷款多不过百万,少的只有几百元,他们不仅没有靠谱的抵押,有些甚至连基本的账目都没有;另一方面,一次贷款申请提交后,几秒钟内系统自动审批就能完成,钱已经到了卖家账户上,相应的坏账率还能显著低于传统银行的水平。
蚂蚁小贷这个刚刚创业六年的公司是怎么做到的?
归功于互联网,蚂蚁小贷能够分享潜在客户的诸多数据,比如这些淘宝卖家正在卖哪些商品、生意好不好,又比如卖家经营店铺勤快吗、之前有过不诚信的行为吗,甚至还比如这卖家的朋友们信用度高吗、他喜欢打网游吗等等,这些数据的丰富度、准确度远高于传统银行能采集到的贷款者的信息。
在“全面了解客户”这点上,蚂蚁小贷拥有了数据的优势。这是关键的第一步,但又远远不够。如何运用好这些数据?“算法”至关重要。算法在计算机科学中通常指一组包含了有限、明确并有先后顺序的指令集合,它被广泛应用于计算、数据处理和自动推理,例如蚂蚁小贷的算法工程师们就建立了一套算法模型来处理这些海量数据,给每位客户的“信用”打分,从而区分出欠贷不还的“坏人”和准时还贷的“好人”。基于算法模型的客户信用分值,成为蚂蚁小贷回答“贷不贷”这个问题的核心依据。
更为重要的是,和传统数据分析不一样,基于在线数据和算法的模型是实时迭代的。
一方面是新数据的不断涌入,这个信用分并不会“一分定终身”,恰恰相反,客户的每一单交易、每一次旺旺上线、每一次还款,原则上每时每刻都可以改变这个分值。只是基于成本的考虑和现实的风控需求,蚂蚁小贷每天更新一次客户的信用分,然而这样的更新频率已经是传统银行所不可想象的了。
另一方面是算法模型的迭代。用一套天才的算法百分百准确地找出“好人”和“坏人”只能是幻想,或许一个被打了很低信用分的客户及时还款了,一个高分客户却反而卷款跑路了,检验算法优劣的核心标准就是一条,“客户后来还款了吗”,算法必须根据预测和实际结果的差别进行调优。所以事实上,客户的借还款的数据,会实时反馈到蚂蚁小贷的数据池中,多个算法模型据此实时优化——哪些维度的指标应当被纳入到或清除出模型、客户的哪些行为特质应该被赋予更高的权重、在不同的情形下哪些算法模型有更高的准确度,在蚂蚁小贷,这些算法模型更新的频率以“周”计,而即便在传统金融数据化程度极高的美国,一次更新也往往需要6个月。
简单地说,依据客户的全方位数据,蚂蚁小贷用一系列算法模型“算出”该不该给一位客户贷款。然后基于客户的行为,数据实时更新,而且实时检验着蚂蚁小贷“算”得“准不准”,算法模型也据此实时优化。
面对每一次客户的贷款申请,蚂蚁小贷都是这样来回答“贷不贷”这个问题的,同样的,回答“贷多少”、“收多少利息”这两个问题也是类似的过程,例如授信额度的确定,这当然比“准入”这件事需要更多的数据,蚂蚁小贷的算法工程师们测算出每家店铺的主打商品的生命周期(是新品正在攒口碑、是正在热销、还是即将打折清仓)、每家店铺的毛利率等等数据指标,加入更多的卖家社会关系数据(因为人以群分),更多的数据意味着对客户更深的理解,意味着更符合商业本质的算法模型,也意味着对“贷多少钱”这一问题更准确的回答。
在这个过程中,客户的数据越来越丰富,运用到的参数越来越多,算法模型也越来越靠谱,贷款风险控制的成本越来越低,贷款者的体验也越来越赞,覆盖的贷款用户也越来越广。整个业务进入高速发展的正循环。用时髦的术语来总结,蚂蚁小贷通过基于“大数据”和“算法”的“机器学习”,让商业变得“智能”,提供了以前无法实现的小微贷款服务,实现了普惠金融的创新。
正如我们在蚂蚁小贷的例子中已经看到的,从PC互联到移动互联,再到万物互联,从云计算到大数据,基于数据和算法的智能化将是未来商业的基础和最重要的特征。智能商业的效能相对于传统商业是质的飞跃,是全面超越,这才是所谓“降维”攻击的基础。蚂蚁小贷在贷款额度之小,贷款客户数之大,反应速度之快,资金使用效率之高,员工人数之底都达到了传统小贷企业无法企及的高度,从而在六年内实现了爆炸性成长。
怎样才能成为这样高能的智能商业,引领未来的商业浪潮?
如果我们对蚂蚁小贷的业务过程做更全面的检视,会发现它本质上是做了三件关键的事:特定商业场景的数据化、忠实于商业逻辑的算法及其优化迭代、将数据智能与商业场景无缝熔合的产品。这三件事融合贯通,相互包含,在反馈闭环中共同进化,未来的智能商业样貌已经跃然而出。
数据化是蚂蚁小贷的整套智能体系的起点。不仅是客户的经营数据,还有更多维度的数据被记录、分析、融入,构成了对客户全方位的描摹。数据初始化是一件高成本和困难的事情,仅仅是最简单的客户性别数据就包含了诸如登记身份证的性别、实际经营者的性别、其行为特征显示出的性别等等十几套标准,各自都有价值,但传统方法又无法融合,需要创新的方法才能合理使用。但与此同时,数据化更是一件高收益的事情,例如客户对经营的投入程度这个直觉上就很有价值的指标,传统金融机构几乎没有任何有效的方法获取,然而在互联网的语境下,早上几点卖家的旺旺上线了、买家的询问在几秒钟内能得到回复,这些数据都清晰地展示着卖家的投入度;再比如卖家的盈利状况,很多电商卖家都不具备基本的财务技能,赚了多少钱都是“毛估估”,传统银行拿到的企业财报更是虚假成风,但蚂蚁小贷的数据分析师通过每件商品在批发平台的价格分布测算出其成本价,进而测算出一家店铺所卖商品的单件盈利,这一维度的数据尽管未必总是精准,但不啻为衡量贷款者还款能力的重要指标。
“数据化”本质上是将一种现象转变为可量化形式的过程。它来源于人类测量、记录和分析世界的渴望,从结绳记事开始,到度量衡来计量长度和重量,到十进制数字的发明,再到复式记账法使数据直接反映生意的盈亏;随着现代科学的发展,气压、电流、温度、磁场,更多的现象得以被量化,数据化后浪推前浪的潮涌,事实上成为人类文明前行的核心动力之一。
而随着计算机技术的出现,尤其是互联网技术的快速发展,数据化的新一波浪潮更加汹涌澎湃:我们已经看到,自己在互联网上留下的每一处“足迹”都被数据化地记录下来,成为谷歌判断每一个用户的个性化需求并推送商品广告的关键依据;FaceBook实现了人际关系的数据化,带来了很多全新的应用,例如通过分析选举前用户的行为数据来“计算”选民的投票倾向,成为有史以来最准确的选前民调,都不用加“之一”。我们还看到文字被数据化,地理方位被数据化,身体健康状况被数据化,情绪感受被数据化,在这一波全新的数据化浪潮中,尤其是当数据本身也在线,从而可以实时使用了之后,这种魔力就更显著了,如同蚂蚁小贷的贷款模型所做到的,关于卖家的每个数据的每次变化,都实时带来从贷款算法模型到放贷商业决策的变化。
我们今天完成了数据化的部分,只是现实商业世界中的凤毛麟角。这个时代的创新的重要一环就是如何把一个个商业场景、甚或只是将其中的一个商业环节数据化,其过程本身都潜藏着巨大的商业价值。例如,即使在服装网购如此繁荣的今天,绝大部分人的身材并没有数据化,更没有在线化,新的商业模式的基础就蕴藏在里面。同样的,当下最热门的各种O2O的创业,很大的成本都用在了将某个商业场景数据化上,例如街边小店的菜单能否在线化,食品质量指标能否数据化;而IOT浪潮中,最核心的就是如何通过芯片,传感器等,把人,物和我们整个世界逐步的数据化。互联网技术使我们终于可以低成本、全方位地记录数据,而只有当我们拥有了足够大量、足够多维度的“大数据”时,才可能真正客观、真实而深刻地理解我们周遭的环境、事物的本原以及我们自己。
这是激动人心的历史性的努力。本质上,就如同蒸汽机是我们进入工业文明的第一步、电是我们迈入电气化的现代工业的第一步,数据化毫无疑问也是我们进入以数据智能为核心的智能商业世界的第一步,也是我们这个时代最重要的创造之一。
有效的数据初始化是大数据创造价值的至关重要的第一步。可以说,没有数据的初始化就没有后继的商业创新,而数据初始化的巨大成本能否通过它创造的客户价值来回报,也就成为当下的海量创业项目能否存活立足的重要考验。
我们提到算法时,常常接上另一个词——“引擎”。这是一个奇妙的比喻,因为如果说数据是DT时代的一桶高标号的汽油,则算法就是这台引擎,让数据中的能量得以完全地喷发出来,为智能商业的汽车推进加速。
算法在蚂蚁小贷业务中的关键作用固然不言而喻,同样的,谷歌的成功也发源于其创始人发明的PageRank算法。搜索是第一个数据和算法驱动的互联网产品,使我们每个人都得以在海量的互联网数据中找到最相关的信息。谷歌创造的另一个功能强大的算法是其在线广告市场引擎——Pay per Click(每点击付费),每天都有价值十亿美元以上的线上广告通过这一算法投放到最合适的观众面前。
在商业的语境下,算法就是一组反映了产品逻辑和市场机制的计算指令的集合。完成了商业场景的数据化之后,算法是提炼数据价值的思路,而DT时代的数据价值就是商业价值。如同谷歌正在做的,我们每个人打开过一些商品的页面、网购了某件商品,这无疑是数据的金矿,但只有当在线广告的算法引擎从中挖掘出每件商品的潜在买家、并据此投放广告时,这座数据金矿的价值才真正被开发出来。
算法是“机器学习”的核心——笨机器用笨办法,靠着算法的持续优化迭代,变得越来越聪明。即便是一个非常粗糙的算法模型,也可以在实时在线、全本记录的数据中,通过没有预判和方向的数据探索,来发现那些广泛潜伏但我们无以察觉的关系结构,持续优化,并创造性地将其融入商业场景,创造商业价值。
DT时代的智能商业对算法提出了全新的要求:算法的迭代方向、参数工程等等,都必须与商业逻辑、机制设计、甚至是价值观取向融合为一。当算法迭代优化时,决定其方向的不仅是数据和机器本身的特性,更包含了我们对商业本质的理解、对人性的洞察和创造未来商业新样貌的理想。
这就是我们称算法为智能商业的“引擎”而非“工具”的关键理由,它是智能的核心。基于数据和算法,完成“机器学习”,实现“人工智能”。这是第三次工业革命,计算革命,发展到今天,从量变到质变的飞跃,是数据时代最根本的特征。
智能商业的核心特征就是能主动地了解用户,通过学习不断提升用户体验。而把用户,数据和算法巧妙地连接起来的,是“产品”,这也是互联网时代特别强调产品重要性的根本原因。
产品和数据、算法的互补作用可以形象地比喻成“端+云”。“端”就是产品,是与用户完成个性化、实时海量、低成本互动的端口,它不仅仅直接完成用户体验,同时使得数据记录和用户反馈闭环得以发生,和“云”互动;而“云”则是数据聚合、算法计算的平台,它通过算法优化,更好地揣摩用户需求,提升用户体验。
作为“端”的产品,具备三个关键的作用:
第一,产品设计本身直接影响用户体验。功能是否齐全,界面是否友好,交换是否自然,都是关键因素。苹果公司这十年的成功,特别是iPhone, 充分显示了这一点;谷歌也是如此,超简洁的搜索框甫一出现就让人惊艳,口碑相传,带来了早期的高速发展。
第二,它是将“云”上的数据智能传递给用户、为用户带来价值的管道。事实上,在智能商业的“云”和“端”之间,客户的产品体验绝不仅仅来自于端上的UI互动,而更多地决定于云上的数据智能。例如,用户在淘宝的体验,不仅仅是搜索是否好用,类目是否合理,导航是否有效等,更重要的是他能否高效地从几十亿件商品,千万级卖家中快速找到他需要的商品,甚至还有惊喜,而这取决于“云”上的数据智能。不通过数据和产品的紧密融合,不通过云上的数据智能实时发挥作用,真正意义上的客户体验持续提升是根本无法想象的,就好像我们根本无法想象传统的金融服务能在几秒钟内完成对客户的贷款一样。
第三,它是用户通过行为数据向“云”上的数据智能进行反馈、实现数据增殖和算法优化的管道。用户的真实需求常常是无法直接表达的,但是他们的行动不会骗人。每一次用户的行动都成为一次数据反馈,算法在这样一次次的反馈中敏捷迭代,一次次更接近用户的真实需求。
上传下达,双“管”齐下,数据闭环靠产品互动实现,而产品体验依赖于数据智能,数据和产品合二为一。
因此,智能商业的成功,最关键的一步往往是一个极富想象力的创新产品,针对某个用户问题,定义了全新的用户体验方式,同时启动了数据智能的引擎,持续提升用户体验。这样的智能商业,才是对传统商业的颠覆,才是真正的“降维”攻击,胜者一骑绝尘。谷歌超越雅虎、Facebook超越Myspace、Uber颠覆出租车行业等等,无不如此。
数据化、算法加上产品构成了智能商业的三个基石,例如谷歌,其搜索引擎的三大核心,一是网页内容的数据化,二是基于PageRank的算法引擎,三是谷歌巨大的产品创新——极为简洁的搜索框和基于相关性排序的结果页。然而这还不够,要让智能商业一天比一天更聪明,还有一样东西不可或缺——反馈闭环。用户在搜索结果页上的每一次点击(或者一次点击都没有)的行为数据被实时记录、反馈到算法引擎,不仅优化了你的搜索结果,而且优化了任何搜索这个关键词的人得到的搜索结果。
用户行为通过产品的“端”实时反馈到数据智能的“云”,“云”上的优化结果又通过“端”实时提升用户体验,在这样的反馈闭环中,数据既是高速流动的介质,又持续增殖,算法既是推动反馈闭环运转的引擎,又持续优化,产品既是反馈闭环的载体,又持续改进功能,在为用户提供更赞的产品体验的同时,也促使数据反馈更低成本、更高效率地发生。
一言以蔽之,数据化、算法和产品就是在反馈闭环中完成了智能商业的“三位一体”的。
智能交通体系是另一个例子。以无人驾驶汽车为代表的整体智能交通体系已经不是科幻,谷歌首次实现了根据路况数据设计路线,本质上这是将关于路线选择的算法在线了,而今天在美国,无人驾驶汽车已经上路试验,就是汽车这个“端”的全面智能化。在中国,阿里巴巴最新的实践则是交通的“云”的全面智能化,依据各方面交通数据的整体打通,预测未来一小时里的每一个路口可能的交通状况,进而对接城市交通指挥系统,有的放矢,在北京这样复杂的路况下,此套体系的预测准确率超过95%。这其中,数据化、算法迭代和产品同样在反馈闭环中实现了三位一体。智能交通体系首先以一连串事物的数据化为前提的——包括了地理位置的数据化、车况的数据化、天气的数据化,红绿灯、分道线、行人的数据化等等;它还是算法实时优化的结果——不仅是车况本身的优化,更是整体智能交通体系的优化;它当然更离不开从汽车到红绿灯等种种产品的智能化。它更是众多数据反馈闭环的集合体——路况数据使车辆实时优化行车路线,周遭环境数据使车辆实时决定行使速度,乘客身体状况的数据使车辆实时调整车窗开合。
本质上,商业从一开始就是基于某种“反馈闭环”的,了解客户所需,提供相应的产品或服务。然而不论是发挥商业天份猜客户需求、抑或通过市场调查听客户需求,始终失之于准确,困之于成本。不过,到今天,当客户可以通过全本实时的数据把他们的需求直接告诉商家时,当商家可以凭借敏捷迭代的算法引擎精确满足客户的需求时,当产品借助互联网的巨大能量成为数据智能和用户实时互动的端口时,我们终于可以说,我们第一次找到了促使这反馈闭环更低成本、更高效率、甚至是自动运转的颠覆性工具——它可以被称作是一部数据智能的“永动机”,只要有在线的互动,有数据的反馈,机器就永不停歇地学习,实时敏捷地优化。
数据、算法、产品在反馈闭环中三位一体,惟其如此,智能商业才能完成对传统商业的降维攻击,DT时代的商业跃升才有了发力点。
数据分析咨询请扫描二维码
《Python数据分析极简入门》 第2节 6 Pandas合并连接 在pandas中,有多种方法可以合并和拼接数据。常见的方法包括append()、conc ...
2024-11-24《Python数据分析极简入门》 第2节 5 Pandas数学计算 importpandasaspdd=np.array([[81,&n ...
2024-11-23数据分析涉及多个方面的学习,包括理论知识和实践技能。以下是数据分析需要学习的主要方面: 基础知识: 数据分析的基本概念 ...
2024-11-22数据分析适合在多个单位工作,包括但不限于以下领域: 金融行业:金融行业对数据分析人才的需求非常大,数据分析师可以从事经 ...
2024-11-22数据分析是一种涉及从大量数据中提取有用信息和洞察力的过程。其工作内容主要包括以下几个方面: 数据收集与整理:数据分析师 ...
2024-11-22数据分析师需要掌握多种技能,以确保能够有效地处理和分析数据,并为业务决策提供支持。以下是数据分析师需要掌握的主要技能: ...
2024-11-22数据开发和数据分析是两个密切相关但又有所区别的领域。以下是它们的主要区别: 定义和目标: 数据开发:数据开发涉及数据的 ...
2024-11-22数据架构师是负责设计和管理企业数据架构的关键角色,其职责涵盖了多个方面,包括数据治理、数据模型设计、数据仓库构建、数据安 ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列技能,以确保能够有效地处理、分析和解释数据,从而支持决策制定。以下是数据分析师所需的关键技能: ...
2024-11-22数据分析师需要具备一系列的技能和能力,以确保能够有效地处理、分析和解释数据,从而支持业务决策。以下是数据分析师所需的主要 ...
2024-11-22需求持续增长 - 未来数据分析师需求将持续上升,企业对数据驱动决策的依赖加深。 - 预测到2025年,中国将需要高达220万的数据人 ...
2024-11-22《Python数据分析极简入门》 第2节 4 Pandas条件查询 在pandas中,可以使用条件筛选来选择满足特定条件的数据 importpanda ...
2024-11-22数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21数据分析行业正在迅速发展,随着技术的不断进步和数据量的爆炸式增长,企业对数据分析人才的需求也与日俱增。本文将探讨数据分析 ...
2024-11-21数据分析的常用方法包括多种技术,每种方法都有其特定的应用场景和优势。以下是几种常见的数据分析方法: 对比分析法:通过比 ...
2024-11-21企业数字化转型是指企业利用数字技术对其业务进行改造和升级,以实现提高效率、降低成本、创新业务模式等目标的过程。这一过程不 ...
2024-11-21