在大数据时代中,如何更快地即时分析巨量数据,成为新的创业契机。来自台湾的团队「核桃运算MacroData」,从最底层的数据分析架构出发,耗费两年半的时间,研发出可分析不同资料属性,以及横跨各式硬体的资料分析引擎,比起现有的资料库来说,运算速度还要快50倍到100倍,今年下半年将正式走入市场。
令人意外的是,核桃运算一开始并非瞄準大数据商机。核桃运算的灵魂人物薛文蔚,是台大资工系第一届学生,毕业取得哥伦比亚大学资工博士学位后,先到华尔街工作两年,在1995年开始创业,开发教育平台。2000年回到台湾 ,在知名的软体公司Computer Associates负责亚洲地区的合资公司业务,随后在台湾成立供应链管理公司「联合通商eBizprise」,和在中国的子公司「eBizServe」。
2011年,薛文蔚遇到一个中国大陆大型零售商的供应链预测问题。当20万个品项、上万个通路,再加上要做100週的预测时,资料共有惊人的上百亿点,如此庞大的资料量,传统的资料库无法负荷。他发现市场空缺后,找来公司裡两位同事黄怡诚和赖育骏,一同成立研发团队。
虽然本来是从供应链管理的问题切入,但深入研究后薛文蔚却发现,这是大数据的问题。他解释,现在用的资料库技术都是1970年时提出的架构,很多理论是基于当时的假设,「但当底层条件已经改变时,我们不该再用过去的模式想事情。」于是团队从非常底层的架构重新思考,适合现在使用的运算模式是什么。
其中最大的差异是,过去资料运算时,需先从资料储存的地方如硬碟,搬到记忆体运算后,再把资料放回去。但现在的资料量早已是过去的好几千万倍,薛文蔚打个比方:「Data的成长就好像房价一样,Code的成长则好像薪水一样。」
如果沿用过去搬动资料的运算方式,大多时间都是花在「搬移」上,因此核桃运算主张透过不搬动的「in-place computing」运算方式,直接把程式送到资料的所在地运算,少了搬移动作,资料运算速度就会提昇很多。目前团队已申请四项美国专利,其中叁项已被核准。
比起现有的资料库运算方式,核桃运算共同创办人陈元贞解释,以目前知名的Hadoop来说,透过分散式运算,把1部机器要算的东西放到100部机器上算,虽能提升运算速度,但却不是每个公司都能负担的起部建分散式运算系统。
若是非关联式的NoSQL资料库,数据存储没有一定的模式架构,虽然速度可以变快,但也因为不需固定模式,当要做两者的比较分析或资料採矿就有些困难。若是传统的MySQL资料库,更是无法负荷现在庞大的资料量。
从2011年下半年先在母公司联合通商旗下成立团队开始,众人花了两年半时间研发,终于在今年推出产品「Big Object」,团队也在今年2月从母公司独立。Big Object主要运行在64 bit的装置上,因为採用「in-place computing」,最大优势就是快,运算速度可快50倍至100倍,因此可做到当下的即时分析。
此外,Big Object也能分析异质性资料,不只企业本身的商务资料,也能结合open data和非结构性资料,像是零售业者可和天气预测或脸书贴文交叉比对。「就像冰山一样,本来你只看到交易资料,可是更多的是你没有看到水面底下的资料,」陈元贞说。
也因为Big Object是很轻巧的资料运算引擎,在未来物联网时代,小至眼镜、手錶,大到汽车、冰箱,每个装置都能成为分析资料的机器,因此这些装置也都可以嵌入Big Object的分析引擎,根据数据做出最优化的预测或行动,如调整车速、冰箱温度等。
Big Object主要针对BI产品(Business Intelligence,从数据分析中挖掘商业价值)或LOG分析的软体开发商,可直接将Big Object嵌入在软体裡,收入以授权年费为主。目前核桃运算已有些试用客户,像是在台湾就已和神坊资讯旗下的购物网站合作,透过Big Object计算商品间的相关性,进而做出即时的购物推荐。
产品到位后,今年下半年Big Object将开始走入市场,目前处于客户开发阶段。陈元贞表示,由于这类应用主要在美国市场居多,因此今年3月团队也在美国註册公司,预计今年在台湾和美国都要各自招募十人团队,未来台湾负责研发,美国则负责业务。
核桃运算四位共同创办人,从左至右为赖育骏、薛文蔚、黄怡诚和陈元贞
【创业教我的事】找出自己的定位,在过程中随时保有自己的判断,尤其是对产品和市场策略的看法。
Q1. 希望提供这个社会什么价值? 最主要是提供一个快速又可负担的分析引擎,帮助资料分析者或商业决策者,发掘出隐含在大量资料背后的资讯。
Q2. 长远来看,贵公司想成为何种类型的公司?
我们希望做到「资料处理界的Intel」,未来软体内可以搭载BigObject的运算核心,不管是CRM、ERP、BI或是Log分析软体,都能透过BigObject的即时分析而有更优化的软体功能。
本文来源:CDA数据分析师培训官网
数据分析咨询请扫描二维码
《Python数据分析极简入门》 第2节 2 Pandas数据类型 Pandas 有两种自己独有的基本数据结构。需要注意的是,它固然有着两种数据 ...
2024-11-01《Python数据分析极简入门》 第2节 1 Pandas简介 说好开始学Python,怎么到了Pandas? 前面说过,既然定义为极简入门,我们只抓 ...
2024-10-31在当今数据驱动的世界中,数据科学与工程专业的重要性愈发凸显。无论是推动技术进步,还是在商业决策中提供精准分析,这一专业都 ...
2024-10-30在当今信息爆炸的时代,数据已成为企业决策和战略制定的核心资源。爬虫工程师因此成为数据获取和挖掘的关键角色。本文将详细介绍 ...
2024-10-30在当今数据驱动的世界中,数据分析是揭示商业洞察和推动决策的核心力量。选择合适的数据分析工具对于数据专业人士而言至关重要。 ...
2024-10-30能源企业在全球经济和环境保护双重压力下,正面临前所未有的挑战与机遇。数字化转型作为应对这些挑战的关键手段,正在深刻变革传 ...
2024-10-30近年来,随着数据科学的逐步发展,Python语言的使用率也越来越高,不仅可以做数据处理,网页开发,更是数据科学、机器学习、深度 ...
2024-10-30大数据分析师证书 针对不同知识,掌握程度的要求分为【领会】、【熟知】、【应用】三个级别,考生应按照不同知识要求进行学习。 ...
2024-10-30《Python数据分析极简入门》 附:Anaconda安装教程 注:分Windows系统下安装和MacOS系统安装 1. Windows系统下安装 第一步清华大 ...
2024-10-29拥抱数据分析的世界 - 成为一名数据分析工程师是一个充满挑战和机遇的职业选择。要成功地进入这个领域,你需要掌握一系列关键技 ...
2024-10-28降本增效:管理战略的关键 企业管理中的降本增效不仅是一项重要的战略举措,更是激发竞争力、提高盈利能力的关键。这一理念在当 ...
2024-10-28企业数字化是指利用数字技术和信息化手段,对企业的各个方面进行改造和优化,以提升生产效率、服务质量和市场竞争力的过程。实现 ...
2024-10-28数据科学专业毕业后,毕业生可以选择从事多种不同的岗位和领域。数据科学是一个快速发展且广泛应用的领域,毕业生在企业、学术界 ...
2024-10-28学习数据科学与大数据技术是当今职业发展中至关重要的一环。从基础到高级,以下是一些建议的课程路径: 基础课程: Python编程 ...
2024-10-28在信息技术和数据科学领域,数据架构师扮演着至关重要的角色。他们负责设计和管理企业中复杂的数据基础设施,以支持数据驱动的决 ...
2024-10-28进入21世纪以来,随着信息技术的迅猛发展,大数据已经成为全球最具影响力的技术之一,并成为企业数字化转型的核心驱动力。大数据 ...
2024-10-28随着科技的迅猛发展,数字化转型已成为现代企业保持竞争力和推动增长的关键战略之一。数字化不仅仅是技术的应用,它代表着一种全 ...
2024-10-28银行业正处于一个前所未有的数字化转型时期。在数字经济的驱动下,金融科技如大数据、人工智能、生物识别、物联网和云计算等技术 ...
2024-10-28数据分析可视化是一门艺术与科学相结合的技术,其主要目标是将复杂的数据变得更易于理解和分析。通过将数据以图表的形式呈现,我 ...
2024-10-28数据分析师在现代信息密集型的商业世界中扮演着至关重要的角色。他们通过专业的技能和敏锐的商业洞察力,帮助企业从大量数据中提 ...
2024-10-28