工业大数据分析的误区与建议
作为数据价值变现的核心技术手段之一,大数据分析的作用被广泛宣传甚至神化。对于工业大数据分析,产业界存在有不少困惑。是否把商业大数据分析照搬过来就是就足够了?只要有了海量数据,大数据分析是否不需要任何假设前提了?是否机理模型或领域经验就不重要了?工业大数据分析有没有典型的范式来指导实际操作?
从行业数据分析实践者的角度,本文第一部分剖析了工业大数据分析的常见误区与正确的价值变现之路,指出工业大数据分析应该注重与机理模型的融合,充分利用领域先验知识;第二部分从分析算法的应用侧重点、分析模型与机理模型融合方式、业务应用场景等三个维度归纳了工业大数据分析的典型范式。
工业大数据“大,不一样”
在与工业企业的交流中,笔者感受到业界对大数据分析的期望与“神化”。
谓之“神化”,是由于大数据应用在国内外实践产生的案例,在提质增效及个性化服务方面,产生的利润与之煽动的蝴蝶效应,让有些工业企业以为只要安装了传感器,能把数据采集下来,就能让数据说话,就能从上千种因素中定位出故障原因,就能精准指导研发、生产、运营。甚至误认为经典的机理模型或多年积累的经验不再重要。
然而脱离机理与领域知识的大数据分析结果常常是“你以为你以为的不是你以为的”。
工业大数据的“小”与“大”
从传统大数据3V(Volume, Velocity, Variety)或4V(Veracity)度量角度来看,工业数据当然属于大数据的范畴,在体量上甚至超过互联网大数据[1]。然在数据分析中仍不时感觉到工业数据之“小”,主要体现在3个方面。
1)价值密度:王建民教授曾指出[2],相对于产品图纸、工艺设计等传统“小”数据,工业“大”数据的价值密度低。工业大数据分析无法脱离这些基础信息的支撑,不举小数据之“纲”,难行大数据之“目”。
2)大数据永远是物理世界的“小”样本:以SMT(Surface Mount Technology)生产线为例,最终产品质量由工艺参数、材料特性、生产设备等上千个参数共同影响,生产检测大数据仅仅覆盖了很小的参数组合空间(curse of dimension)。并且不是所有关键因素都有测量,测量值也不一定能反映分布式参数系统的全部(比如回流焊的温度监测值并不等于电路板的表面温度)。工业数据分析更需要利用先验知识缩小搜索空间,同时保持一种“大胆探索、小心求证”的态度。
3)对分析有直接意义的样本比例通常很小:工业通常是运行在设计的常态模式下,对不期望的干扰因素会进行很多压制,造成绝大部分数据对应非常相似的环境与过程。特别对于故障分析、残次品因素分析等大数据分析,样本不均衡程度非常高(biased data)。虽然物理系统相对社会系统更容易做一些控制性实验,但由于很多工业领域控制实验(比如风机叶片断裂、油气管道泄漏等)成本或风险太高,实际上也很难提供足够的异常情形样本。
因此,工业大数据的“大”不能仅从数据量、数据类型、产生速度、质量等角度来看,而应考虑以下两个方面。
1)维度之大:风力发电机组的健康分析应该从时间(过去故障记录、整机性能演化等)、空间(相同机型在不同风场的表现)、环境(气象、地理)、业务运作(设计、维修、限电等)等多个维度综合来看。独立看似异常的事件,很多其实是正常业务操作引起的(如风机功率低可能是由于启动限功率运行模式以降低对居民区的影响)。对于工业数据,更应构建全面的上下文(context model),才有可能分析出一些有价值的结果。
2)先验知识基础之大:工业领域通常有大量的机理模型、专家经验的深厚积累,可以为数据分析缩小参数空间、提供有用的特征变量(如齿轮箱震动的倒谱参数),数据分析也应思考如何有这些基础更好的互动与融合,以期创造更大的价值。
工业数据分析与商业数据分析:一字之别?
当前很多流行的大数据理念来自于互联网和商务领域,不少分析技术也是针对商业大数据。但工业大数据与商业大数据在很多地方存在比较大的差别,郭朝辉等行业专家对此从不同角度进行了深刻剖析[2,3],我们将其归纳为如下表所示的四个维度[4]。
1)研究对象不同:工业领域以物理系统(物理实体或环境)为中心,研究动态过程的规律和因果关系,而商业大数据以人造系统(人或流程)为研究对象,试图理解其中的行为模式。当然,工业领域的一些简单产品(如个人电子消费品)制造业和商业产品在产品定义、营销和售后有不少相似之处,但对于复杂产品(如高端装备、高精度制造),区别是非常显著的。
2)现有基础不同:在工业领域,人们对生产过程的研究一般比较深入,形成了很多系统化的中观、微观机理模型,领域知识也比较丰富。客观来讲,对物理系统本身的突破性知识发现难度很大。工业数据中体现出来的规律常常难以突破现有生产技术人员的认知范围。与之相比,商业领域中仅存在一些宏观理念,定性描述人的行为偏好和经济活动规律,给大数据分析留有广泛的提升空间。
3)新的驱动力不同:感知技术的发展和普及是工业大数据的驱动力,现有的工控技术很难处理大数据量的挑战,大量的监测数据也为大数据分析带来与业务数据融合分析的机会。而互联网的发展为企业带来与客户交互的新渠道,极大促进了商业大数据分析的发展。工业领域的大数据大多是具有时空信息的结构化数据,且背后有明确的物理结构(如系统动力学、网络拓扑关系等),对时间序列、时空模式、序列模式等结构模式挖掘非常重要。而商业大数据分析大多集中在结构化的数据仓库表或非结构化数据(如文本、视频),数据间除了实体关系和部分时空信息外,结构性关系较弱。
4)对分析技术的要求不同:工业系统的实时性高,动态性强,对分析结果的精度要求高,很难接受概率性预测,而商业应用常遵循大数原则,概率性的分析就可以为运营提供很大的帮助。不同工业应用场景对技术指标的要求也不同,比如在风机领域,大部件的故障检测报警已经在PLC中实现,大数据分析只有提前若干小时的故障预警才有意义;油气管道泄漏检测中,泄漏发生后的及时报警也很有意义,但其要求零漏报、极低的误报(管道深埋地下,误报会给一线工作人员带来很大工作量);在抽油机监测分析中,可容忍分析算法对一些罕见或复杂故障类型的无法研判(类似漏报),但分析算法可以研判的出示功图异常的的准确率应该是100%(这样就可以降低70~80%的重复性工作)。
工业数据分析的价值实现之道
综上所述,工业大数据分析更应该抱着“小数据”的心态,敬畏机理模型和领域经验,把数据分析模型与机理模型充分融合。数据分析对工业领域知识的帮助主要体现在如下3个渠道:
1)物理过程和业务过程的融合。能将物理量与经营过程量(如产品质量、生产效率、设备可靠性等)的关系定量化,突破现有生产技术人员的知识盲点,实现过程痕迹的可视化。
2)对于物理过程环节,重视知识的“自动化”,而不仅仅是知识的“发现”。将领域知识进行系统化管理,通过大数据分析进行检索和更新优化;对于相对明确的专家知识,借助大数据建模工具提供的典型时空模式描述与识别技术,进行形式化建模,在海量历史数据上进行验证和优化,不断萃取专家知识,充分利用多维度融合带来的统计显著性(比如个别风场看似偶发的故障,在全体风场上可能有稳定的统计规律)
3)“软”测量。在工业应用中,不同过程量监测的技术可行性、精度、频度、成本差别较大,通过大数据分析,建立指标间的关联关系模型,通过易测的过程量去推断难测的过程量,提升生产过程的整体可观可控。
小结如前所述,工业大数据分析更应秉承“小数据”思维,尊重机理模型和领域知识,利用数据分析技术手段,披沙简金,释放工业大数据的价值。为更明确指导工业大数据分析软件架构,接下来本文将从分析算法侧重点、分析模型与机理模型融合方式、业务应用场景等3个方面分享工业大数据分析的典型范式。
6类算法应用范式
数据分析本质上是一种统计手段,需要足够的样本才有可能发挥显著作用。另外,数据分析作为探索未知的一种技术手段,它的作用也与机理复杂度密切相关。这里从产品相似度、机理复杂度两个维度,将分析算法应用分为6类范式。
1)从工业产品的相似度来看,可分为大量相似产品(如风力发电机)和少量定制化产品(如就地建设的化工反应塔)。相似产品在数据分析时可以充分利用产品间的交叉验证,而少量定制化产品应深度挖掘时间维度。
2)从产品机理的复杂性来看,有无需机理模型的black-box产品(如电子消费品,通常不会深入元器件内部去分析)、简单明确机理产品(如风力发电机)、复杂机理产品(如鼓风机、化工厂)。复杂机理产品在工业大数据分析时,应更加重视机理模型和专家经验的融入。
4种融合范式
分析模型与机理模型的融合可以分为4种范式:
1)分析模型为机理模型做model calibration,提供参数的点估计或分布估计。例如Kalman滤波。
2)分析模型为机理模型做post-processing。比如,利用统计方法对WRF等天气预报模型的结果做修正或多个机理模型综合,提高预测的稳定性。
3)机理模型的部分结果作为分析模型的feature。例如,在风机结冰预测中,计算风机的理论功率、理论转速作为数据挖掘模型的重要特征。
4)分析模型与机理模型做ensemble。比如,在空气质量预测中,WRF-CHEM/CMAQ等机理模型可及时捕获全局动态演化过程,而统计模型可对局部稳态周期模式有较高精度的刻画,model ensemble可有效融合两类模型的各自优势。
3类业务应用范式
通过对复杂过程的演化过程和上下文的全面深入刻画,工业大数据对产品/设备可靠性、运作效率、产业互联网等3类业务应用场景都有很大促进作用。一些行业的典型工业大数据分析场景如下图所示。
小结
工业大数据分析能否真正落地,取决于能否创造经济价值。价值的持续创造,必须与生产/管理流程和上下文相结合,必须理解工业的特点、工业数据的特征和工业界的特殊要求。
这些特殊性决定了工业大数据分析的思路和方法有别于商务大数据,更应以“小数据分析”的心态,融合机理模型和领域经验。在分析模式上,本文将工业大数据分析归纳为6类算法应用范式、4种融合范式和3类业务应用范式,以期促进不同行业分析模型的复用。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
“最近复购率一直在下降,我们的营销力度不小啊,为什么用户还是走了?” “是不是广告投放的用户质量不高?还是我们的产品问题 ...
2025-02-21以下文章来源于数有道 ,作者数据星爷 SQL查询是数据分析工作的基础,也是CDA数据分析师一级的核心考点,人工智能时代,AI能为 ...
2025-02-19在当今这个数据驱动的时代,几乎每一个业务决策都离不开对数据的深入分析。而其中,指标波动归因分析更是至关重要的一环。无论是 ...
2025-02-18当数据开始说谎:那些年我们交过的学费 你有没有经历过这样的场景?熬了三个通宵做的数据分析报告,在会议上被老板一句"这数据靠 ...
2025-02-17数据分析作为一门跨学科领域,融合了统计学、编程、业务理解和可视化技术。无论是初学者还是有一定经验的从业者,系统化的学习路 ...
2025-02-17挖掘用户价值本质是让企业从‘赚今天的钱’升级为‘赚未来的钱’,同时让用户从‘被推销’变为‘被满足’。询问deepseek关于挖 ...
2025-02-17近来deepseek爆火,看看deepseek能否帮我们快速实现数据看板实时更新。 可以看出这对不知道怎么动手的小白来说是相当友好的, ...
2025-02-14一秒精通 Deepseek,不用找教程,不用买资料,更不用报一堆垃圾课程,所有这么去做的,都是舍近求远,因为你忽略了 deepseek 的 ...
2025-02-12自学 Python 的关键在于高效规划 + 实践驱动。以下是一份适合零基础快速入门的自学路径,结合资源推荐和实用技巧: 一、快速入 ...
2025-02-12“我们的利润率上升了,但销售额却没变,这是为什么?” “某个业务的市场份额在下滑,到底是什么原因?” “公司整体业绩 ...
2025-02-08活动介绍 为了助力大家在数据分析领域不断精进技能,我们特别举办本期打卡活动。在这里,你可以充分利用碎片化时间在线学习,让 ...
2025-02-071、闺女,醒醒,媒人把相亲的带来了。 我。。。。。。。 2、前年春节相亲相了40个, 去年春节相亲50个, 祖宗,今年你想相多少个 ...
2025-02-06在数据科学的广阔领域中,统计分析与数据挖掘占据了重要位置。尽管它们常常被视为有关联的领域,但两者在理论基础、目标、方法及 ...
2025-02-05在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-02-05当我们只有非常少量的已标记数据,同时有大量未标记数据点时,可以使用半监督学习算法来处理。在sklearn中,基于图算法的半监督 ...
2025-02-05考虑一种棘手的情况:训练数据中大部分样本没有标签。此时,我们可以考虑使用半监督学习方法来处理。半监督学习能够利用这些额 ...
2025-02-04一、数学函数 1、取整 =INT(数字) 2、求余数 =MOD(除数,被除数) 3、四舍五入 =ROUND(数字,保留小数位数) 4、取绝对值 =AB ...
2025-02-03作者:CDA持证人 余治国 一般各平台出薪资报告,都会哀嚎遍野。举个例子,去年某招聘平台发布《中国女性职场现状调查报告》, ...
2025-02-02真正的数据分析大神是什么样的呢?有人认为他们能轻松驾驭各种分析工具,能够从海量数据中找到潜在关联,或者一眼识别报告中的数 ...
2025-02-01现今社会,“转行”似乎成无数职场人无法回避的话题。但行业就像座围城:外行人看光鲜,内行人看心酸。数据分析这个行业,近几年 ...
2025-01-31