大数据在食品安全中的应用
时至今日,科学技术的发展能够处理大量不同来源的结构化和非结构化数据。这些技术常常被称作大数据,其开启了新的研究和应用领域,也将会对当今社会逐渐产生影响力。本文评价了应用在食品安全领域的大数据及其潜在发展趋势。在世界的各个地方,各国政府激励源于公共资助研究项目的互联网大数据发表。对于企业利益相关者如何处理食品安全和提出问题,这项政策迎来了新的发展机遇,这在以前是根本无法实现的。由于大数据新的发展,应用手机作为食品安全检测设备和利用社交媒体为食品安全问题预警也将成为可能。
一、引言
在全球化进程的影响下,社会企业产生大量的数据,这些数据包括商业,政府,健康保健和各研究学科,比如天然科学、生命科学、工程学、人类学和社会科学。这些大数据越来越可利用化,可以被用来开拓视野,提高决策,并且提高产品和服务的质量。但是,大数据的聚集和加速产生,需要相关数据的有效收集、储存和处理来战胜挑战。大数据的应用趋于多元化,比如来源于亚马逊网站的推荐系统,可以实时预测流感的爆发。另外还有一些文章研究了大数据潜在的应用。
“大数据”一词很少应用在食品安全相关领域,主要是因为食品安全数据和信息过于分散,主要集中于食品、健康和农业企业。食品安全领域大数据的应用需要内部操作标准的建立和实施,以及保密性保护。传统食品安全数据,例如全国调控数据,数量相对有限,虽然在区域之间不能达到和谐,但是具有很好的结构化。为了考察大数据方法如何能够有利于食品安全,本文作者分析了食品安全工具的应用,发展于不同阶段的大数据研究(例如数据收集、数据储存和转移、数据分析和数据可视化)。此外,作者分析了某些大数据在食品安全中是否以及如何扮演重要的作用,同时提供了一些范例来探讨未来的发展和机会。
二、大数据的定义
关于大数据的的定义有很多种。世界卫生组织使用的定义是:新兴应用的快速收集的、复杂的数据,这些数据以不可定量的兆字节,拍字节,甚至泽字节的储存形式存在。Gartner教授在2012年描述了对于大数据的数据管理挑战,具有三维特性:大数据具有高容量、高速和高多样性信息组,同时需要新的处理形式来提高决策,发掘观点和过程优化。欧委会于2014年发布了相似的定义:3V,即容量、速度和多样性。大数据指以高速产生的大量的不同字节的数据,其具有大量不同的字节来源。处理今天的大量和实时的数据组需要新的工具和方法,例如强有力的处理器、软件和运算法则。2015年,De Mauro教授提出大家一致同意的定义:大数据代表具有高容量,高速和多样性三大特性的信息组,同时需要通过特殊的技术和分析方法来使其转换为价值所在。
三、食品安全中大数据应用
最近世界卫生组织提出采用大数据方法来支持食品安全中面临的决策问题,产生了一个食品安全平台“FOSCOLLAB”,对来源于不同的学科进行整合。在这个平台中,来源于多个企业中的结构化和非结构化数据,例如农业、食品、公共卫生和经济指数被整合,通过专用设施,能够被使用者所应用。
(一)食品安全的数据收集
通过包含和产生食品安全有效信息,来区别不同类型来源,例如(在线)数据库、互联网、组学分析、手机和社交媒体。
1. 在线数据库
为了监测食品中有害成分的数据,产生了许多数据库。世界卫生组织于2015年发布的全球环境监测系统数据库包含数以万计的全球监测数据入口。考虑到其入口相对数量多,因此数据以一种逻辑化方式所结构化,并且容易获取。关于化学试剂性质信息,微生物生长条件和天气报告,在食品安全研究中占有重要地位。也可以使用模型来预测某些有害成分的存在,比如小麦中的真菌毒素。这些天气状况报告包含许多高速产生的数据,这些数据被收集在农业和供应链。不仅结构化数据库会收集食品安全事件,而且也可以通过国际食品安全权威机构的网站和媒体报道来查看。而后者的数据来源是非结构化的,并且分散在网络中,很难获取。一个相似的例子是食品污染物突发事件的登记(通过疾控中心)。这些事件也可以在网络和社交媒体中找到。
2. 互联网
因为互联网包含大量的信息来源,可以通过开发互联网来辅助风险经理人和风险技术顾问应对食品安全问题。开发网络信息采集系统用于在互联网上查询与食品安全相关的论文报告。这种系统的一个典型例子是MedISys,它属于欧委会联合研究中心开发的欧洲媒体监测系统。
3. 在线功能基因组学数据目录
“组学”一词覆盖许多学科,包括基因组学(研究核苷酸变异对基因的影响)、转录组学(mRNA表达)、代谢组学(代谢物水平)和蛋白组学(多肽和蛋白质水平)。为化学安全所开发的基于毒理基因组学的预测实验的主要方法,尤其是为了达到鉴定危险物的目的,包含大规模的基因组学数据库,这些数据库采集于细胞或动物的有毒物质的暴露。毒理基因组学的目的是阐明有毒物质表达的分子机制和分子表达类型(比如分子生物标记),同时能够使用“基于动物”和体外(细胞)模型来预测体外和体内毒性。
4. 手机
使用手机变得越来越广泛,新的应用快速发展,包括食品安全和健康相关的应用。报道显示联合使用智能手机和便携式设备可以监测 (1)水质中汞污染,(2)啤酒中赭曲霉毒素A污染,(3)食品中多种过敏原污染,以及(4)水质和食品中微生物(大肠杆菌)污染。在手机上收集得到的数据不仅可以通过无线连接个人计算机,而且能够转移到数据云或其他数据中心。
(二)数据储存和转移
通常来讲,通过数据管理系统能够达到数据储存,例如MySQL, Oracle和PostgreSQL。但是,这些系统不足以用来支持大数据处理。对于大数据而言,需要由比传统系统所能提供的更快的速度、更好的机动性和可实现性。因此,下一代数据库会发展非关联的,开放源模式和水平可伸缩性,也就是NoSQL。这些系统很好例子有MongoDB, Cassandra和HBase等等。
(三)数据分析
在NoSQL中,随着数据储存和转移到处理单元之后,接下来就是数据分析。使用最广泛的大数据分析方法分为以下两大类::(1)推荐系统;(2)机器学习。
(四)可视化
不同的可视化工具用来分析和总结大数据,这些工具有利有弊。最常见的是R和Cicos. R,这是一种通过使用在数据中的开放源程序语言,来可视化和分析数据的工具,并提供图功能和网络图功能。Circos允许在循环布局中可视化数据,同时开发目标物和位置之间的关系。该软件成为了可视化染色体的标准。对于商业可视化软件而言,不需要编程技能,IBM公司开发的在线可视化处理工具 Many Eyes和Tableau都是很好的选择。
四、食品安全大数据实例
(一)农业链和食品供应链
在农业链,大数据可以通过有关环境因素的链接信息来预测病原体或污染物存在。例如,通过监测田间作物条件,可以达到在进入食品链之前,鉴定黄曲霉毒素污染增加的面积。在另一研究中,研究者以欧洲西北部的小麦为对象,通过使用大量的模型和数据库(包括天气数据),开发出定量模型,从而预测小麦真菌毒素的污染。
(二)突发事件和来源鉴定
在食品安全性突发事件产生过程中,大量的样品被收集和分析,产生大量的数据和信息,这些数据和信息被用来鉴定突发事件的来源。快速筛选病原体基因技术(全集因序列和下代序列)的发展,导致专一基因信息的收集和病原株或亚型的出现。例如,2011年,在德国发生的病原体“肠出血性大肠杆菌”事件,在不同面积,细菌存在的信息被收集到。健康个体的家能够用来筛选庇护病原体,通过监测每个家庭来筛选二级感染。在初级阶段,这些监测信息帮助检测问题,允许及时地提供防护性措施,最终阻止突发事件的发生。
(三)鉴定突发事件采用可选择性数据来源
除了基因信息,其他因素也用来建立污染来源。2011年,Gardy教授等学者从肺结核突发事件中得出结论:基因类型和单独联系溯源不能够确切地获取突发事件的真正动力学。作者采用社会环境信息与全基因序列结合,来检测突发事件爆发的来源和原因。虽然数据样本不足够大,但是通过应用社会网络,数据的多样性大大增加。
五、食品安全大数据的未来
在欧洲,欧委会发布了一项大数据策略,用来支持数据驱使化的经济发展。他们支持开放式数据获取,例如,免费在线获取欧盟资助项目的研究结果,包括科学论文和研究数据。这些欧盟资助项目包含 (1)发展中国家的作物监测,(2)全部产品生命周期监测,(3)提高产品开发过程的效率和质量。并且欧洲各国政府,例如荷兰政府激励公共-私人项目来开发大数据潜力。在美国,奥巴马政府发布了“大数据研究和开发倡议”,以便更大程度的提高可获取,组织和收集发现大量数字数据的工具和技术。这项倡议增加了政府支持,加速了联邦机构从大量复杂数据中提取有效数据的能力。同时也鼓励私营公司、学术机构、当地政府和基金之间关于新大数据项目的合作,比如2013年发布的“数据-知识-行动”项目。
六、结论
在全球范围内,随着大量数据的产生,这些数据与食品安全直接或者间接关联。当前,在食品安全大数据领域,只开发出有限数量的方法。源于互联网,从公共资助研究项目中获得数据的发展趋势,对处理食品安全的利益相关者来说,开启了新的机遇。尤其是在食品安全监测中,手机、高级溯源系统和社交媒体的使用,需要比以前具有更多大数据特点的工具和基础设施。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
以下文章来源于数有道 ,作者数据星爷 SQL查询是数据分析工作的基础,也是CDA数据分析师一级的核心考点,人工智能时代,AI能为 ...
2025-02-19在当今这个数据驱动的时代,几乎每一个业务决策都离不开对数据的深入分析。而其中,指标波动归因分析更是至关重要的一环。无论是 ...
2025-02-18当数据开始说谎:那些年我们交过的学费 你有没有经历过这样的场景?熬了三个通宵做的数据分析报告,在会议上被老板一句"这数据靠 ...
2025-02-17数据分析作为一门跨学科领域,融合了统计学、编程、业务理解和可视化技术。无论是初学者还是有一定经验的从业者,系统化的学习路 ...
2025-02-17挖掘用户价值本质是让企业从‘赚今天的钱’升级为‘赚未来的钱’,同时让用户从‘被推销’变为‘被满足’。询问deepseek关于挖 ...
2025-02-17近来deepseek爆火,看看deepseek能否帮我们快速实现数据看板实时更新。 可以看出这对不知道怎么动手的小白来说是相当友好的, ...
2025-02-14一秒精通 Deepseek,不用找教程,不用买资料,更不用报一堆垃圾课程,所有这么去做的,都是舍近求远,因为你忽略了 deepseek 的 ...
2025-02-12自学 Python 的关键在于高效规划 + 实践驱动。以下是一份适合零基础快速入门的自学路径,结合资源推荐和实用技巧: 一、快速入 ...
2025-02-12“我们的利润率上升了,但销售额却没变,这是为什么?” “某个业务的市场份额在下滑,到底是什么原因?” “公司整体业绩 ...
2025-02-08活动介绍 为了助力大家在数据分析领域不断精进技能,我们特别举办本期打卡活动。在这里,你可以充分利用碎片化时间在线学习,让 ...
2025-02-071、闺女,醒醒,媒人把相亲的带来了。 我。。。。。。。 2、前年春节相亲相了40个, 去年春节相亲50个, 祖宗,今年你想相多少个 ...
2025-02-06在数据科学的广阔领域中,统计分析与数据挖掘占据了重要位置。尽管它们常常被视为有关联的领域,但两者在理论基础、目标、方法及 ...
2025-02-05在数据分析的世界里,“对比”是一种简单且有效的方法。这就像两个女孩子穿同一款式的衣服,效果不一样。 很多人都听过“货比三 ...
2025-02-05当我们只有非常少量的已标记数据,同时有大量未标记数据点时,可以使用半监督学习算法来处理。在sklearn中,基于图算法的半监督 ...
2025-02-05考虑一种棘手的情况:训练数据中大部分样本没有标签。此时,我们可以考虑使用半监督学习方法来处理。半监督学习能够利用这些额 ...
2025-02-04一、数学函数 1、取整 =INT(数字) 2、求余数 =MOD(除数,被除数) 3、四舍五入 =ROUND(数字,保留小数位数) 4、取绝对值 =AB ...
2025-02-03作者:CDA持证人 余治国 一般各平台出薪资报告,都会哀嚎遍野。举个例子,去年某招聘平台发布《中国女性职场现状调查报告》, ...
2025-02-02真正的数据分析大神是什么样的呢?有人认为他们能轻松驾驭各种分析工具,能够从海量数据中找到潜在关联,或者一眼识别报告中的数 ...
2025-02-01现今社会,“转行”似乎成无数职场人无法回避的话题。但行业就像座围城:外行人看光鲜,内行人看心酸。数据分析这个行业,近几年 ...
2025-01-31本人基本情况: 学校及专业:厦门大学经济学院应用统计 实习经历:快手数据分析、字节数据分析、百度数据分析 Offer情况:北京 ...
2025-01-30