处理不确定数据的方法研究
成果简介:不确定性是客观存在的大量现象和事物的特征,其表现形式也具有多样性,如随机性、模糊性、粗糙性以及多重不确定性等。随着研究范围的扩大、研究内容的深入,对不确定现象与事物的研究及其数据处理方法也亟待突破和落地应用。本研究针对不确定性的数学理论、算法及应用开展了多层次研究:数据分析师,在随机性数据处理方面,应用已有的成熟算法对实际生活中常见的不确定性现象开展分析,包括了多维标度法在亲属关系中的分析应用、Bayes判别法在医学领中的分析应用;在粗糙性数据处理方面,发展了若干处理不确定性数据的新方法,包括了合成集值信息系统的属性特征分析方法以及基于包含度的结构粗糙集近似方法研究。
成果内容提要:
随着信息技术的日星月异,一些具有海量、高维、动态等特征的大规模复杂数据不对涌现,这些数据以数字、语言、声音、图像等形式进行存储,并形成了大量的复杂信息系统,人们迫切需要去分析处理这些复杂数据,从中找到有价值的信息和知识。然而,(数据分析师)由于这些数据带有的高度不确定性,直接对这些数据进行处理面临着严重的计算问题。瞎子摸象的故事就反映了在信息不确定性下进行应用推理会产生认知的偏差。因此,如何有效、快速地处理不确定性数据,并提取出隐含其中、潜在有用的知识,一直是智能信息处理领域的一个研究热点。
作为知识获取和数据挖掘的重要理论,概率论与包含度理论是处理随机性和粗糙性数据工具的基础理论。本作品针对若干不确定性的数学理论、算法及应用开展了多层次研究,在随机和粗糙性数据处理方面取得了以下两方面的研究成果,对推动不确定性数据处理的理论、方法和实际应用研究具体重要的现实意义。
1、在随机性数据处理方面,应用基于概率论的统计分析算法对实际生活的常见不确定性现象开展分析。
(1)多维标度法在亲属关系中的分析应用:简单地介绍了多维标度法和加权多维标度法的理论及原理,对亲属关系间的不确定现象进行建模,采用多维标度法分析了亲属关系的亲密程度,展示了15种亲属关系可分为五大类,并由此得到在人们心中亲属的分类情况,最终根据这些分类来解释一些亲属间的关系,理解人际关系中的一些社会现象,帮助缓和彼此之间的一些矛盾。
(2)Bayes判别法在医学领中的分析应用:Bayes判别在进行判别分析时考虑到各总体出现的先验概率、预报的先验概率及错判造成的损失,其判别效能优于其他判别方法。在对Bayes判别方法详细介绍基础上,本研究利用R软件对一组舒张压和胆固醇数据分别进行Bayes判别分析、Fisher判别分析和基于距离的判别分析,对比三种不同方法下得到的判别结果。结果表明,Bayes判别分析得到的分类结果精度较高,在医学领域有较好的应用前景。
2、在粗糙性数据处理方面,发展了基于包含度理论的若干粗糙性数据处理新理论和新方法。
(1)合成集值信息系统的属性特征:属性特征是描述数据的重要表征,也是研究信息系统中属性重要性的方法之一。对一个信息系统而言,知识库中的属性并不是同等重要的,其中有些属性是冗余的,即不必要属性,而有些属性是必需的,即必要属性。而当信息系统中的数据是随机采集时,其冗余性更为普遍。因此,研究信息系统中属性的重要性即属性特征具有重要的理论与实际意义。本研究基于集值信息系统中的拟序关系,给出了对象合成、属性合成集值信息系统,讨论了集值信息系统与合成集值信息系统的协调集、属性特征之间的关系,进而定义了对象(属性)子集值信息系统,研究了子集值信息系统与原集值信息系统等的必要属性及不必要属性之间的关系。
(2)(数据分析师)基于包含度的结构粗糙集近似方法研究:基于包含度理论的粗糙集是一种处理不确定性和不完整性的数学工具,不仅能有效地分析不完整、不一致、不精确等不完备的信息,还能对数据进行分析与推理,从中发现隐含的的知识,揭示其潜在的规律。本研究在Pawlak下、上近似和Bryniarski下、上近似的基础上,研究了结构粗糙集近似及其性质,主要包括基于概率粗糙集近似研究及其性质,利用包含度度量等价类和被近似集之间的包含程度,基于包含度的粗糙集近似及其性质,以及基于包含度的结构粗糙集近似。
综上,上述两方面的理论和应用研究,有助于随机和粗糙性数据的合成、传播和修正,为不确定数据处理理论和应用研究提供了借鉴,同时也对产生新的不确定推理技术有着明显的指导作用。
社会反映:
当今世界处在一个信息时代,信息是人类社会认识世界和改造世界的知识源泉,人们接触到的各种各样的信息有时候是确定的,更多的时候是不确定的。信息本身的确定或不确定属性无所谓好坏,问题在于我们怎样去正视不确定性、认识不确定性、把握不确定性,确定与不确定揭示和反映事物变化发展过程中的必然与偶然、清晰与模糊、精确与近似之间的关系,确定性是指客观事物联系和发展过程中有规律的、必然的、清晰的、精确的属性,不确定性是指客观事物联系和发展的过程中无序的、或然的、模糊的、近似的属性,确定与不确定,既有本质区别,又有内在联系,两者之间的关系是辩证统一的。
不确定性的数据分析研究是在概率论、可信性理论、包含度理论等基础理论支撑逐渐开展的,是指对决策受到各种事前无法控制的外部因素变化与影响所进行的研究和估计,可以尽量弄清和减少不确定性因素对关注问题的影响。本研究旨在提供处理若干不确定性问题的理论分析和数学工具,内容包括随机性数据与粗糙性数据的处理两大方面,部分反映了不确定性数据处理的最新研究成果、研究方法和研究动向,在理论体系和方法上均有所创新。本作品可作为应用数学、运筹学、管理科学、计算机科学、系统科学、信息科学与工程技术等专业师生和研究人员探讨分析不确定性数据处理的参考资料,也可作为相关专业的教师和研究人员的参考书。
(1)多维标度法在亲属关系中的分析应用
(2)Bayes判别分析在医学中的应用
判别分析是用以判别个体所属群体的一种统计学方法,它产生于20世纪30年代,近年来,在许多自然科学的各个分支和技术部门中,得到了广泛应用。判别分析假设训练样本由一个因变量和个自变量的个样本点构成依据这样的训练样本,判别分析建立起因变量与自变量之间的关系,称为判别规则,然后依据这种判别规则针对待判样本的每一个样品做出该样本点应归属与哪一类判别分析的方法很多,大致上分为两大类,一类是以距离为判别准则; 另一类是以概率为判别准则的Bayes判别。距离判别最简单、最直观的一种判别方法,但其存在不足,在实际中常用的是基于概率的Bayes判别。本研究对Bayes判别分析进行了详细的研究,给出了Bayes判别思想并且应用R软件程序对一个医学实例进行Bayes判别分析,同时将Bayes判别分析与Fisher判别分析以及基于距离的判别分析方法得到的结果进行了比较,说明了Bayes判别分析的分类结果精度高。由此判断,Bayes判别分析在病例诊断等医学领域应用中可以发挥不可估量的作用,随着数据库技术的飞速发展以及人们获取数据手段的多样化,计算机辅助诊断将会有广泛的应用前景和发展空间。
(3)合成集值信息系统的属性特征
Pawlak粗糙集理论以论域中的对象在任意属性下取值为单个值的信息系统为研究对象,以等价关系为基础研究概念近似(上下近似)和属性约简。近年来,许多学者将Pawlak粗糙集进行了推广,提出了基于不同二元关系的粗糙集理论模型。然而,一方面,现实世界中的信息系统形式复杂多样,要保证每个对象的所有属性值的完整性和唯一性往往是非常困难的。在不确定信息或缺省信息,即不完备信息的情况下,就需要研究不完备信息系统。另一方面,数据库的合成与分解是实际应用中非常重要的一个问题,它所对应的数学模型是信息系统的合成与分解,而实际处理数据时,经常要研究基于取值为集合的集值信息系统,所以研究集值信息系统的合成与分解就变得非常必要。
属性特征是研究信息系统中属性重要性的一种重要方法。由于任意一个信息系统的知识库都是确定的,故可根据不同的要求对信息系统进行分类、知识获取和规则提取。在实际应用中,经常会出现在原信息系统上添加对象、增加或删除属性,进而在新的信息系统上进行分类、获取知识等。故而研究新的信息系统与原信息系统在知识库、知识获取、分类及规则提取等方面的关系是一个值得研究的问题。鉴于现实中存在着大量的信息是不确定、不完备或者是多值的系统,而等价关系又极大的限制了粗糙集的属性约简等方法的研究与应用。故而,本研究将上述单值信息系统的合成方法推广到集值信息系统中,研究合成的集值信息系统的属性特征。具体是研究了集值信息系统上拟序关系的性质,给出了集值信息系统的合成——对象合成集值信息系统与属性合成集值信息系统,研究了这两种合成集值信息系统与原集值信息系统的协调集及属性特征之间的关系;进而讨论了集值信息系统的分解问题,给出了对象及属性子集值信息系统,讨论了集值信息系统与其子集值信息系统的属性特征——必要属性与不必要属性之间的关系。上述理论的研究提供了一种处理不精确和不完全知识的工具,一定程度上解决了刻画粗糙集理论中属性重要性的核心问题。
(4)合成集值信息系统的属性特征
Zadeh L A于1965年提出的模糊集是对“经典集合”的扩充,从而刻画了“对象”的不确定性,包含度理论是对“包含关系”的扩充,从而包容了“关系”的不确定性。模糊集理论与包含度理论相辅相成,成为研究不确定性的重要工具,在各种关系型数据库中有着直接的应用。在包含度理论基础上,Pawlak在粗糙集理论中提出的上、下近似是利用等价关系产生的等价类与被近似集之间的关系来刻画未知的知识。1989年Bryniarski提出了利用等价类刻画未知知识的带有结构特征的下、上近似,它保留了Pawlak下、上近似中等价类与被近似集之间的关系,但给出了满足上述关系的结构信息。本研究是在Pawlak下、上近似和Bryniarski下、上近似的基础上,总结了近年来我国不确定系统研究工作者的最新成果,研究了结构粗糙集近似及其性质,发展了基于包含度的粒计算的理论与方法,对于人工智能、专家系统、模式识别、管理决策都有重要意义。数据分析师培训
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16