【机器学习】最小中值平方法
最小中值平方法
最小中值平方法是通过求解下面的非线性最小问题来估计参数的
LMedS记录的是所有样本中,偏差值居中的那个样本的偏差,这种方法对错误匹配和外点有很好的鲁棒性。
不像M-estimator,LMedS问题不能直接化简为带权重的最小二乘问题,对于LMedS估计没有一个具体的公式。
LMedS是从样本中随机抽选出一个样本子集,使用LS对子集计算模型参数,然后计算所有样本与该模型的偏差。
具体方法是根据下面方法进行曲线估计:
假设给定n个点:
1.采用Monte Carlo技术进行抽取包含p个点的m个样本集。对于目前的问题,选择p=5,因为5 个点就可以确定一个二次曲线。
2.用每一个样本集求出二次曲线Pj。
3.对于每一个二次曲线Pj,可求出整个数据集残差平方的中值Mj。
对于第i个点到二次曲线 的残差
有多种选择,根据需要的精度和计算效率,可以选择algebraic
distance、Euclidean distance 、gradient weighted distance。
4.求取使得最小的
。
现在的问题是:怎样确定m的值??如果一个样本的p个点均是内点,则为一个好的样本。假设一个数据集包含 的外点,则m个样本中至少有一个是好的样本的概率是
一般包含好点的概率P接近于1,给定p和
若包含外点的百分比=40%,P=0.99,则m=57;可以通过并行算法加快算法的速度,使得对于每个子集的处理均相互独立。
如果数据集存在高斯噪音,LMedS的效率将会非常低。为了弥补这种缺陷,提出了带权重的最小二乘法,标准差的估计由下式给出
为最小的中值。常数1.4826使得在出现高斯噪音的时候,和最小二乘方法的效率一样。5/(n-p)用来补偿数量太少。基于
,我们可以给每一项分配一个权重系数
是第i个点相对于二次曲线P的残差,如果某个点所对应的权重系数为0,则为外点,应剔除掉。二次曲线P则可以由下面带权重的最小二乘问题求解
如前所述,可以通过采用Monte-Carlo技术来提高LMedS方法计算效率。然而,通过这种方法生成的样本中的5个点很有可能非常靠近,这种情况在曲线拟合过程中是应该尽量避免的,因为用这些点进行曲线拟合非常不稳定,而且通常会得到错误的结果。对每一个样本进行有效性检验,将会非常耗时,降低整个算法的计算效率。为了保证算法的鲁棒性和有效性,我们采用一种基于分组的规则的随机抽样法(regularly random selection method based on bucketing techniques),具体实现过程如下:
首先,计算第一幅图像中点坐标的极大极小值,然后将坐标点所在的区域均匀划分成组(在实验中,b=8)。每一个组将包含一系列的点,同时也包括一些匹配点。最后,剔除没有匹配点的分组。为了生成包含5个点的一个样本,首先随机选择5个相互不同的组,然后在每一个组里随机选取一个匹配点。
现在任然存在的问题是:到底需要多少个样本?如果坏点在空间中均匀分布,且每一组有相同的点数,随机选择是一种均匀分布则33式仍然可用。但是,一般情况下各组所包含的点数可能相差会非常大。由此造成的结果就是,包含点数少的组中的点比包含点数多的组中的点被选择地可能性更大。可以用如下的方法来说明:
假设共有I个组,我们将0到1分成I个区间,则第i个区间的宽度是是第i组点的个数。在选择组的过程中,由均匀随机数发生器(uniform
random generator)产生一个0到1的随机数,这个随机数落入哪个区间,则选择哪个组。
Figure 6: Interval and bucket mapping
可以用这种方法对两幅非标定的图像进行匹配。对于给定的两幅未标定图像,唯一能用的几何约束是极线约束。先采用传统的方法(correlation and relaxation methods)找到初始的匹配点,然后利用最小中值平方法(LMedS)剔除初始匹配中的错误匹配。图像间的极线几何关系可以由图像中有实际意义的准则精确估计出来。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-02最近我发现一个绝招,用DeepSeek AI处理Excel数据简直太爽了!处理速度嘎嘎快! 平常一整天的表格处理工作,现在只要三步就能搞 ...
2025-04-01你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24ABtest做的好,产品优化效果差不了!可见ABtest在评估优化策略的效果方面地位还是很高的,那么如何在业务中应用ABtest? 结合企业 ...
2025-03-21在企业数据分析中,指标体系是至关重要的工具。不仅帮助企业统一数据标准、提升数据质量,还能为业务决策提供有力支持。本文将围 ...
2025-03-20解锁数据分析师高薪密码,CDA 脱产就业班助你逆袭! 在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的 ...
2025-03-19在 MySQL 数据库中,查询一张表但是不包含某个字段可以通过以下两种方法实现:使用 SELECT 子句以明确指定想要的字段,或者使 ...
2025-03-17在当今数字化时代,数据成为企业发展的关键驱动力,而用户画像作为数据分析的重要成果,改变了企业理解用户、开展业务的方式。无 ...
2025-03-172025年是智能体(AI Agent)的元年,大模型和智能体的发展比较迅猛。感觉年初的deepseek刚火没多久,这几天Manus又成为媒体头条 ...
2025-03-14以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-13