Hello大家好,上回讲到数据清洗工作已经完成,在建立模型之前,我想看看这些数据的大致情况,专业一点的说法叫做数据探索,就是对已有数据集的一个了解。最简单的探索,看看最大值、最小值、方差、均值、中位数这些,当然,这主要是针对年龄这种数值型的数据,由于之前清洗数据的时候,已经对年龄的上下限做出来限制,所以最大值最小值都在预期之内,至于均值和中位数,可能很多人搞不太清这两者的区别。 大多数人对均值比较熟悉,上学的时候用的也比较多,下边我们可以举个例子来区分探索一下,比如说有5个姑娘,年龄分别是24岁,24岁,28岁,29岁,30岁,那么她们的平均年龄是27岁,而年龄的中位数很明显是28岁,两者并不相同,画一个分布图的话,能明显看出是一个右偏分布,如果扩展到数据量更大的数据集里,画出分布是右偏分布,就能得出这样一个结论,这样一批妹子中间,年纪稍大一点的妹子占多数。如果我比较喜欢御姐型的妹子,我可能已经在偷着乐了,年纪稍大的妹子多一点,御姐就可能会多一点啊,哈哈哈……当然,这只是假设还有概率,还不能这么开心的笑! (你的好友灵魂画手已上线)
好啦,清洗和简单的探索做完了,下面该建立一个模型来做进一步的分析,挑选出哪些妹子才是和我比较搭的。这里稍稍有点纠结,是做个分类呢还是做个聚类呢?虽然这两类模型从名字上看差不多,但是实际上差别可大着呢,分类模型是有监督的模型,提前已经知道了有几类,每个类有哪些特征。而聚类一般是无监督模型,提前并不知道有几类,需要根据每条数据的特征来寻找数据间的相似性,然后把相近的数据聚到一起,至于最后会形成几类,那就要看最开始把类的个数设定成几了,而且也不保证聚类的个数或者说最后的结果一定是对的。 比如说给妹子分类这件事,如果我事先设定要聚成两类,那妹子们就会被分成两类;如果我设定聚成四类,妹子们就会被分成四类;如果我再疯狂一点,把妹子们聚成了十八类,那妹子们就会被分成十八类;至于这么分合理不合理,实践之后才能知道了。
我自己思考了一下,觉得做分类模型有点麻烦,要先提前确定妹子们的类型,我jio着,妹子肯定不能只是简单粗暴的给分成御姐型和萝莉型两个类型,至于妹子究竟有多少个类型,恐怕还没有人能给个准确答案;然后呢,还要提前找好特征,找特征也很麻烦,我真的不知道有哪些特征的妹子是属于哪个类型的,最后再按照符合的特征给妹子分类,所以我选了一个懒一点的办法,那就做个聚类好了,先简单把妹子聚成四类。当然这样也会有问题的,聚成四类后发现类别给聚少了咋办?那就把需要再聚类的那部分数据集再做一次聚类,很轻松嘛!
开始建模型
K-Means这个算法是聚类算法中最简单的算法没有之一,就用它了!这个算法的原理那是相当的简单,例如我要把妹子分成四类,那就先选四个中心,专业术语叫质心,然后计算数据集中每个数据点到每个质心的距离,这个计算量是很大的,但是不用担心,不用自己算,有计算机给算,它特别擅长这种计算,而且我这点数据量对计算机来说,都不够给他它预热的,瞬间就能出来结果。结果出来后,每个数据点都有了四个质心的距离数据,然后这些数据点会选择距离自己最近的那个质心作为自己的质心,这样就有了最原始的四个组,专业术语里也叫做簇!到这一步模型还没有结束,因为我们找的这些中心不一定在刚刚聚成的簇的真正中心位置,这时候就需要再计算一下每个簇真正的质心在哪里了,算出来之后,四个初始的质心就转移到了刚刚计算出来的质心位置,看到这里有没有一点熟悉的感觉,是的,下一步又要计算每个数据点到新质心的距离了,然后再重新聚类,再计算更新的质心,这样迭代下去,直到找到最优质心,聚类出最优的簇!
这样解释这个原理,有点抽象,举例子解释一下,比如说我的数据里包含了100个妹子,既然我要聚成四类,就随机在100个妹子中挑选了四个人作为质心,然后开始计算剩下的96个妹子中每个妹子与那四个质心妹子的相似性,就是前边原理里提到的距离,96个妹子每个妹子都被计算了和四个质心妹子的距离,然后每个妹子和哪个质心妹子更相似,就把这个非质心妹子归到和她最相似的质心妹子那一簇里,最初始的四个簇就分出来了,这时候新的问题出现了,发现最初确定的质心妹子并不是这一簇里最有代表性的妹子,其他妹子的特征更能代表这一整个簇,通过计算,更能代表这一簇的妹子成了新一轮的质心,质心变动了,每个非质心妹子与新质心妹子的相似度就需要重新计算,计算出四个新质心后,开始计算这一轮剩下的96个妹子与新质心妹子的相似度,然后重新聚类,进入新一轮迭代!这样一个只有100条记录的数据集,一直迭代到质心不再发生变化不需要很长的时间,如果数据集很大的话,要迭代到质心不再发生变化,可能需要特别长的时间,这时候就需要算法的参数出场来进行控制。
不管怎么说,我成功的把妹子们分成了四类,有一类妹子是我理想的类型,然而网站给出的匹配度有高有低,那么应该是我的信息不符合一些妹子的要求。现在是到哪一步了?开始给妹子发消息嘛?当然不是!人靠衣装马靠鞍,没见面之前得在依据事实的前提下包装一下自己,让自己的个人信息和妹子的要求相近那么一点点,要注意的是造假是不行的,那是欺骗,我这样的社会主义好青年是不会做这样的事情的。尽量满足妹子的要求,实在满足不了的也不能硬说自己满足啊。
第四步 进入沟通
Ok,个人信息美化好之后,就可以给妹子们发信息啦,我是很希望有很多妹子能给我回复,然而,理想是丰满的,现实是骨感的,虽然提前做了工作,回复我的妹子也没有那么多,中间偶尔还有托的消息,可见我前边数据清洗的时候并没有能成功的清理出去所有的虚假信息。这种信息只能是由我人肉筛选了,还好这类信息不多。
终于,我发出的消息有了回音,新的问题又出现了,作为一个只有工作没有生活的技术宅,我不知道能跟妹子聊点啥,尴尬!幸好不是面对面的聊,所以妹子那边抛出一个话题,比如说什么微博热搜知乎热搜头条抖音之类的,我都要一边去找这些热搜一边和妹子聊天,感觉有点心累!然而,能难倒数据分析师的问题还真的不多,我直接写了几个爬虫,每天爬一遍各大热搜,和妹子聊天之前做好功课,至少不被动,有话题可以和妹子聊,感觉好了很多。
当然并不是所有妹子都聊热搜,还有一些妹子聊人生聊工作聊价值观,总之,这段时间是我本职工作之外各种知识急速扩展的阶段,感觉自己又到了高考前的人生知识巅峰阶段,上知天文下知地理中间还知各种政治新闻娱乐八卦,如果不做数据分析师,去做专业陪聊都毫无压力,不管对方想聊啥,瞬间调出资料接住对方抛过来的梗。即使如此,也不是所有给我回复的妹子都能一直聊下去,有些价值观是非观之类的问题,还是要坚持自我的,聊不来也没办法,强行迎合别人最后也很难有尽如人意的结果。
折腾了这么久,终于到了离开计算机去见面约会的阶段了,已经记不起来自己有多久没有约会过的人,心情既兴奋又紧张,还有一点点的缺乏信心(好吧,我承认,其实心里老没底了,方的不行)。不过,还是那句话,没有什么是我不能分析的,这不过是从对群体的分析转到了对个体分析的阶段,没什么特殊嘛!给自己打气完毕,开始约会前的准备工作:根据线上聊天时妹子表现出的喜好,选一个她一直想去又因为各种原因而没有去成的餐厅,带上一个她可能会喜欢但是又不是很贵重的小礼物;准备一些她可能会感兴趣的话题,避免到时候因为紧张不知道说点什么,尬聊太消耗感情了!然后还有就是我自己要好好收拾一下,去找村头的Tony老师理一个精神的发型,准备一套清爽整洁不做作的衣服。提前几分钟到约定好的餐厅坐等!
我准备了这么多,整个过程也还算顺利没有什么尴尬的事情发生,不过可能我的真人版和妹子的真人版都有点不太符合双方的预期,约会后联系也就终止了!但是一次的失败对我来说不算什么,想想我工作中算法模型跑不成功,调参调到怀疑人生的时候都没有轻言放弃,这么一点点挫折算什么,继续开始下一个,继续迭代!
每次迭代都能学习到经验教训,经过一遍一遍的约会然后回去复盘,终于我找到了一个可以确定关系的妹子,和家里打电话的时候得到了母上大人的肯定,我心甚慰啊!而且,妹子和我是同行,都是数据分析师,只不过行业不一样。后来关系稳定后的一次闲聊,我才知道,女朋友也是因为和我类似的原因,用数据分析的方法去分析各种交友类网站的数据,跑个算法来找目标,好吧,原来我也是别人数据集中的一个样本来着!幸运的是,我们正好在彼此的数据集中,经过层层筛选,成为了对方那个对的人!从此以后,家不再只是租来的一间空屋子,有灯光,有温暖,有个我喜欢的人和我一起讨论数据分析讨论各种算法模型!
(完结 本故事纯属虚构,如有雷同,纯属巧合)
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
Excel是数据分析的重要工具,强大的内置功能使其成为许多分析师的首选。在日常工作中,启用Excel的数据分析工具库能够显著提升数 ...
2024-12-23在当今信息爆炸的时代,数据分析师如同一位现代社会的侦探,肩负着从海量数据中提炼出有价值信息的重任。在这个过程中,掌握一系 ...
2024-12-23在现代的职场中,制作吸引人的PPT已经成为展示信息的重要手段,而其中数据对比的有效呈现尤为关键。为了让数据在幻灯片上不仅准 ...
2024-12-23在信息泛滥的现代社会,数据分析师已成为企业决策过程中不可或缺的角色。他们的任务是从海量数据中提取有价值的洞察,帮助组织制 ...
2024-12-23在数据驱动时代,数据分析已成为各行各业的必需技能。无论是提升个人能力还是推动职业发展,选择一条适合自己的学习路线至关重要 ...
2024-12-23在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17