京公网安备 11010802034615号
经营许可证编号:京B2-20210330
这次通过一个实例来讲解一下协同推荐的问题。在实际生活中,我们会经常收到当当,卓马逊等购物网站发来的商品推荐邮件。很奇怪卓马逊是依据什么(数据分析师)来给我发一些相关商品的推荐,但是今天我们就假定他是根据协同推荐的机制来实现这一功能的吧。
很多时候购物网站都是根据其他用户的评价给一个用户推荐商品或者图书等。很多购物网站都会有这种长尾效益,用户购买或者评价的商品都是少数,而大多数商品只是得到很少几个用户的评价。所以存在数据稀疏的问题。这里就叫“cold start”问题。SlopeOne算法可以用来解决这个问题,这个算法很简单,易于实现且效率较高。
SlopeOne的基本概念很简单,例如用户X,Y和A都对项目1打了分。同时用户X,Y还对项目2打了分,用户A对项目2可能会打多少分呢?如下表1-1
用户对项目1的评分对项目2的评分
X53
Y43
A4?
根据SlopeOne算法,应该是:4-((5-3)+(4-3))/2=2.5.我想这个应该是很好理解的,实际上就是找到对项目1和项目2都打过分的用户,算出评分差的平均值,我们就可以推测出对项目1打过分的用户A对项目2的可能评分,并向用户A推荐新项目。这里可以看出SolpeOne有一个很大的优点,在有很少数据的时候也能得到一个相对准确的推荐,这一点可以解决“cold start”问题。当然,我们这里的情况是最简单的,根据项目1的评价估计项目2的评价,如果要根据好几个项目的评价来估计某一个项目的评价就要用到加权算法(weighted SolpeOne)。如果有100个用户对项目1和项目2做了评价,1000个用户对项目3和项目2也打了分。显然这两个的权重是不同的。我们的计算方法:(100*(rating 1 to 2)+1000*(rating 3 to 2))/(100+1000)
使用基于SolpeOne算法的推荐需要以下数据:
1)有一组用户
2)有一组项目(items),例如图书,商品等
3)用户对其中某些项目打分(rating)表达他们的喜好
SolpeOne算法要解决的问题是:对某个用户,已经知道他对其中一些项目的评价,向他推荐一些他还没有评分的项目,以增加销售机会。数据分析师认证
一个推荐系统的实现包括以下三步:
1)计算出任意两个项目之间评分的差值
2)输入某个用户的评分记录,推算出对其他项目的可能评分值
3)根据评分的值排序,给出评分最高的项目列表
第一步:例如我们有三个用户和四个项目,用户打分的情况如表1-2
项目用户1用户2用户3
Item1544
Item2454
Item343N/A
Item4N/A55
在第一步中我们的工作就是计算出项目之间两两打分之差,计算出如下矩阵1-3
Item1Item2Item3Item4
Item1N/A0/32/2-2/2
Item20/3N/A2/2-1/2
Item3-2/2-2/2N/A-2/1
Item42/21/22/1N/A
首先要定义一个数据结构来存储该矩阵中的每个打分情况:
public class Rating
{
public float Vlaue {get; set;}
public int Freq {get; set;}
public float AverageValue {
get {return Value/Freq;}
}
}
用一个Dictionary来保存这个结果矩阵,Dictionary的key是Item1Id加上Item2Id,值是Rating:
/************************************************************************/
/* 评分差均值矩阵 */
/************************************************************************/
class RatingDifferenceCollection : Dictionary
{
//获得评分差值矩阵中的key值
private string GetKey(int Item1Id,int Item2Id)
{
//return Item1Id + "/" + Item2Id;
//根据差异矩阵的对称性来简化存储
return (Item1Id < Item2Id) ? Item1Id + "/" + Item2Id : Item2Id + "/" + Item1Id;
}
//判断矩阵中是否存在一对项目的评分差记录
public bool Contains(int Item1Id,int Item2Id)
{
return this.Keys.Contains(GetKey(Item1Id, Item2Id));
}
//获得评分差值矩阵中的Value值
public Rating this[int Item1Id,int Item2Id]{
get {
return this[this.GetKey(Item1Id,Item2Id)];
}
set {
this[this.GetKey(Item1Id, Item2Id)] = value;
}
}
}
接下来实现slopeOne类。首先创建一个RatingDifferenceCollection来保存矩阵,还要创建HashSet来保持系统中总共有那些项目:
//保存评分差异矩阵的字典
public RatingDifferenceCollection _DiffMarix = new RatingDifferenceCollection();
//系统中总共有多少项目
public HashSet _Items = new HashSet();
public void AddUserRatings(IDictionary userRatings)来实现差异矩阵的构建。
第二步:输入某个用户的评分记录,推算出其对其他项目的可能评分值,实现如下
//输入某个用户的评分记录,推算出对其他项目的可能评分值
public IDictionary Predict (IDictionary userRatings)
{
Dictionary Predictions = new Dictionary();
//遍历所有的项目
foreach (var itemId in this._Items)
{
//如果是该用户已经评论过的项目,忽略它
if (userRatings.Keys.Contains(itemId)) continue;
Rating itemRating = new Rating();
foreach (var userRating in userRatings)
{
if (userRating.Key == itemId) continue;
int inputItemId = userRating.Key;
if(_DiffMarix.Contains(itemId,inputItemId))
{
//在差异矩阵中找到相应的项
Rating diff=_DiffMarix[itemId,inputItemId];
itemRating.Value += diff.Freq * (userRating.Value+diff.AverageValue*((itemId
itemRating.Freq += diff.Freq;
}
}
Predictions.Add(itemId,itemRating.AverageValue);
}
return Predictions;
}
第三步就是测试了,根据对用户的评分推测来进行相应商品的推荐
userRating = new Dictionary();
userRating.Add(1,5);
userRating.Add(3,4);
IDictionary Predictions = test.Predict(userRating);
foreach(var rating in Predictions)
{
Console.WriteLine("Item"+rating.Key+"Rating:"+rating.Value);
}
输出:
Item2 Rating:5
Item4 Rating:6
因为矩阵的对称性,在代码中对差异矩阵的存储和相应评分项的存储都有所调整,这里不详细介绍了,完整的实现了一下这个算法,给出了一个Demo在附件中。数据分析师培训
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析、市场研究、用户画像构建、学术研究等场景中,我们常常会遇到多维度、多指标的数据难题:比如调研用户消费行为时,收 ...
2026-03-25在流量红利见顶、获客成本持续攀升的当下,营销正从“广撒网”的经验主义,转向“精耕细作”的数据驱动主义。数据不再是营销的辅 ...
2026-03-25在CDA(Certified Data Analyst)数据分析师的全流程工作中,无论是前期的数据探索、影响因素排查,还是中期的特征筛选、模型搭 ...
2026-03-25在当下数据驱动决策的职场环境中,A/B测试早已成为互联网产品、运营、营销乃至产品迭代优化的核心手段,小到一个按钮的颜色、文 ...
2026-03-24在统计学数据分析中,尤其是分类数据的分析场景里,卡方检验和显著性检验是两个高频出现的概念,很多初学者甚至有一定统计基础的 ...
2026-03-24在CDA(Certified Data Analyst)数据分析师的日常业务分析与统计建模工作中,多组数据差异对比是高频且核心的分析场景。比如验 ...
2026-03-24日常用Excel做数据管理、台账维护、报表整理时,添加备注列是高频操作——用来标注异常、说明业务背景、记录处理进度、补充关键 ...
2026-03-23作为业内主流的自助式数据可视化工具,Tableau凭借拖拽式操作、强大的数据联动能力、灵活的仪表板搭建,成为数据分析师、业务人 ...
2026-03-23在CDA(Certified Data Analyst)数据分析师的日常工作与认证考核中,分类变量的关联分析是高频核心场景。用户性别是否影响商品 ...
2026-03-23在数据工作的全流程中,数据清洗是最基础、最耗时,同时也是最关键的核心环节,无论后续是做常规数据分析、可视化报表,还是开展 ...
2026-03-20在大数据与数据驱动决策的当下,“数据分析”与“数据挖掘”是高频出现的两个核心概念,也是很多职场人、入门学习者容易混淆的术 ...
2026-03-20在CDA(Certified Data Analyst)数据分析师的全流程工作闭环中,统计制图是连接严谨统计分析与高效业务沟通的关键纽带,更是CDA ...
2026-03-20在MySQL数据库优化中,分区表是处理海量数据的核心手段——通过将大表按分区键(如时间、地域、ID范围)分割为多个独立的小分区 ...
2026-03-19在商业智能与数据可视化领域,同比、环比增长率是分析数据变化趋势的核心指标——同比(YoY)聚焦“长期趋势”,通过当前周期与 ...
2026-03-19在数据分析与建模领域,流传着一句行业共识:“数据决定上限,特征决定下限”。对CDA(Certified Data Analyst)数据分析师而言 ...
2026-03-19机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18“垃圾数据进,垃圾结果出”,这是数据分析领域的黄金法则,更是CDA(Certified Data Analyst)数据分析师日常工作中时刻恪守的 ...
2026-03-18在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17