简单易学的机器学习算法——协同过滤推荐算法(2)-CDA数据分析师官网

简单易学的机器学习算法——协同过滤推荐算法(2)

2017-03-25

简单易学的机器学习算法——协同过滤推荐算法(2)

一、基于协同过滤的推荐系统
    协同过滤(Collaborative Filtering)的推荐系统的原理是通过将用户和其他用户的数据进行比对来实现推荐的。比对的具体方法就是通过计算两个用户数据之间的相似性，通过相似性的计算来说明两个用户数据之间的相似程度。相似度函数的设计必须满足度量空间的三点要求，即非负性，对称性和三角不等性。常用的相似度的计算方法有：欧式距离法、皮尔逊相关系数法和夹角余弦相似度法。具体的可以参见上一篇文章“协同过滤推荐算法(1) ”。
二、面临的问题
    在基本的协同过滤的推荐系统中(主要指上面所提到的基本模型中)，我们是在整个空间上计算相似度，进而实现推荐的。但是现实中的数据往往并不是那么规整，普遍的现象就是在用户数据中出现很多未评分项，如下面所示的数据：

对于这样的稀疏矩阵，我们利用基本的协同过滤推荐算法的效率必将很低。对于这样的稀疏矩阵，我们可以利用SVD对其进行降维，将这样的稀疏矩阵映射到另一个具体的主题空间，SVD 降维的原理可以参见博文“SVD奇异值分解”。
三、利用SVD构造主题空间
    我们对上面所示的这样一个矩阵进行SVD分解，分解的结果为：
1、U矩阵

（U矩阵，矩阵U主要反应的是用户信息）
2、对角阵S

（S矩阵，矩阵S主要反映的是11个奇异值）
3、VT矩阵

（VT矩阵，矩阵VT主要反映的是物品信息）
4、选取奇异值并映射主题空间
   奇异值分解公式为：，现在我们要将原始数据映射到反映物品的相互关系中。选取前5个奇异值，奇异值的选取符合能量的规则，选择出来的奇异值的能量要能反映90%的原始信息。这样新的主题空间的计算方式为：数据分析师培训
即可得新的主题空间：
四、实验的仿真
    我们在这样的数据集上做推荐计算。其中user为2号用户。

（相似度的计算）

（推荐结果）
MATLAB代码
主程序
[plain] view plain copy 在CODE上查看代码片派生到我的代码片
%% 主函数

% 导入数据
%data = [4,4,0,2,2;4,0,0,3,3;4,0,0,1,1;1,1,1,2,0;2,2,2,0,0;1,1,1,0,0;5,5,5,0,0];
data = [2,0,0,4,4,0,0,0,0,0,0;0,0,0,0,0,0,0,0,0,0,5;0,0,0,0,0,0,0,1,0,4,0;3,3,4,0,3,0,0,2,2,0,0;5,5,5,0,0,0,0,0,0,0,0;
    0,0,0,0,0,0,5,0,0,5,0;4,0,4,0,0,0,0,0,0,0,5;0,0,0,0,0,4,0,0,0,0,4;0,0,0,0,0,0,5,0,0,5,0;0,0,0,3,0,0,0,0,4,5,0;
    1,1,2,1,1,2,1,0,4,5,0];

% reccomendation
%[sortScore, sortIndex] = recommend(data, 3, 'cosSim');
[sortScore, sortIndex] = recommend(data, 2, 'cosSim');

len = size(sortScore);

finalRec = [sortIndex, sortScore];
disp(finalRec);

SVD空间映射的函数
[plain] view plain copy 在CODE上查看代码片派生到我的代码片
function [ score ] = SVDEvaluate( data, user, simMeas, item )
    [m,n] = size(data);
    simTotal = 0;
    ratSimTotal = 0;

    % 奇异值分解
    [U S V] = svd(data);
    % 求使得保留90%能量的奇异值
    sizeN = 0;%记录维数
    [m_1,n_1] = size(S);
    a = 0;%求总能量
    for i = 1:m_1
        a = a + S(i,i)*S(i,i);
    end
    b = a*0.9;%能量的90%
    c = 0;
    for i = 1:n_1
        c = c + S(i,i)*S(i,i);
        if c >= b
            sizeN = i;
            break;
        end
    end

    %物品降维后的空间
    itemTransformed = data' * U(:,1:sizeN) * S(1:sizeN,1:sizeN)^(-1);

    for j = 1:n
        userRating = data(user, j);%此用户评价的商品

        if userRating == 0 || j == item%只是找到已评分的商品
            continue;
        end

        vectorA = itemTransformed(item,:);
        vectorB = itemTransformed(j,:);
        switch simMeas
           case {'cosSim'}
               similarity = cosSim(vectorA,vectorB);
           case {'ecludSim'}
               similarity = ecludSim(vectorA,vectorB);
           case {'pearsSim'}
               similarity = pearsSim(vectorA,vectorB);
        end

        disp(['the ', num2str(item), ' and ', num2str(j), ' similarity is ', num2str(similarity)]);
        simTotal = simTotal + similarity;
        ratSimTotal = ratSimTotal + similarity * userRating;
    end
    if simTotal == 0
        score = 0;
    else
        score = ratSimTotal./simTotal;
    end
end

推荐的函数
[plain] view plain copy 在CODE上查看代码片派生到我的代码片
function [ sortScore, sortIndex ] = recommend( data, user, simMeas )
    % 获取data的大小
    [m, n] = size(data);%m为用户，n为商品
    if user > m
        disp('The user is not in the dataBase');
    end

    % 寻找用户user未评分的商品
    unratedItem = zeros(1,n);
    numOfUnrated = 0;
    for j = 1:n
        if data(user, j) == 0
            unratedItem(1,j) = 1;%0表示已经评分，1表示未评分
            numOfUnrated = numOfUnrated + 1;
        end
    end

    if numOfUnrated == 0
        disp('the user has rated all items');
    end

    % 对未评分项打分，已达到推荐的作用
    itemScore = zeros(numOfUnrated,2);
    r = 0;
    for j = 1:n
        if unratedItem(1,j) == 1%找到未评分项
            r = r + 1;
            %score = evaluate(data, user, simMeas, j);
            score = SVDEvaluate(data, user, simMeas, j);
            itemScore(r,1) = j;
            itemScore(r,2) = score;
        end
    end
    %排序，按照分数的高低进行推荐
    [sortScore, sortIndex_1] = sort(itemScore(:,2),'descend');
    [numOfIndex,x] = size(sortIndex_1(:,1));
    sortIndex = zeros(numOfIndex,1);
    for m = 1:numOfIndex
        sortIndex(m,:) = itemScore(sortIndex_1(m,:),1);
    end
end

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

SVD 协同过滤降维推荐系统相关系数数据映射机器学习数据分析

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇回归系列（一）| 怎样正确地理解线性回归

下一篇2020美国总统竞选大戏开锣，川普当选的奇迹会再发生吗？

简单易学的机器学习算法——协同过滤推荐算法(2)

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...