关于数据挖掘关联规则的Oracle实现-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读关于数据挖掘关联规则的Oracle实现

关于数据挖掘关联规则的Oracle实现

2017-01-09

关于数据挖掘关联规则的Oracle实现

前几天拿到了数据挖掘基础教程一书，感觉部分算法是基于统计学的原理的，而统计学是可以通过Oracle来实现。

其次是为了观看德国vs西班牙的世界杯比赛，来了一点小小的兴致，动手写点小脚本。不过本文只是为了实现而实现的，没有做任何优化，有兴趣的话，大家可以玩一玩。

关于数据挖掘关联规则的材料，可以参见：

http://baike.baidu.com/view/1076817.htm?fr=ala0_1

关联规则是形如X→Y的蕴涵式，

其中且， X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或 right-hand-side, RHS) 。

关联规则在D中的支持度(support)是D中事务同时包含X、Y的百分比，即概率； =X^Y/D

置信度(confidence)是包含X的事务中同时又包含Y的百分比，即条件概率。 =(X^Y)/X

关联规则是有趣的，如果满足最小支持度阈值和最小置信度阈值。

若给定最小支持度α = n，最小置信度β = m，则分别通过以上的X^Y/D和(X^Y)/X，可获知是否存在关联

使用的原始数据

反范式后的数据

待统计项

--创建各个购买单元项视图

create view distinct_trans as select distinct tranobject from purchase;

--创建各个事务内部的购买单元项

create view all_trans as

--可以用wm_concat函数

SELECT tranid,MAX(tranobjects) tranobjects

FROM (select tranid,WMSYS.WM_CONCAT(tranobject) OVER(PARTITION BY tranid ORDER BY tranobject) tranobjects

from purchase

)

group by tranid;

--也可以用sys_connect_by_path函数

create view all_trans as

select tranid,substr(tranobjects,2) tranobjects from --格式化前面的逗号和空格

(

select distinct tranid,FIRST_VALUE(tranobjects) OVER(PARTITION BY tranid ORDER BY levels desc ) AS tranobjects --保留最大的那个

from

(

select tranid,sys_connect_by_path(tranobject,',') tranobjects,level levels --各购买事务的内部排列组合

from purchase

connect by tranid=prior tranid and tranobject

)

);

--对所有购买单元项进行排列组合，即数据挖掘的X^Y项

create view all_zuhe as

select substr(sys_connect_by_path(tranobject,','),2) zuhe

from (select distinct tranobject from purchase)

connect by nocycle tranobject

select * from all_zuhe

--筛选出符合要求的排列组合，即数据挖掘的X项和Y项

create view full_zuhe as

select a.zuhe X,b.zuhe Y from all_zuhe a,all_zuhe b

where instr(a.zuhe,b.zuhe)=0 and instr(b.zuhe,a.zuhe)=0

and not exists(select 1 from distinct_trans c

where instr(a.zuhe,c.tranobject)>0 and instr(b.zuhe,c.tranobject)>0)

select * from full_zuhe

create or replace view tongji as

select xy,xy_total,x,x_total,y,y_total,transtotal from

(

select y||','||x xy,

(select count(*) from all_trans a where instr(a.tranobjects,c.x||','||c.y)>0 or instr(a.tranobjects,c.y||','||c.x)>0) xy_total, --包含xy的事务数

(select count(*) from all_trans b where instr(b.tranobjects,c.y)>0) y_total, --包含y的事务数

(select count(*) from all_trans b where instr(b.tranobjects,c.x)>0) x_total, --包含x的事务数

d.transtotal --总事务数

from full_zuhe c,(select count(distinct tranid) transtotal from purchase) d

order by xy_total desc,x_total desc

)

select * from tongji where xy_total>=3 and y_total>=3

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

关联规则数据挖掘

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇图论在大数据分析中的作用！

下一篇CDA认证再升一档！与国家共同推进大数据人才培养标准教育事业！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

关于数据挖掘关联规则的Oracle实现

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】数据分析全流程常见问题：成因、危害与 ...

【CDA干货】维度表与事实表：数据仓库的核心双子星 ...

CDA数据分析师：数据读取实操指南，打通数据价值转 ...

【CDA干货】用户行为分析中泛化性指标：计算方法、 ...

【CDA干货】以数为鉴，读懂用户：三大行业用户行为 ...

CDA数据分析师：量化策略分析框架，解锁数据驱动决 ...

【CDA干货】随机森林模型训练全解析：从参数调优到 ...

【CDA干货】随机森林算法重要性分析：原理、实操与 ...

CDA数据分析师：数据思维赋能企业管理，激活决策新 ...

【CDA干货】数据分析赋能价值创造：国内外知名经典 ...

【CDA干货】Python爬取163网易财经上市公司财务报表 ...

CDA数据分析师：数字化时代，数据思维的核心步骤与 ...

【CDA干货】线性回归拟合性判断实战指南：从指标解 ...

【CDA干货】安装SQL Server后提示“服务名无效”： ...

CDA数据分析师实操指南：指标体系搭建的方法与完整 ...

【CDA干货】销售额预测实战：基于时间序列与回归分 ...

【CDA干货】金融数据分析：为什么异常值处理是必做 ...

CDA数据分析师必备：指标与指标体系管理基础指南 ...

【CDA干货】数据呈现与数据分析：核心区别+实操边界 ...

【CDA干货】Pandas读取dat文件：提取第一行数据并转 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载