SAS的KDE过程实现核密度估计,功能及其说明如下:
可以对单变量和双变量进行核密度估计,所谓的核(kernel)估计是一种非参数方法,是指从原始数据中观测到的概率密度函数(PDF)——平均的通过数据点,从而创建平滑曲线。
KDE过程使用高斯密度做为核,并假设其方差决定平滑的结果。
其工作原理:选择带宽(bandwith),进而核密度估计,但完成这些工作前提是完成数据的分箱(binning)、卷积(convolutions)和傅里叶(fourier)变换。
SAS程序常用选项
ods graphics on;
proc kde data=data_anl.performance;
*univar gcharacteristic(bwm=2) jaim(bwm=0.25)/plots=all ngrid=401;
*bivar gcharacteristic jaim/bivstats levels percentiles ngrid=60;
*bivar gcharacteristic jaim/method=snr bwm=2 plots=all;
*bivar (gcharacteristic jaim) (gcharacteristic(bwm=2) jaim(bwm=0.5));
run;
ods graphics off;
*ngrid表示图形格子的数量;
*bwm表示带宽乘数的指定,method表示带宽的计算;
一般而言,单变量分析用于比较不同变量的分布情况,如检测变量分布特征(尤其是自变量与因变量的分布)、数据离散化等应用;双变量分析用于检测数据对应分布情况,如聚类分析、异常检测、回归分析等应用。