数据框的下标与子集的提取数据框的下标与子集的提取与矩阵基本相同. 不同的是: 对于列我们可以使用变量的名称, 仍以数据集Puromycin进行举例说明. 1、提取单个元素> Puromycin[1, 1][1] 0.022、提取一个子集,例如第1, 3, 5行,第1, 3列 > Puromycin[c(1, 3, 5), c(1, 3)] conc state1 0.02 treated3
卫明真
2020-08-30
统计分析中一个完整的数据集通常是由若干个变量的若干个观测值组成的, 在R中称为数据框. 数据框是一个对像, 它与前面讲的矩阵与二维数组形式上是类似的, 也是二维的,也有维数这个属性, 且各个变量的观测值有相同的长度. 但不同的是: 在数据框中, 行与列的意义是不同的, 其中的列表示变量,而行表示观测. 显示数据框时左侧会显示观测值的序号.数据框的建立分为直接的与简接的两种方法: 数据框的直接建立若
卫明真
2020-08-30
数组与矩阵的建立 前面已经指出数组是一个kp¥ 1q维的数据表; 矩阵是数组的一个特例,其 维数k 2,而上面所述的向量自然也可看成维数为k 1的数组5. 而且向量、 数组或者矩阵中的所有元素都必须是同一种类型的. 对于一个向量,其属性由 其类型和长度构成;而对于数组与矩阵, 除了类型和长度两个属性外, 还需要 维数dim这个属性来描述. 因此如果一个向量需要在R中以数组的方式被处理, 则必须
卫明真
2020-08-23
开窗函数是在满足某种条件的记录集合上执行的特殊函数。对于每条记录都要在此窗口内执行函数,有 的函数随着记录不同,窗口大小都是固定的,这种属于静态窗口;有的函数则相反,不同的记录对应着 不同的窗口,这种动态变化的窗口叫滑动窗口。开窗函数的本质还是聚合运算,只不过它更具灵活性, 它对数据的每一行,都使用与该行相关的行进行计算并返回计算结果。语法:开窗函数名([<字段名>]) over([partiti
卫明真
2020-08-23
数值型向量的运算 向量可以用于算术表达式中,操作是按照向量中的元素一个一个进行的.同一个表达式中的向量并不需要具有相同的长度, 如果它们的长度不同,表达式的结果是一个与表达式中最长向量有相同长度的向量, 表达式中较短的向量会根据它的长度被重复使用若干次(不一定是整数次),直到与长度最长的向量相匹配, 而常数将被不断重复 — 这一规则称为循环法则(recycling rule). 例如, 命令> x
卫明真
2020-08-22
主流的关系型数据库• Oracle:运行稳定、可移植性高、功能齐全、性能超群,适用于大型企业 • DB2:速度快、可靠性好、适用于海量数据、恢复性极强,适用于大中型企业 • MySQL:开源、体积小、速度快,适用于中小型企业 • SQL server:全面高效、界面友好易操作,但是不跨平台,适用于中小型企业MySQL简介最早是由瑞典MySQL AB公司开发,仅供内部使用。2000年基于GPL协议开
卫明真
2020-08-22
逻辑型向量的建立 与数值型向量相同,R允许对逻辑向量进行操作. 一个逻辑向量的值可以 是TRUE, FALSE和NA. 前两个通常简写为T和F2 . 逻辑向量是由条件给出的. 譬如> x <- c(10.4, 5.6, 3.1, 6.4, 21.7)> temp <- x > 13> temp[1] FALSE FALSE FALSE FALSE TRUE temp为一个与x长度相同,元素根据是否
卫明真
2020-08-22
向量的建立 数值型向量的建立统计分析中最为常用的是数值型的向量, 它们可用下面的四种函数建立:1) seq( )或“:” # 若向量(序列)具有较为简单的规律2) rep( )# 若向量(序列)具有较为复杂的规律3) c( ) # 若向量(序列)没有什么规律4) scan( ) # 通过键盘逐个输入例子> 1:10[1] 1 2 3 4 5 6 7 8 910 > 1:10-1[1] 0 1 2
卫明真
2020-08-21
数据仓库(Data Warehouse) 是一个面向主题的(Subject Oriented)、集成的(Integrate)、稳定 的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策。面向主题:数据仓库侧重于数据分析工作,所以数据仓库中的数据是按照一定的主题进行组织和存 储。集成:对原有分散的数据库数据经过系统加工、整理,消除源数据中的不一致
卫明真
2020-08-21
1、R的对象与属性 我们已经知道R通过一些对象来运行,这些对象是用它们的名称和内容来 刻画的,其次也通过对象的数据类型即属性来刻画. 所有的对象都有两个内在 属性:类型和长度. 类型是对象元素的基本种类,共有四种:数值型, 包括– 整型– 单精度实型 – 双精度实型字符型复数型1逻辑型(FALSE、TRUE或NA) 虽然还存在其它的类型,例如函数或表达式, 但是它们并不能用来表示数 据;长度是
卫明真
2020-08-20
变量宽度(Width)、列显示宽度(Columns)每种类型的变量都有自己的变量宽度、显示宽度,其中变量宽度是变量允许的最大字符位数,SPSS默认的是8位,显示宽度是数据编辑窗口中显示每列的字符位数, SPSS默认的是显示宽度也是8位。小数位数(Decimals)对于数值型变量,SPSS默认的小数位数是2位。变量名标签(Variable label)变量名标签是对变量名含义的进一步解释说明,它可以
卫明真
2020-08-18
如果R已经安装在你的计算机中,它就能立即运行一些可执行的命令了。R默认的命令提示符是‘>’,它表示正在等待输入命令. 如果一个语句在一行中输不完, 按回车键, 系统会自动产生一个续行符“+”, 语句或命令输完后系统又会回到命令提示符. 在同一行中输入多个命令语句, 则需要使用分号来隔开. 在Windows系统中, 能直接运行下拉菜单中的一些操作命 令. 在学习一些R的命令之前,让我们先了解R的
卫明真
2020-08-18
一、SPSS数据文件的特点(1)SPSS数据文件是一种有结构的数据文件,它由数据结构和内容两部分组成,(2)数据结构是对SPSS中各列变量及其属性的描述,主要记录数据变量的名称、类型、变量宽度、小数位数、变量名标签、变量值标签、缺失值、显示宽度、对齐方式和计量尺度等必要信息,(3)数据的内容才是那些待分析的具体数据。(4)相关概念:个案(或记录)、变量、变量值。个案:数据编辑窗口中的一行称为一个个
卫明真
2020-08-17
一、现在越来越多的人开始接触、学习和使用R, 因为它有其显著的优点, 主要包括:1) 免费: 尽管S-PLUS是非常优秀的统计分析软件,但你需要支付一笔费用, 而R是一个免费的统计分析软件(环境);2) 浮点运算功能强大: R可以作为一台高级科学计算器, 因为R同Matlab一 样不需要编译就可执行代码;3) 不依赖于操作系统: R可以在运行于UNIX, Linux, Windows 和Macin
卫明真
2020-08-17
统计基础中的参数估计一、参数估计的基本原理1、参数估计就是用样本统计量去估计总体的参数在参数估计中,用来估计总体参数的统计量称为估计量,而根据一个具体的样本算出来的估计量的数值称为估计值2、点估计和区间估计a、点估计:就是用样本统计量的某个取值直接作为总体参数的估计值b、区间估计:实在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本统计量加减误差得到的,与点估计不同,进行区间估计时
卫明真
2020-08-17