2018-11-04
阅读量:
626
R里的dplyr包能做啥
只涉及一张数据表的数据分析是非常罕见的。通常来说,你会有很多个数据表,而且必须
综合使用它们才能回答你所感兴趣的问题。存在于多个表中的这种数据统称为关系数据,
因为重要的是数据间的关系,而不是单个数据集。
关系总是定义于两张表之间。其他所有关系都是建立在这种简单思想之上:三张或更多表
之间的关系总是可以用每两个表之间关系表示出来。有时关系涉及的两个表甚至就是同一
张!例如,如果你有一张人员表,那么其中某个人与其父母的关系就是这种情况。
要想处理关系数据,你需要能够在两张表之间进行的操作。我们设计了三类操作来处理关
系数据。
• 合并连接:向数据框中加入新变量,新变量的值是另一个数据框中的匹配观测。
• 筛选连接:根据是否匹配另一个数据框中的观测,筛选数据框中的观测。
• 集合操作:将观测作为集合元素来处理。
关系数据最常见于关系数据库管理系统(relational database management system, RDBMS),
该系统几乎囊括了所有的现代数据库。如果之前使用过数据库,那你肯定使用过 SQL。如
果是这样的话,你会发现本章中的很多概念都似曾相识,尽管其在 dplyr 中的表达形式略
微不同。一般来说, dplyr 要比 SQL 更容易使用,因为前者是专门用于进行数据分析的。
在进行常用的数据分析操作时, dplyr 非常得心应手,反之,它并不擅长数据分析中不常用
的那些操作。
0.0000
0
4
关注作者
收藏
评论(0)
发表评论
暂无数据
推荐帖子
0条评论
0条评论
1条评论