热线电话:13121318867

登录
2018-11-04 阅读量: 626
R里的dplyr包能做啥

只涉及一张数据表的数据分析是非常罕见的。通常来说,你会有很多个数据表,而且必须

综合使用它们才能回答你所感兴趣的问题。存在于多个表中的这种数据统称为关系数据,

因为重要的是数据间的关系,而不是单个数据集。

关系总是定义于两张表之间。其他所有关系都是建立在这种简单思想之上:三张或更多表

之间的关系总是可以用每两个表之间关系表示出来。有时关系涉及的两个表甚至就是同一

张!例如,如果你有一张人员表,那么其中某个人与其父母的关系就是这种情况。

要想处理关系数据,你需要能够在两张表之间进行的操作。我们设计了三类操作来处理关

系数据。

• 合并连接:向数据框中加入新变量,新变量的值是另一个数据框中的匹配观测。

• 筛选连接:根据是否匹配另一个数据框中的观测,筛选数据框中的观测。

• 集合操作:将观测作为集合元素来处理。

关系数据最常见于关系数据库管理系统(relational database management system, RDBMS),

该系统几乎囊括了所有的现代数据库。如果之前使用过数据库,那你肯定使用过 SQL。如

果是这样的话,你会发现本章中的很多概念都似曾相识,尽管其在 dplyr 中的表达形式略

微不同。一般来说, dplyr 要比 SQL 更容易使用,因为前者是专门用于进行数据分析的。

在进行常用的数据分析操作时, dplyr 非常得心应手,反之,它并不擅长数据分析中不常用

的那些操作。

0.0000
4
关注作者
收藏
评论(0)

发表评论

暂无数据
推荐帖子