什么是关系型数据库及数据库管理系统
数据库(Database)是一种数据的组织和存储方式,通常用于处理结构化的数据。
而关系型数据库(Relational Database)指的是创建在关系模型的基础上的数据库。它借助于集合代数等数学概念和方法来处理数据库中的数据。
数据库管理系统(DBMS,Database Management System),是一种专门用于存储、修改并从数据库提取信息的系统软件。
主流的关系型数据库管理系统主要有:MySQL,ORACLE, MS ACCESS,DB2等。
其中,MySQL属于开源软件,而其他的主流数据库管理系统基本都是商业软件。由于很多互联网公司数据库都是采用MySQL进行数据库的管理,所以今天我们主要介绍MySQL的安装、配置及其与R的交互。
SQL(Structured Query Language)是一种专门用来与数据库进行沟通的语言。
使用SQL可以对数据库中的数据进行增、删、查、改、权限管理等操作。
常用关键词:SELECT,UPDATE,DELETE,INSERT.
管理关键词:CREATE,ALTER,DROP
常用子句、关键词:FROM,WHERE,GROUP BY,ORDER BY
为什么要学习SQL
很多同学可能会很疑惑:对于数据的增删查改等需求,我们的R不是已经有非常方便的操作了吗?为什么还要多学一门语言呢?
R擅长的领域是数据分析,然而,对于数据存储,却存在很大的问题。一个非常明显的缺陷是:所有数据均要读入内存。这就造成了R能处理的数据量存在一个瓶颈。当我们要处理的数据观测数达到上亿级别的时候,R就显得力所不逮了。
数据库能解决的当然不止这一个问题。
当我们遇到如下情景时,数据库就显得非常重要了:
当你的数据需要通过网站在线展示;
当你在一个团队中工作,你和你的协作成员要同时操作同一个数据集;
当你需要为不同的数据用户赋予不同的使用权限;
当你要处理的数据量超过了你的电脑内存;
当你面对的数据集非常复杂,不能统一组织到一个数据集中时;
当你的数据量非常庞大,但你又经常要频繁地获取它的一些子集时;
当你的几个数据集关联性很大,更新一个数据集需要同时更新另外一些数据集时;
当你对数据的格式要求很严格时。
而如果我们经常与数据打交道,以上的问题是必不可免的。
可见,要想成为一名优秀的数据科学家,学习SQL还是非常有必要的。
当然,SQL虽然是一门语言,但是它有一些非常吸引人的优点:
几乎所有重要的DBMS都支持SQL;
SQL语法简明,简单易学;
SQL非常灵活,功能强大。
所以,虽然又得多学一门语言,但是也不必苦恼。想想能够几天掌握一门新的语言,也是挺让人激动的呢:)
MySQL的安装及环境配置
MySQL是一款开软的数据库管理系统,因此我们可以通过在官网进行软件的自由下载安装。
对于入门的同学来说,MySQL Community Server和MySQL Workbench CE结合起来使用是一个不错的开始。MySQL Workbench CE是MySQL的一个开发环境,具有非常友好的交互界面。它跟MySQL的关系如同Rstudio和R的关系。
SQL基本操作——案例学习
安装完毕,我们就可以启动MySQL Workbench进行数据库的创建等操作了。先使用root用户身份(在安装的过程中创建)进入管理界面。
建立一个数据库
新建一个SQL脚本,即可以开始MySQL的编程了。选中某一个代码块,使用CTRL+ENTER快捷键即可运行代码。
create database db1;
show databases;
-- 创建一个普通用户
CREATE USER yy@localhost IDENTIFIED BY '123';
建立一个表格
use db1;
create table birthdays(
nameid INTEGER NOT NULL AUTO_INCREMENT,
firstname varchar(100) not null,
lastname varchar(100) not null,
birthday date,
primary key (nameid)
);
添加观测数据
insert into birthdays(firstname,lastname,birthday)
values ('peter','Pascal','1991-02-01'),
('paul','panini','1992-03-02');
使用查询语句
select * from birthdays;
select birthday from birthdays;
追加数据
insert into birthdays(nameid,firstname,lastname,birthday)
values (10,"Donald","Docker","1934-06-09");
SQL与R的交互
R与SQL交互的拓展包非常丰富,不过大致可以分为三大类:
依赖于DBIpackage,如RMySQL,ROracle,RPosttgreSQL,RSQLite。这种方式通过与DBMS建立原始的连接实现数据库操作。
依赖于RODBCpackage。这个包通过打开数据库连接驱动的方式建立非直接的连接。如通过依赖于jre读入XLS/XLSX表格的数据。
通过dplyr package.
今天主要介绍第1种及第三种方式。
R连接MySQL
操作数据库中的数据
下面,我们通过R来操作前面在MySQL中建立的数据库db1。
library(RMySQL)
# 建立一个连接
mydb <- dbConnect(MySQL(),user="root",
password = "mycode",
dbname = "db1")
#查看表格
dbListTables(mydb)
## [1] "birthdays" "mtcars" "test"
#查看某一列
dbListFields(mydb,"birthdays")
## [1] "nameid" "firstname" "lastname" "birthday"
#
#dbClearResult(dbListResults(mydb)[[1]])
# 建立一个查询
rs <- dbSendQuery(mydb,"select * from birthdays")
data<-fetch(rs,n = -1)
head(data)
## nameid firstname lastname birthday
## 1 1 peter Pascal 1991-02-01
## 2 2 paul panini 1992-03-02
## 3 10 Donald Docker 1934-06-09
# 另一种方法:建立一个查询
dbGetQuery(mydb,"select * from birthdays")
## nameid firstname lastname birthday
## 1 1 peter Pascal 1991-02-01
## 2 2 paul panini 1992-03-02
## 3 10 Donald Docker 1934-06-09
将R中的data.frame存储到数据库
#将一个data frame对象存储为一个表格
dbWriteTable(mydb,name = "mtcars",value = mtcars,overwrite=TRUE)
## [1] TRUE
#查看结果
dbListTables(mydb)
## [1] "birthdays" "mtcars" "test"
使用dplyr进行数据库操作
dplyr是Hadley大神开发的一个专注于data frame类型的数据操作的一个包。它拥有非常简洁、便于记忆、异常丰富的一系列操作函数。更吸引人的是:它支持对sqlite,mysql,postgresql等开源数据库的操作。也就是说:你无需掌握SQL语言也能轻松进行数据库操作。
当然,dplyr并不能替代全部的SQL语言。它主要用于产生分析中最频繁使用的SELECT语句。
下面我们看看这是如何做到的。
library(dplyr)
conDplyr<-src_mysql(dbname = "db1",user = "root",password = "mycode",host = "localhost")
mydata<-conDplyr %>%
tbl("mtcars") %>%
select(mpg,cyl,gear) %>%
filter(gear == 4) %>%
collect()
head(mydata)
## Source: local data frame [6 x 3]
##
## mpg cyl gear
## (dbl) (dbl) (dbl)
## 1 21.0 6 4
## 2 21.0 6 4
## 3 22.8 4 4
## 4 24.4 4 4
## 5 22.8 4 4
## 6 19.2 6 4
dplyr中的惰性求值
dplyr只有在必要的情况下才会执行操作
它在必要的情况下才会从数据库中载入数据
每一个操作函数在执行的时候,并未开始真正从数据库中请求,而是在必要的情况下,一起执行.
如以下的一系列操作并未开始执行数据提取:
library(dplyr)
myDF <- tbl(conDplyr,"mtcars")
myDF1<-filter(myDF,gear == 4)
myDF2<-select(myDF1,mpg,cyl,gear)
直到执行以下语句,才真正开始从数据库中提取数据。
head(myDF2)
## mpg cyl gear
## 1 21.0 6 4
## 2 21.0 6 4
## 3 22.8 4 4
## 4 24.4 4 4
## 5 22.8 4 4
## 6 19.2 6
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据分析领域,Excel作为一种普及率极高且功能强大的工具,无疑为无数专业人士提供了便捷的解决方案。尽管Excel自带了丰富的功 ...
2025-01-17在这个瞬息万变的时代,许多人都在寻找能让他们脱颖而出的职业。而数据分析师,作为大数据和人工智能时代的热门职业,自然吸引了 ...
2025-01-14Python作为一门功能强大的编程语言,已经成为数据分析和可视化领域的重要工具。无论你是数据分析的新手,还是经验丰富的专业人士 ...
2025-01-10完全靠数据决策,真的靠谱吗? 最近几年,“数据驱动”成了商界最火的关键词之一,但靠数据就能走天下?其实不然!那些真正成功 ...
2025-01-09SparkSQL 结构化数据处理流程及原理是什么?Spark SQL 可以使用现有的Hive元存储、SerDes 和 UDF。它可以使用 JDBC/ODB ...
2025-01-09在如今这个信息爆炸的时代,数据已然成为企业的生命线。无论是科技公司还是传统行业,数据分析正在深刻地影响着商业决策以及未来 ...
2025-01-08“数据为王”相信大家都听说过。当前,数据信息不再仅仅是传递的媒介,它成为了驱动经济发展的新燃料。对于企业而言,数据指标体 ...
2025-01-07在职场中,当你遇到问题的时候,如果感到无从下手,或者抓不到重点,可能是因为你掌握的思维模型不够多。 一个好用的思维模型, ...
2025-01-06在现代企业中,数据分析师扮演着至关重要的角色。每天都有大量数据涌入,从社交媒体到交易平台,数据以空前的速度和规模生成。面 ...
2025-01-06在职场中,许多言辞并非表面意思那么简单,有时需要听懂背后的“潜台词”。尤其在数据分析的领域里,掌握常用术语就像掌握一门新 ...
2025-01-04在当今信息化社会,数据分析已成为各行各业的核心驱动力。它不仅仅是对数字进行整理与计算,而是在数据的海洋中探寻规律,从而指 ...
2025-01-03又到一年年终时,各位打工人也迎来了展示成果的关键时刻 —— 年终述职。一份出色的年终述职报告,不仅能全面呈现你的工作价值, ...
2025-01-03在竞争激烈的商业世界中,竞品分析对于企业的发展至关重要。今天,我们就来详细聊聊数据分析师写竞品分析的那些事儿。 一、明确 ...
2025-01-03在数据分析的江湖里,有两个阵营总是争论不休。一派信奉“大即是美”,认为数据越多越好;另一派坚守“小而精”,力挺质量胜于规 ...
2025-01-02数据分析是一个复杂且多维度的过程,从数据收集到分析结果应用,每一步都是对信息的提炼与升华。可视化分析结果,以图表的形式展 ...
2025-01-02在当今的数字化时代,数据分析师扮演着一个至关重要的角色。他们如同现代企业的“解密专家”,通过解析数据为企业提供决策支持。 ...
2025-01-02数据分析报告至关重要 一份高质量的数据分析报告不仅能够揭示数据背后的真相,还能为企业决策者提供有价值的洞察和建议。 年薪 ...
2024-12-31数据分析,听起来好像是技术大咖的专属技能,但其实是一项人人都能学会的职场硬核能力!今天,我们来聊聊数据分析的核心流程,拆 ...
2024-12-31提到数据分析,你脑海里可能会浮现出一群“数字控”抱着电脑,在海量数据里疯狂敲代码的画面。但事实是,数据分析并没有你想象的 ...
2024-12-31关于数据分析师是否会成为失业高危职业,近年来的讨论层出不穷。在这个快速变化的时代,技术进步让人既兴奋又不安。今天,我们从 ...
2024-12-30