R语言学习之数据的清理和转化-CDA数据分析师官网

R语言学习之数据的清理和转化

2018-06-20

R语言学习之数据的清理和转化

处理字符串
grep grepl 和regexpr函数都能找到与模式相匹配的字符串 sub 和 gsub函数能替换匹配的字符串
加载strngr包，fixed里面为要匹配的字符串返回匹配的字符串序列

[plain] view plain copy

    > library(stringr)
    > multiple <- str_detect(english_monarchs$domain,fixed(","))
    > english_monarchs[multiple,c("name","domain")]
                                            name                    domain
    17                                      Offa       East Anglia, Mercia
    18                                      Offa East Anglia, Kent, Mercia
    19                         Offa and Ecgfrith East Anglia, Kent, Mercia
    20                                  Ecgfrith East Anglia, Kent, Mercia
    22                            C<U+009C>nwulf East Anglia, Kent, Mercia
    23               C<U+009C>nwulf and Cynehelm East Anglia, Kent, Mercia
    24                            C<U+009C>nwulf East Anglia, Kent, Mercia
    25                                  Ceolwulf East Anglia, Kent, Mercia
    26                                 Beornwulf       East Anglia, Mercia
    82             Ecgbehrt and <U+00C6>thelwulf              Kent, Wessex
    83             Ecgbehrt and <U+00C6>thelwulf      Kent, Mercia, Wessex
    84             Ecgbehrt and <U+00C6>thelwulf              Kent, Wessex
    85    <U+00C6>thelwulf and <U+00C6>eelstan I              Kent, Wessex
    86                          <U+00C6>thelwulf              Kent, Wessex
    87 <U+00C6>thelwulf and <U+00C6>eelberht III              Kent, Wessex
    88                      <U+00C6>eelberht III              Kent, Wessex
    89                         <U+00C6>thelred I              Kent, Wessex
    95                                     Oswiu       Mercia, Northumbria
使用正则表达式来匹配多个要匹配的字符串，这是来匹配逗号和and
[plain] view plain copy

    > ruler <- str_detect(english_monarchs$name,",|and")
    > english_monarchs[ruler & !is.na(ruler)]

把name一列拆分掉，则可以使用str_splist函数

[plain] view plain copy

    > indival <- str_split(english_monarchs$name,",|and")
    > head(indival[sapply(indival,length)>1])
    [[1]]
    [1] "Sigeberht " " Ecgric"

    [[2]]
    [1] "Hun"      " Beonna " " Alberht"

    [[3]]
    [1] "Offa "     " Ecgfrith"

    [[4]]
    [1] "C\u009cnwulf " " Cynehelm"

    [[5]]
    [1] "Sighere " " Sebbi"

    [[6]]
    [1] "Sigeheard " " Swaefred"

st_count是用来统计有多少个字符串
[plain] view plain copy

    > str_count(english_monarchs$name,th)

str_replace函数来代替字符串中的某一个
ignore.case来忽略某一个字符或字符串

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想查询CDA考试成绩，点击>>> “CDA成绩” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想获取CDA考试时间/费用/条件/大纲/通过率，点击 >>>“CDA考试官网” 了解CDA考试详情；

正则表达式 R语言

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇Python类属性的延迟计算

下一篇R语言数据格式长数据和宽数据之间的转换

R语言学习之数据的清理和转化

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【干货】你在纳闷用户为啥流失?华为已经用关系分析 ...

【干货】2小时用AI完成的SQL教程也太赞了吧，不推荐 ...

【干货】指标波动归因分析：数据背后的故事 ...

数据分析学习指南：从踩坑到精通的成长之路 ...

数据分析学习指南

Deepseek如何帮助公司深入挖掘用户价值？ ...

【干货】Deepseek教我数据可视化看板实时更新 ...

一秒精通 Deepseek

Deepseek教我自学Python，貌似30天就够了 ...

【干货】2步学会构成分析，找到业务增长关键 ...

【2月】CDA网校2025 数据分析组队打卡学习活动第4期 ...

【干货】画用户画像与找相亲对象一样简单 ...

统计分析与数据挖掘的联系与区别

【干货】5分钟学会数据分析方法之【对比分析法】 ...

【干货】半监督学习（下）Label Spreading ...

【干货】用半监督学习方法处理标签（上）Label Prop ...

【干货】掌握这50个常用Excel函数，你的Excel就无敌 ...

【干货】7类常见的统计分析错误

【干货】“数据敏感”不是天赋！如何培养数据敏感度 ...

【干货】2025年必学技能：想转行数据分析看过来！ ...