商业智能时代已经全面到来,分析型人才的岗位数量在就业市场中呈现井喷式的增长。无论从事产品研发的工程师,还是从事产品推广的市场人员、人力资源的财务会计人员,都需要掌握数据分析技术,否则很有可能被人工智能时代替代。
“工欲善其事,必先利其器”。当前,R和Python等开源软件方兴未艾,但是这类软件学习曲线缓慢,使很多初学者的热情在进入数据分析的核心领域之前就消失殆尽。而商业数据分析的真正目的是为了解决业务分析需求,构建稳健的数据挖掘模型。因此能否以案例的形式带领我们快读进入数据分析和编程领域领域的资源显得尤为珍贵。
CDA数据分析研究院2017年出版了首本R数据挖掘教材,为了告诉你R语言和数据分析有多火,用数据说话,我爬取了京东商城《用商业案例学R语言数据挖掘》书评,来告诉你…..
从京东的1400+评论从看到,好评1400+,中评10+,差评8。好评率98%。
以下是从京东商城爬取到的部分数据,共有674条记录,存入到excel文件下,。
首先,使用Rwordseg进行中文分词
我们知道,中文自然语言处理领域最基础的技术是分词。基础是因为,众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。对于中文的语言处理,首先要把词语进行切分,才能进行更深层次的语言处理。
中文分词比较有名的包非Rwordseg和jieba莫属,他们采用的算法大同小异,这里用Rwordseg来做简单演示。
1. 设置工作目录并读取数据
2. 加载所需包,这里使用Rwordseg包进行中文分词
比如我们使用Rwordseg包对第一行进行分词
3. 导入搜狗词库(机器原始分词总有不如意的地方,因此需要添加词、词库来做参照)
4. 对所有评论信息进行进行分词并计算各个词汇出现的频次,按照词频排序
看一下前十名的有效评论:
5. 构造词汇和词频的数据框
然后,我们使用Wordcloud2进行词云展示
Wordcloud2被誉为是可能是目前最好的词云解决方案,调用一个 JS 的库 (wordcloud2.js) 实现 wordcloud。有效的利用词与词的间隔来插入数据,更可以根据图片或者文字来绘制定制化的词云。如果你没有安装过,可以执行install.packages('wordcloud2')进行简单的安装。
1. 加载包
2. 绘制词云图
效果如下:
如果你想换个图形,比如想画个星星,那么
还可以根据图片或者文字制作定制化词云,比如画个小猴子:
关于词云图,大小代表词汇出现的频率,所以我们可以看出,通过关键词不错、好、专业、易懂、推荐、必备、清晰等词可以看出本书的评价还是不错的,是一本值得学习的书籍。另外的一类词京东、速度、快、正版、包装等多是评论京东物流和图书质量。
后续:本篇文章只是作为一个趣味性的了解,里面的技术细节也没有深究,比如去停用词、文本分类等。实际上文本数据作为非结构化数据而言,可以经过处理后变成结构化数据,通过数据挖掘模型发掘更有趣的知识发现。
最后打波小广告,如果你对R语言数据分析感兴趣,欢迎参加CDA-R语言专题课程,学习数据分析技能,成为优秀的R语言数据分析专家。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-02最近我发现一个绝招,用DeepSeek AI处理Excel数据简直太爽了!处理速度嘎嘎快! 平常一整天的表格处理工作,现在只要三步就能搞 ...
2025-04-01你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27TensorFlow Datasets(TFDS)是一个用于下载、管理和预处理机器学习数据集的库。它提供了易于使用的API,允许用户从现有集合中 ...
2025-03-26"不谋全局者,不足谋一域。"在数据驱动的商业时代,战略级数据分析能力已成为职场核心竞争力。《CDA二级教材:商业策略数据分析 ...
2025-03-26当你在某宝刷到【猜你喜欢】时,当抖音精准推来你的梦中情猫时,当美团外卖弹窗刚好是你想吃的火锅店…… 恭喜你,你正在被用户 ...
2025-03-26当面试官问起随机森林时,他到底在考察什么? ""请解释随机森林的原理""——这是数据分析岗位面试中的经典问题。但你可能不知道 ...
2025-03-25在数字化浪潮席卷的当下,数据俨然成为企业的命脉,贯穿于业务运作的各个环节。从线上到线下,从平台的交易数据,到门店的运营 ...
2025-03-25在互联网和移动应用领域,DAU(日活跃用户数)是一个耳熟能详的指标。无论是产品经理、运营,还是数据分析师,DAU都是衡量产品 ...
2025-03-24ABtest做的好,产品优化效果差不了!可见ABtest在评估优化策略的效果方面地位还是很高的,那么如何在业务中应用ABtest? 结合企业 ...
2025-03-21在企业数据分析中,指标体系是至关重要的工具。不仅帮助企业统一数据标准、提升数据质量,还能为业务决策提供有力支持。本文将围 ...
2025-03-20解锁数据分析师高薪密码,CDA 脱产就业班助你逆袭! 在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的 ...
2025-03-19在 MySQL 数据库中,查询一张表但是不包含某个字段可以通过以下两种方法实现:使用 SELECT 子句以明确指定想要的字段,或者使 ...
2025-03-17在当今数字化时代,数据成为企业发展的关键驱动力,而用户画像作为数据分析的重要成果,改变了企业理解用户、开展业务的方式。无 ...
2025-03-172025年是智能体(AI Agent)的元年,大模型和智能体的发展比较迅猛。感觉年初的deepseek刚火没多久,这几天Manus又成为媒体头条 ...
2025-03-14以下的文章内容来源于柯家媛老师的专栏,如果您想阅读专栏《小白必备的数据思维课》,点击下方链接 https://edu.cda.cn/goods/sh ...
2025-03-13以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/go ...
2025-03-12