商业智能时代已经全面到来,分析型人才的岗位数量在就业市场中呈现井喷式的增长。无论从事产品研发的工程师,还是从事产品推广的市场人员、人力资源的财务会计人员,都需要掌握数据分析技术,否则很有可能被人工智能时代替代。
“工欲善其事,必先利其器”。当前,R和Python等开源软件方兴未艾,但是这类软件学习曲线缓慢,使很多初学者的热情在进入数据分析的核心领域之前就消失殆尽。而商业数据分析的真正目的是为了解决业务分析需求,构建稳健的数据挖掘模型。因此能否以案例的形式带领我们快读进入数据分析和编程领域领域的资源显得尤为珍贵。
CDA数据分析研究院2017年出版了首本R数据挖掘教材,为了告诉你R语言和数据分析有多火,用数据说话,我爬取了京东商城《用商业案例学R语言数据挖掘》书评,来告诉你…..
从京东的1400+评论从看到,好评1400+,中评10+,差评8。好评率98%。
以下是从京东商城爬取到的部分数据,共有674条记录,存入到excel文件下,。
首先,使用Rwordseg进行中文分词
我们知道,中文自然语言处理领域最基础的技术是分词。基础是因为,众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。对于中文的语言处理,首先要把词语进行切分,才能进行更深层次的语言处理。
中文分词比较有名的包非Rwordseg和jieba莫属,他们采用的算法大同小异,这里用Rwordseg来做简单演示。
1. 设置工作目录并读取数据
2. 加载所需包,这里使用Rwordseg包进行中文分词
比如我们使用Rwordseg包对第一行进行分词
3. 导入搜狗词库(机器原始分词总有不如意的地方,因此需要添加词、词库来做参照)
4. 对所有评论信息进行进行分词并计算各个词汇出现的频次,按照词频排序
看一下前十名的有效评论:
5. 构造词汇和词频的数据框
然后,我们使用Wordcloud2进行词云展示
Wordcloud2被誉为是可能是目前最好的词云解决方案,调用一个 JS 的库 (wordcloud2.js) 实现 wordcloud。有效的利用词与词的间隔来插入数据,更可以根据图片或者文字来绘制定制化的词云。如果你没有安装过,可以执行install.packages('wordcloud2')进行简单的安装。
1. 加载包
2. 绘制词云图
效果如下:
如果你想换个图形,比如想画个星星,那么
还可以根据图片或者文字制作定制化词云,比如画个小猴子:
关于词云图,大小代表词汇出现的频率,所以我们可以看出,通过关键词不错、好、专业、易懂、推荐、必备、清晰等词可以看出本书的评价还是不错的,是一本值得学习的书籍。另外的一类词京东、速度、快、正版、包装等多是评论京东物流和图书质量。
后续:本篇文章只是作为一个趣味性的了解,里面的技术细节也没有深究,比如去停用词、文本分类等。实际上文本数据作为非结构化数据而言,可以经过处理后变成结构化数据,通过数据挖掘模型发掘更有趣的知识发现。
最后打波小广告,如果你对R语言数据分析感兴趣,欢迎参加CDA-R语言专题课程,学习数据分析技能,成为优秀的R语言数据分析专家。
数据分析咨询请扫描二维码
数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21数据分析行业正在迅速发展,随着技术的不断进步和数据量的爆炸式增长,企业对数据分析人才的需求也与日俱增。本文将探讨数据分析 ...
2024-11-21数据分析的常用方法包括多种技术,每种方法都有其特定的应用场景和优势。以下是几种常见的数据分析方法: 对比分析法:通过比 ...
2024-11-21企业数字化转型是指企业利用数字技术对其业务进行改造和升级,以实现提高效率、降低成本、创新业务模式等目标的过程。这一过程不 ...
2024-11-21数据分析作为一个备受追捧的职业领域,吸引着越来越多的女性加入其中。对于女生而言,在选择成为一名数据分析师时,行业选择至关 ...
2024-11-21大数据技术专业主要学习计算机科学、数学、统计学和信息技术等领域的基础理论和技能,旨在培养具备大数据处理、分析和应用能力的 ...
2024-11-21《Python数据分析极简入门》 第2节 3 Pandas数据查看 这里我们创建一个DataFrame命名为df: importnumpyasnpi ...
2024-11-21越老越吃香的行业主要集中在需要长时间经验积累和专业知识的领域。这些行业通常知识更新换代较慢,因此随着年龄的增长,从业者能 ...
2024-11-20数据导入 使用pandas库的read_csv()函数读取CSV文件或使用read_excel()函数读取Excel文件。 支持处理不同格式数据,可指定分隔 ...
2024-11-20大数据与会计专业是一门结合了大数据分析技术和会计财务理论知识的新型复合型学科,旨在培养能够适应现代会计业务新特征的高层次 ...
2024-11-20要成为一名数据分析师,需要掌握一系列硬技能和软技能。以下是成为数据分析师所需的关键技能: 统计学基础 理解基本的统计概念 ...
2024-11-20是的,Python可以用于数据分析。Python在数据分析领域非常流行,因为它拥有丰富的库和工具,能够高效地处理从数据清洗到可视化的 ...
2024-11-20在这个数据驱动的时代,数据分析师的角色变得愈发不可或缺。他们承担着帮助企业从数据中提取有价值信息的责任,而这些信息可以大 ...
2024-11-20数据分析作为现代信息时代的支柱之一,已经成为各行业不可或缺的工具。无论是在商业、科研还是日常决策中,数据分析都扮演着至关 ...
2024-11-20数字化转型已成为当今商业世界的热点话题。它不仅代表着技术的提升,还涉及企业业务流程、组织结构和文化的深层次变革。理解数字 ...
2024-11-20在现代社会的快速变迁中,选择一个具有长期增长潜力的行业显得至关重要。了解未来发展前景好的行业不仅能帮助我们进行职业选择, ...
2024-11-20统计学专业的就业方向和前景非常广泛且充满机遇。随着大数据、人工智能等技术的快速发展,统计学的重要性进一步凸显,相关人才的 ...
2024-11-20