requests库是一个简单,而且快速处理HTTP请求的第三方库,是目前公认的爬取网页速度最快的库。requests库拥有许多强大的功能,包括:国际域名以及url获取、http长连接、连接缓存等等,更多的详细功能可以参考reque ...
2020-07-15BeautifulSoup是一款灵活又便捷的HTML/XML的解析器,通常被用来解析和提取 HTML/XML 数据。BeautifulSoup处理速度快,效率高,而且支持多种解析器,不用编写正则表达式也能快速地实现网页信息的提取。 1、Beaut ...
2020-07-15scrapy一个开源和协作的框架,最初的设计目的为:页面抓取(更准确来说是网络抓取),因此scrapy能够以简便、快捷·、可扩展的方式从网站中提取所需的信息。现阶段scrapy的应用十分广泛,能够用于挖掘、监测和自动 ...
2020-07-15xpath全称为XML Path Language, 是一门从XML中提取数据的语言,通常是利用元素和属性来进行导航的。 一、对于xpath的理解 1、xpath特点: xpath 包含一个标准函数库 xpath 是 XSLT 中的主要元 ...
2020-07-15Python是一款使用方便,易上手的工具,我们平常在工作中经常会用到,而且同时也是一款功能强大的编程语言,被广泛应用于数据分析、web开发、人工智能等行业。但是无论那个行业,哪个领域,想要熟练使用Python,就 ...
2020-07-15Pandas是一款很强大的Python库,具有很多方便的功能,今天小编就给大家分享用Pandas修改样式。 以下内容转载于早起Python微信公众号。 作者:刘早起 文章来源:早起Python 前言 在之前的很多文章中 ...
2020-07-14HbaseE是一个具有高可靠性、高性能特点、面向列、可伸缩的分布式存储系统。利用Hbase技术能够在廉价PC Server上搭建起大规模结构化存储集群。Hbase的目标为:存储并处理大型的数据。更进一步说就是仅需通过普通的 ...
2020-07-14Hive是一款基于Hadoop的数据仓库工具,通常被用于数据提取、转化、加载,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive最大的优点是学习成本低, ...
2020-07-14数据分析的最终目的是驱动企业业务增长,今天小编就带大家来看一下数据分析成果落地难的那些问题。 文章来源:微信公众号接地气学堂 作者:接地气的陈老师 落地、见效!是很多做数据分析的同学最怕的 ...
2020-07-14mysql内置函数有很多,小编今天给大家整理了mysql常用的日期和时间函数,希望对大家学习mysql有所帮助。 日期格式:YYYY-MM-DD 时间格式:HH:MM:SS ...
2020-07-14使用python对数据进行处理时,数据挖掘是极为重要的方式和阶段,目的是搜集大量数据,并从中通过算法搜索出隐藏在数据中的那些隐含的、先前未知的,并有具有潜在使用价值的信息。那么python数据挖掘的具体流程是怎 ...
2020-07-14前面跟大家介绍了RNN与CNN,下面小编简单跟大家介绍一下DNN-深度神经网络。 深度神经网络DNN,全称Deep Neural Networks,是深度学习的基础。与循环神经网络RNN、卷积神经网络CNN的最大区别就是:DNN特指全连接 ...
2020-07-14python具有强大的可视化功能,能够绘制出许多效果酷炫的图表,小编今天跟大家分享的是:如何用python绘制折线图。 以下文章转载于大数据DT微信公众号。 作者:屈希峰,资深Python工程师,知乎多个专栏作者 ...
2020-07-14tensorFlow是机器学习中应用最广泛,最受欢迎的算法库之一。Tensorflow由谷歌人工智能团队谷歌大脑(Google Brain)开发和维护,Google几乎在所有应用程序中都使用tensorFlow来实现机器学习。 下面小编整理了tensorF ...
2020-07-14PyTorch是什么?单从字面上,我们就能很容易看出来,与Python和Torch有关。PyTorch是使用Python作为编程语言,可以说是Torch的Python版,是由Torch7团队开发的,一种开源的神经网络框架,专门用于 GPU 加速的深度神 ...
2020-07-14半监督学习(SSL),全称Semi-Supervised Learning,类属于机器学习(Machine Learning,ML)。在只有少量标记样本,大部分样本都是无标记的情况下,可以使用半监督学习方法,根据无标记样本与标记样本间的相似度、以及 ...
2020-07-14层次聚类,即Hierarchical Clustering,是一种聚类算法,通过对不同类别数据点间的相似度的计算,从而创建一棵有层次的嵌套聚类树。 一、层次聚类算法原理 在聚类树中,树的最底层是不同类别的原始数据点, ...
2020-07-14在数据分析过程中,我们会用到各种各样的数据模型。但有些模型并不是完美的,存在者各种各样的缺点,置之不理很可能会影响最终的数据分析结果。这也就意味着,我们需要让模型最优化。通过模型优化,训练出更好的模 ...
2020-07-13小编今天给大家带来的是,SQL基本语句中的条件语句查询WHERE,希望对大家学习和使用SQL有帮助。 where后面支持多种运算符,进行条件的处理 WHERE用于条件过滤记录,也就是将访问数据进行条件处理,缩小到一 ...
2020-07-13作者:肖冠宇 来源:大数据DT(ID:hzdashuju) 内容摘编自《企业大数据处理:Spark、Druid、Flume与Kafka应用实践》 导读:Spark是由加州大学伯克利分校AMP实验室开源的分布式大规模数据处理通用引擎,具 ...
2020-07-13持证人简介:贺渲雯 ,CDA 数据分析师一级持证人,互联网行业数据分析师 今天我将为大家带来一个关于用户私域用户质量数据分析 ...
2025-04-18一、CDA持证人介绍 在数字化浪潮席卷商业领域的当下,数据分析已成为企业发展的关键驱动力。为助力大家深入了解数据分析在电商行 ...
2025-04-17CDA持证人简介:居瑜 ,CDA一级持证人,国企财务经理,13年财务管理运营经验,在数据分析实践方面积累了丰富的行业经验。 一、 ...
2025-04-16持证人简介: CDA持证人刘凌峰,CDA L1持证人,微软认证讲师(MCT)金山办公最有价值专家(KVP),工信部高级项目管理师,拥有 ...
2025-04-15持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。在实际生活中,我们可能会 ...
2025-04-14在 Python 编程学习与实践中,Anaconda 是一款极为重要的工具。它作为一个开源的 Python 发行版本,集成了众多常用的科学计算库 ...
2025-04-14随着大数据时代的深入发展,数据运营成为企业不可或缺的岗位之一。这个职位的核心是通过收集、整理和分析数据,帮助企业做出科 ...
2025-04-11持证人简介:CDA持证人黄葛英,ICF国际教练联盟认证教练,前字节跳动销售主管,拥有丰富的行业经验。 本次分享我将以教培行业为 ...
2025-04-11近日《2025中国城市长租市场发展蓝皮书》(下称《蓝皮书》)正式发布。《蓝皮书》指出,当前我国城市住房正经历从“增量扩张”向 ...
2025-04-10在数字化时代的浪潮中,数据已经成为企业决策和运营的核心。每一位客户,每一次交易,都承载着丰富的信息和价值。 如何在海量客 ...
2025-04-09数据是数字化的基础。随着工业4.0的推进,企业生产运作过程中的在线数据变得更加丰富;而互联网、新零售等C端应用的丰富多彩,产 ...
2025-04-094月7日,美国关税政策对全球金融市场的冲击仍在肆虐,周一亚市早盘,美股股指、原油期货、加密货币、贵金属等资产齐齐重挫,市场 ...
2025-04-08背景 3月26日,科技圈迎来一则重磅消息,苹果公司宣布向浙江大学捐赠 3000 万元人民币,用于支持编程教育。 这一举措并非偶然, ...
2025-04-07在当今数据驱动的时代,数据分析能力备受青睐,数据分析能力频繁出现在岗位需求的描述中,不分岗位的任职要求中,会特意标出“熟 ...
2025-04-03在当今数字化时代,数据分析师的重要性与日俱增。但许多人在踏上这条职业道路时,往往充满疑惑: 如何成为一名数据分析师?成为 ...
2025-04-02最近我发现一个绝招,用DeepSeek AI处理Excel数据简直太爽了!处理速度嘎嘎快! 平常一整天的表格处理工作,现在只要三步就能搞 ...
2025-04-01你是否被统计学复杂的理论和晦涩的公式劝退过?别担心,“山有木兮:统计学极简入门(Python)” 将为你一一化解这些难题。课程 ...
2025-03-31在电商、零售、甚至内容付费业务中,你真的了解你的客户吗? 有些客户下了一两次单就消失了,有些人每个月都回购,有些人曾经是 ...
2025-03-31在数字化浪潮中,数据驱动决策已成为企业发展的核心竞争力,数据分析人才的需求持续飙升。世界经济论坛发布的《未来就业报告》, ...
2025-03-28你有没有遇到过这样的情况?流量进来了,转化率却不高,辛辛苦苦拉来的用户,最后大部分都悄无声息地离开了,这时候漏斗分析就非 ...
2025-03-27