动态加密？看我如何见招拆招爬取某点评全站内容-CDA数据分析师官网

动态加密？看我如何见招拆招爬取某点评全站内容

2020-12-31

公众号：早起Python

作者：刘早起

大家好，我是早起。

在前几天的文章中，我针某点评商家搜索页面的字体反爬给出了解决方案，但是还有一个问题，那就是当时给出的方法是下载对应的woff字体文件，然后建立加密字体与编码之间的映射关系来进行破解。

但是有一个问题就是不同页面的字体文件，是动态加载的，换句话说就是你在这个页面建立的映射关系，换一个页面就不能用了。

那就没有解决办法了吗？其实也不难，或者说对方还是给了很清晰的思考方向，因为，虽然每一个页面的字体是动态加载的，但是这个动态仅针对字体解析后编码的变化，字体内部顺序是没有变化的

每两个页面中，仅仅是字体编码发生了改变，而字体的位置顺讯并没有改变，所以我们只需要在解析每一页的数据之前，先提取页面中CSS样式，再从CSS内容中定位到字体文件存储链接，之后就是请求这一页对应的字体文件并解析构造匹配字典，后面的步骤就和上一篇文章一样了。

那我们开始，目标是爬取某城市指定美食的全部商家信息，比如定位广州搜索沙县小吃，之后爬取全部的搜索页面。

首先就是构造全部的URL，由于每一页的URL是有一定规律的，所以这一步很简单，从第一页中提取全部页数然后按照规律添加到url_list中即可，而这个数据没有被加密

所以这部分代码可以这样写

这部分代码不难理解构造请求——解析页面——提取页数——模拟URL，其中get_ip()必须要返回一个可以使用的ip，不论你是用免费的还是付费的代理，在这里不做详细讲解。

搞定URL之后，我们来到最关键的步骤，写一个函数，传进来一个页面返回该页的文字匹配字典，那么第一步就是把字体拿下来，下面四行代码即可搞定

简单来看一下这段代码，我们传入一个请求后得到的page后

“

第一行代码使用正则表达式提取字体所在的css链接

第二行代码使用requests请求css内容

最后两行代码使用正则提取woff字体文件所在URL

”

如果你传进去的页面是正常的，那么现在我们就有地址、均价字段的字体所在URL，下面就可以使用requests将这两个字体文件下载并保存在本地，代码如下

现在工作目录下就有两个字体文件，之后就按照上一篇文章介绍的字体加密破解方法操作即可。所以这部分完整代码如下：

唯一需要注意的就是，这里传进去的page，就是你直接请求当前页面返回的内容，比如

动态加密？看我如何见招拆招爬取某点评全站内容

你需要确保这里的page是正确包含内容的，如果是被403之后的页面或者是提示要输入验证码之类的页面是无法正确执行的。

那么到这里，我们就搞定了在每一页的字体文件都是动态加载的情况下如何爬取全部搜索页面的信息，之后只需要写一个循环爬去url_list中的全部URL，并使用pandas进行保存即可。动态加密？看我如何见招拆招爬取某点评全站内容

本文的分享就到这里，完整的代码我就不提供了，因为某点评网站的限制，大概率拿走也是不能用的，但是最关键的函数已经完整的发在文中了，复制粘贴就能使用。

如果你尝试去爬取过大众点评，会发现最难的不再是字体加密，而是捉摸不透的反爬机制，尤其是headers中参数的构造，cookie的破解，公众号没有留言，你可以添加早小起微信和我交流，我会在后续继续更新相关文章！

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

requests pandas 正则表达式字段

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇企业如何搭建合理的数据分析体系？

下一篇北京企业平均薪酬达16.68万元，全国最高，你又拉后腿了吗？

动态加密？看我如何见招拆招爬取某点评全站内容

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...