热线电话：13121318867

回顾2021！爬取12万数据盘点热门大事件

2022-01-25

作者：闲欢

来源：Python 技术

2021年已经过去了，但是这一年发生了很多令人难忘的事情，相信每个人心目中都有很多感慨。

为了回顾2021年都发生了哪些大事，我打算从热搜下手，看看2021年都有哪些热搜事件。

大家都知道，微博热搜是实时更新的，并且没有历史记录，所以从微博的网站上找不到历史的热搜数据。我们只能另想它法了。经过我不懈的摸索，终于找到了一个网站，它记录了每日的微博实时热搜，并且是一分钟一次。也可以在网站上通过日期查询当天的数据。

下载数据

有了目标网站就好说，我们想办法从目标网站下载数据就好。这个网站提供了付费下载数据的方式。我这里为了给大家演示使用 Python 爬虫爬取数据，就不付费下载了。

网站的请求也比较简单，大家打开网页的开发工具，可以很快定位到获取请求的 URL 。这里就不赘述了，直接上代码：

headers = { "Host": "google-api.zhaoyizhe.com", "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36" } def scrapy(date): print('开始爬取%s' % date)
    url = 'https://google-api.zhaoyizhe.com/google-api/index/mon/sec?date=%s' % date try:
        time.sleep(random.randint(1, 3))
        res = requests.get(url, headers=headers).json()
        result = res['data'] return result except Exception as err:
        print(err) return None

我们定义一个爬取的函数，通过传入日期来爬取一天的热搜数据。整个2021年的数据我们只需要循环请求每一天即可。

整个数据下载下来一共12万多条：

制作词云

分析热点事件，最好的方法就是把这些事件描述制作成词云，突出显示的就是最热门的，一目了然。

def gen_wc_split_text(data_list=[], max_words=None, background_color=None, # font_path='/System/Library/Fonts/PingFang.ttc', font_path=r'C:WindowsFontssimhei.ttf',
                      output_path='', output_name='',
                      mask_path=None, mask_name=None,
                      width=400, height=200, max_font_size=100, axis='off'): stopwords = open(r'c:pworkspacemypypythontechweibohotstopwords.txt', 'r', encoding='utf-8').read().split('n')[:-1]
    words_dict = {} for data in data_list:
        text = data['topic']
        hotNumber = data['hotNumber'] if hotNumber is None:
            hotNumber = 1 all_seg = jieba.cut(text, cut_all=False) for seg in all_seg: if seg in stopwords or seg == 'unknow': continue if seg in words_dict.keys():
                words_dict[seg] += hotNumber else:
                words_dict[seg] = hotNumber # 设置一个底图 mask = None if mask_path is not None:
        mask = np.array(Image.open(path.join(mask_path, mask_name)))

    wordcloud = WordCloud(background_color=background_color,
                          mask=mask,
                          max_words=max_words,
                          min_font_size=15,
                          max_font_size=80,
                          width=300,
                          height=400, # 如果不设置中文字体，可能会出现乱码 font_path=font_path)
    myword = wordcloud.generate_from_frequencies(words_dict) # 展示词云图 # plt.imshow(myword) # plt.axis(axis) # plt.show() # 保存词云图 wordcloud.to_file(path.join(output_path, output_name))