经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
当前位置:技术经验 » 程序设计 » Python » 查看文章
Python爬虫实战,Scrapy实战,知乎粉丝小爬虫
来源:cnblogs  作者:楚_阳  时间:2021/6/7 9:17:39  对本文有异议

image.png

前言

写个知乎粉丝小爬虫,分为数据爬取和数据的简单可视化两个部分。让我们愉快地开始吧~

开发工具

Python版本:3.6.4
相关模块:

scrapy模块;

pyecharts==1.5.1模块;

wordcloud模块;

jieba模块;

以及一些python自带的模块。

环境搭建

安装Python并添加到环境变量,pip安装需要的相关模块即可。

数据爬取

先随手推一波自己开源的利用requests进行模拟登录的库:

  1. https://github.com/CharlesPikachu/DecryptLogin

目前该库支持模拟登录的网站包括:

  1. 1\. 微博

后续会不断添加和完善该库的功能以及该库相关的一些小应用。当然,今天是用不上了,因为我发现他喵的知乎的粉丝数据竟然一直是一个裸的API,即使是改版之后,也不需要验证什么登录后的cookies之类的东西直接就能抓取到了。

言归正传,简单说说这个数据怎么抓取吧,其实很简单,F12打开开发者工具,刷新一下关注者页面,就可以发现:

请求这个接口直接就能返回目标用户的粉丝数据了,接口的组成形式为:

  1. https://www.zhihu.com/api/v4/members/{用户域名}/followers?

没有什么特别需要注意的地方,不用怀疑,就是这么简单,scrapy新建一个项目爬就完事了:

  1. scrapy startproject zhihuFansSpider

定义一下items:

  1. class ZhihufansspiderItem(scrapy.Item):

然后新建并写一个爬虫主程序就OK啦:

  1. '''知乎粉丝小爬虫'''

运行以下命令开始爬取目标用户的粉丝数据:

  1. scrapy crawl zhihuFansSpider -o followers_info.json -t json

数据可视化

老规矩,可视化一下爬到数据呗(这里就以我自己知乎账号的关注者数据为例好了T_T)。

先画个粉丝主页标题的词云压压惊?

  1. ![https://upload-images.jianshu.io/upload_images/2539976-ada286149ecb2285?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

我比较好奇中间那个“狗”字是什么鬼。。。

然后再统计一下粉丝的男女比例呗?

图片

应该算是很真实吧?[图片上传失败...(image-b139c3-1617265093411)]

让我们再来看看我的关注者里有多少VIP用户?

图片

好的,答案是0个~

再来看看follow我的人一般有多少followers呗:

图片

最后再来看看粉丝的回答数统计呗:

图片

文章到这里就结束了,感谢你的观看,关注我每天分享Python模拟登录系列,下篇文章分享爬取旅行家游记信息。

为了感谢读者们,我想把我最近收藏的一些编程干货分享给大家,回馈每一个读者,希望能帮到你们。

干货主要有:

① 2000多本Python电子书(主流和经典的书籍应该都有了)

② Python标准库资料(最全中文版)

③ 项目源码(四五十个有趣且经典的练手项目及源码)

④ Python基础入门、爬虫、web开发、大数据分析方面的视频(适合小白学习)

⑤ Python学习路线图(告别不入流的学习)

All done~完整源代码+干货详见个人简介或者私信获取相关文件。。

原文链接:http://www.cnblogs.com/daimubai/p/14852835.html

 友情链接:直通硅谷  点职佳  北美留学生论坛

本站QQ群:前端 618073944 | Java 606181507 | Python 626812652 | C/C++ 612253063 | 微信 634508462 | 苹果 692586424 | C#/.net 182808419 | PHP 305140648 | 运维 608723728

W3xue 的所有内容仅供测试,对任何法律问题及风险不承担任何责任。通过使用本站内容随之而来的风险与本站无关。
关于我们  |  意见建议  |  捐助我们  |  报错有奖  |  广告合作、友情链接(目前9元/月)请联系QQ:27243702 沸活量
皖ICP备17017327号-2 皖公网安备34020702000426号