安装Python并添加到环境变量,pip安装需要的相关模块即可。
- 电影名字
- 导演、主演
- 年份、国家、类型
- 评分、评价人数
- 电影简介

Python中的大量开源的模块使得编码变的特别简单,我们写爬虫第一个要了解的模块就是requests。


请求url地址,使用get请求,添加headers请求头,模拟浏览器请求,网页会给你返回response对象

200是状态码,表示请求成功
2xx (成功)
3xx (重定向)
4xx(请求错误)
5xx(服务器错误)
- 200 - 服务器成功返回网页,客户端请求已成功。
- 302 - 对象临时移动。服务器目前从不同位置的网页响应请求,但请求者应继续使用原有位置来进行以后的请求。
- 304 - 属于重定向。自上次请求后,请求的网页未修改过。服务器返回此响应时,不会返回网页内容。
- 401 - 未授权。请求要求身份验证。 对于需要登录的网页,服务器可能返回此响应。
- 404 - 未找到。服务器找不到请求的网页。
- 503 (服务不可用) 服务器目前无法使用(由于超载或停机维护)。通常,这只是暂时状态。
import requests
url = 'https://movie.douban.com/top250'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
print(response.text)
requests.get(url=url, headers=headers)
请求网页返回的是response对象
response.json:
获取网页json数据
apparent_encoding cookies history
iter_lines ok close
elapsed is_permanent_redirect json
raise_for_status connection encoding
is_redirect links raw
content headers iter_content
next reason url
常用解析数据方法: 正则表达式、css选择器、xpath、lxml…
我们使用的是 parsel
无论是在之前的文章,还是说之后的爬虫系列文章,我都会使用 parsel
这个解析库,无它就是觉得它比bs4香。
parsel
是第三方模块,pip install parsel
安装即可
parsel 可以使用 css、xpath、re解析方法

所有的电影信息都包含在 li
标签当中。

以上的知识点使用到了
- parsel 解析模块的方法
- for 循环
- css 选择器
- 字典的创建
- 列表取值
- 字符串的方法:分割、替换等
- pprint 格式化输出模块
所以扎实基础是很有必要的。不然你连代码都不知道为什么要这样写。
像豆瓣电影信息这样的数据,保存到Excel表格里面会更好。
for page in range(0, 251, 25):
url = f'https://movie.douban.com/top250?start={page}&filter='
""""""
import pprint
import requests
import parsel
import csv
'''
1、明确需求:
爬取豆瓣Top250排行电影信息
电影名字
导演、主演
年份、国家、类型
评分、评价人数
电影简介
'''
原文链接:http://www.cnblogs.com/python147/p/14385378.html