经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
当前位置:技术经验 » 程序设计 » Python » 查看文章
Python爬虫Requests库的使用详情
来源:jb51  时间:2022/8/16 17:28:10  对本文有异议

一、Requests库的7个主要的方法

1.request()

构造请求,支撑以下的基础方法

2.get()

获取HTML页面的主要方法,对应于http的get

3.head()

获取HTML页面的头部信息的主要方法,对应于http的head

 

-??以很少的流量获取索要信息的概要内容??

4.post()

向HTML提交post请求的方法,对应于http的post

 

-??向URLpost一个字典将自动编码为form(表单)??

 

-??向URLpost一个字符串自动编码为data??

5.put()

向HTML提交put请求的方法,对应于http的put

6.patch()

向HTML提交局部修改的请求,对应于http的patch

7.delete()

向HTML提交删除请求,对应于http的delete

以下代码是描述的request方法中的13个控制访问参数:

  1. import requests
  2.  
  3. # **kwargs:控制访问的参数,均为可选项,不仅仅是针对request,其他六中方法依旧适用
  4.  
  5. # params:字典或字节序列,作为参数增加到URL中,可以通过该参数筛选数据
  6. kv = {"key1":"value1","key2":"value2"}
  7. r = requests.request('GET','http://python123.io/ws',params=kv)
  8. print(r.url)
  9. # https://python123.io//ws?key1=value1&key2=value2
  10.  
  11. # data:字典、字节序列或文件对象,作为Request的内容;提交时,作为数据内容添加到当前的连接下
  12. kv = {"key1":"value1","key2":"value2"}
  13. r = requests.request('POST','http://python123.io/ws',params=kv)
  14. body = '主体内容'
  15. r = requests.request('POST','http://python123.io/ws',params=body)
  16.  
  17. # json:JSON格式的数据,作为Request的内容
  18. kv = {"key1":"value1"}
  19. r = requests.request('POST','http://python123.io/ws',json=kv)
  20.  
  21. # headers:字典,HTTP定制头,模拟需要的浏览器来进行访问
  22. hd = {"user-agent":"Chrome/10"}
  23. r = requests.request('POST','http://python123.io/ws',headers=hd)
  24.  
  25. # cookies:字典或CookieJar,Request中的cookie
  26. # auth:元组,支持HTTP认证功能
  27. # files:字典类型,传输文件;将某个文件提交到连接上
  28. fs = {"file":open('data.xls','rb')}
  29. r = requests.request('POST','http://python123.io/ws',file=fs)
  30.  
  31. # timeout:设定超时时间,秒为单位;在规定的时间内没有接收到响应将会显示timeout异常
  32. r = requests.request('POST','http://www.baidu.com',timeout=10)
  33.  
  34. # proxies:字典类型,设定访问代理服务器,可以增加登录认证
  35. pxs = {'http':'http://user:pass@10.10.10.1:1234', #当我们进入HTTP协议的网站时增加登录认证
  36. 'https':'https://10.10.10.1.4321' } #当我们进入HTTPS协议的网站时,直接使用代理服务器的IP地址;可以有效掩盖爬虫的原IP地址
  37. r = requests.request('GET','http://python123.io/ws',proxies=pxs)
  38.  
  39. # allow_redirects:True/False,默认为True,重定向开关
  40. # stream:True/False,默认为True,获取内容立刻下载的开关
  41. # verify:True/False,默认为True,认证SSL证书开关
  42. # cert:本地SSL证书路径

二、Response对象的属性

status_code

HTTP请求的返回状态码,200表示成功,400表示失败

text

HTTP响应内容的字符串形式,即URL对应的页面内容

encoding

从HTTPheader中猜测的响应内容编码方式

 

-??如果header中不存在charset,则认为编码是ISO-8859-1??

apparent_encoding

从内容中分析出的响应内容编码方式(备选编码方式)

 

-??从内容中分析出可能的编码形式??

content

HTTP响应内容的二进制形式

  1. import requests
  2.  
  3. #构造一个向服务器请求资源的Response对象
  4. r = requests.get(url="http://www.baidu.com")
  5.  
  6. print(r.status_code) #打印请求状态码
  7. #200
  8. print(type(r)) #打印请求对象类型
  9. #<class 'requests.models.Response'>
  10. print(r.headers) #打印请求对象的头部信息
  11. #{'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, no-transform', 'Connection': 'keep-alive', 'Content-Encoding': 'gzip', 'Content-Type': 'text/html', 'Date': 'Sat, 27 Jun 2020 09:03:41 GMT', 'Last-Modified': 'Mon, 23 Jan 2017 13:27:32 GMT', 'Pragma': 'no-cache', 'Server': 'bfe/1.0.8.18', 'Set-Cookie': 'BDORZ=27315; max-age=86400; domain=.baidu.com; path=/', 'Transfer-Encoding': 'chunked'}
  12.  
  13. print(r.text)
  14. print(r.encoding) #ISO-8859-1
  15. print(r.apparent_encoding) #备用编码utf-8
  16. r.encoding = "utf-8"
  17. print(r.text)

直接解析会出现乱码,将字符设为apparent_encoding时会结局问题。

三、爬取网页通用代码

  1. try:
  2. r = requests.get(url,timeout=30)
  3. r.raise_for_status()
  4. r.encoding = r.apparent_encoding
  5. return r.text
  6. except:
  7. return "产生异常!"

作用:??r.raise_for_status()函数??判断当前请求返回状态码,当返回状态码不为200时,产生异常并能够被except捕获

  1. import requests
  2.  
  3. # (定义方法)封装函数
  4. def getHTMLText(url):
  5. try:
  6. r = requests.get(url,timeout=30)
  7. r.raise_for_status()
  8. r.encoding = r.apparent_encoding
  9. return r.text
  10. except:
  11. return "代码错误,产生异常!"
  12.  
  13. if __name__ =="__main__":
  14. url = "http://www.baidu.com"
  15. print(getHTMLText(url)) #正常显示爬取的页面信息
  16.  
  17. if __name__ =="__main__":
  18. url = "www.baidu.com" #缺失了
  19. print(getHTMLText(url)) #代码错误,产生异常!

四、Resquests库的常见异常

requests.ConnectionError

网络连接错误异常,如DNS查询失败、拒绝连接等

requests.HTTPError

HTTP错误异常

requests.URLRequired

URL缺失异常

requests.TooManyRedirects

超过最大重定向次数,产生重定向异常

requests.ConnectTimeout

连接远程服务器超时异常

requests.Timeout

请求URL超时,产生超时异常

五、Robots协议展示

  1. import requests
  2. # (定义方法)封装函数
  3. def getHTMLText(url):
  4. try:
  5. r = requests.get(url,timeout=30)
  6. r.raise_for_status()
  7. r.encoding = r.apparent_encoding
  8. return r.text
  9. except:
  10. return "代码错误,产生异常!"
  11.  
  12. if __name__ =="__main__":
  13. url = "http://www.baidu.com/robots.txt"
  14. print(getHTMLText(url)) #正常显示爬取的页面信息,显示出robots协议对于不同类型爬虫的限制

六、案例展示

1.爬取京东商品信息

在爬取后,我们发现在控制台中返回了带有??login???的一个href,并没有具体的信息内容。但是在爬取主页时,可以直接获取主页具体信息。个人认为是由于无法识别是否已经登陆而导致的,后续学习中会跟进知识点及解决方法。(若有大佬会的,感谢评论!)

2.爬取网上图片并保存

  1. import requests
  2. import os
  3.  
  4. url = "http://image.ngchina.com.cn/2019/0523/20190523103156143.jpg"
  5. root = "F:/图片/" #根目录
  6. path = root + url.split('/')[-1] #以最后一个/后的文字命名
  7. try:
  8. if not os.path.exists(root): #如果不存在根目录文件,则创建根目录文件夹
  9. os.mkdir(root) #该方法只能创建一级目录,如要创建多层,可以遍历循环创建
  10. if not os.path.exists(path):
  11. r = requests.get(url)
  12. with open(path,'wb') as f:
  13. f.write(r.content) #r.content返回的是2进制编码,将其写入
  14. f.close()
  15. print("文件已成功保存!")
  16. else:
  17. print("文件已存在~")
  18. except:
  19. print("爬取失败!!!")

到此这篇关于Python爬虫Requests库的使用详情的文章就介绍到这了,更多相关Python Requests库内容请搜索w3xue以前的文章或继续浏览下面的相关文章希望大家以后多多支持w3xue!

 友情链接:直通硅谷  点职佳  北美留学生论坛

本站QQ群:前端 618073944 | Java 606181507 | Python 626812652 | C/C++ 612253063 | 微信 634508462 | 苹果 692586424 | C#/.net 182808419 | PHP 305140648 | 运维 608723728

W3xue 的所有内容仅供测试,对任何法律问题及风险不承担任何责任。通过使用本站内容随之而来的风险与本站无关。
关于我们  |  意见建议  |  捐助我们  |  报错有奖  |  广告合作、友情链接(目前9元/月)请联系QQ:27243702 沸活量
皖ICP备17017327号-2 皖公网安备34020702000426号