经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
当前位置:技术经验 » 程序设计 » Python3 » 查看文章
Python3爬虫之urllib携带cookie爬取网页的方法
来源:jb51  时间:2018/12/29 9:34:33  对本文有异议

如下所示:

  1. import urllib.request
  2. import urllib.parse
  3. url = 'https://weibo.cn/5273088553/info'
  4. #正常的方式进行访问
  5. # headers = {
  6. # 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36'
  7. # }
  8. # 携带cookie进行访问
  9. headers = {
  10. 'GET https':'//weibo.cn/5273088553/info HTTP/1.1',
  11. 'Host':' weibo.cn',
  12. 'Connection':' keep-alive',
  13. 'Upgrade-Insecure-Requests':' 1',
  14. 'User-Agent':' Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36',
  15. 'Accept':' text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
  16. # 'Referer: https':'//weibo.cn/',
  17. 'Accept-Language':' zh-CN,zh;q=0.9',
  18. 'Cookie':' _T_WM=c1913301844388de10cba9d0bb7bbf1e; SUB=_2A253Wy_dDeRhGeNM7FER-CbJzj-IHXVUp7GVrDV6PUJbkdANLXPdkW1NSesPJZ6v1GA5MyW2HEUb9ytQW3NYy19U; SUHB=0bt8SpepeGz439; SCF=Aua-HpSw5-z78-02NmUv8CTwXZCMN4XJ91qYSHkDXH4W9W0fCBpEI6Hy5E6vObeDqTXtfqobcD2D32r0O_5jSRk.; SSOLoginState=1516199821',
  19. }
  20. request = urllib.request.Request(url=url,headers=headers)
  21. response = urllib.request.urlopen(request)
  22. #输出所有
  23. # print(response.read().decode('gbk'))
  24. #将内容写入文件中
  25. with open('weibo.html','wb') as fp:
  26. fp.write(response.read())

以上这篇Python3爬虫之urllib携带cookie爬取网页的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持w3xue。

 友情链接:直通硅谷  点职佳  北美留学生论坛

本站QQ群:前端 618073944 | Java 606181507 | Python 626812652 | C/C++ 612253063 | 微信 634508462 | 苹果 692586424 | C#/.net 182808419 | PHP 305140648 | 运维 608723728

W3xue 的所有内容仅供测试,对任何法律问题及风险不承担任何责任。通过使用本站内容随之而来的风险与本站无关。
关于我们  |  意见建议  |  捐助我们  |  报错有奖  |  广告合作、友情链接(目前9元/月)请联系QQ:27243702 沸活量
皖ICP备17017327号-2 皖公网安备34020702000426号