经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
当前位置:技术经验 » 程序设计 » Python » 查看文章
爬取 豆瓣电影Top250
来源:cnblogs  作者:九命猫幺  时间:2019/10/8 9:31:40  对本文有异议

目标

学习爬虫,爬豆瓣榜单,获取爬取静态页面信息的能力

豆瓣电影 Top 250  https://movie.douban.com/top250

image


代码

  1. import requests
  2. from bs4 import BeautifulSoup
  3. def getHTMLText(url):
  4. try:
  5. r = requests.get(url,timeout=30)
  6. r.raise_for_status()
  7. r.encoding = r.apparent_encoding
  8. return r.text
  9. except:
  10. return '产生异常'
  11. if __name__ == '__main__':
  12. i = 0
  13. urls = ['https://movie.douban.com/top250?start='+str(n)+'&filter=' for n in range(0,250,25)]
  14. for url in urls:
  15. r = getHTMLText(url)
  16. soup = BeautifulSoup(r,'html.parser')
  17. titles = soup.select('div.hd a')
  18. rates = soup.select('span.rating_num')
  19. pics = soup.select('img[width="100"]')
  20. for title,rate,pic in zip(titles,rates,pics):
  21. data={'title':list(title.stripped_strings),
  22. 'rate':rate.get_text(),
  23. 'pic':pic.get('src')}
  24. i+=1
  25. fileName=str(i)+'_'+data['title'][0]+' '+data['rate']+'分.jpg'
  26. pic1 = requests.get(data['pic'])
  27. with open('G:\\test\\'+fileName,'wb') as photo:
  28. photo.write(pic1.content)
  29. print(data)

爬取结果

image

原文链接:http://www.cnblogs.com/yongestcat/p/11630267.html

 友情链接:直通硅谷  点职佳  北美留学生论坛

本站QQ群:前端 618073944 | Java 606181507 | Python 626812652 | C/C++ 612253063 | 微信 634508462 | 苹果 692586424 | C#/.net 182808419 | PHP 305140648 | 运维 608723728

W3xue 的所有内容仅供测试,对任何法律问题及风险不承担任何责任。通过使用本站内容随之而来的风险与本站无关。
关于我们  |  意见建议  |  捐助我们  |  报错有奖  |  广告合作、友情链接(目前9元/月)请联系QQ:27243702 沸活量
皖ICP备17017327号-2 皖公网安备34020702000426号