经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
当前位置:技术经验 » 程序设计 » Python » 查看文章
python爬取豆瓣电影排行榜(requests)
来源:cnblogs  作者:Alvin_轩  时间:2021/2/18 15:42:28  对本文有异议
  1. '''
  2. 爬取豆瓣电影排行榜
  3. 设计思路:
  4. 1、先获取电影类型的名字以及特有的编号
  5. 2、将编号向ajax发送get请求获取想要的数据
  6. 3、将数据存放进excel表格中
  7. '''

环境部署:

软件安装:

模块安装(打开cmd或powershell进行下面的命令安装【前提需要有python】):

  • 安装requests模块、lxml模块(发送请求,xpath获取数据)
  1. pip install requests #(主要用来发送请求,获取响应)
  2. pip install lxml #(主要引用里面的etree里面的xpath方法)
  • 安装xpathhelper插件(可以在网页中复制相应的节点xpath路径并查看)
  1. 1、下载地址:https://pan.baidu.com/s/1UM94dcwgus4SgECuoJ-Jcg 密码:337b
  2. 2window平台下:
  3. · 把文件的后缀名crx改为rar,然后解压到同名文件夹中
  4. · 打开谷歌的扩展程序 ——> 进入到管理管理扩展程序中
  5. · 打开开发者模式,通过加载已解压的扩展程序,将插件导入
  6. 3ios平台下:
  7. · 直接将crx文件拖进扩展程序中
  • 安装xlwt模块(将数据存放进excel表格)
  1. pip install xlwt

项目中需要引入的模块:

  1. import requests
  2. from lxml import etree
  3. import xlwt
  4. import time

使用流程:

  1. 在列表中填写所需要获取的电影类型名
  2. 输入开始时获取的start以及获取多少数据的limit
  3. 填写所要输出的excel表格的名字(代码中默认douban.xls)
  4. 程序运行结束后打开excel验证数据是否获取
  5. 观察自己所需的数据

完整代码:

  1. # encoding=utf8
  2. # 编程者 :Alvin
  3. '''
  4. 爬取豆瓣电影排行榜
  5. 设计思路:
  6. 1、先获取电影类型的名字以及特有的编号
  7. 2、将编号向ajax发送get请求获取想要的数据
  8. 3、将数据存放进excel表格中
  9. '''
  10. import requests
  11. from lxml import etree
  12. import xlwt
  13. import time
  14. class DouBan():
  15. # 初始化数据,获取最外层的数据
  16. def __init__(self, name_list):
  17. self.headers = {
  18. "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.3",
  19. "Connection": "close",
  20. "Referer": "https://movie.douban.com/"
  21. }
  22. # 获取最外层的数据,并拿到url中的type中的name 和 类型
  23. self.url = 'https://movie.douban.com/chart'
  24. self.dydata_list = []
  25. # 电影的类型名
  26. self.name_list = name_list
  27. # 实例化excel表格对象
  28. self.wb = xlwt.Workbook()
  29. # 通过电影的类型名字获取对应的类型号
  30. def get_data_typenum(self, name):
  31. for data in self.dydata_list:
  32. if data['name'] == name:
  33. typenum =data['dytype']
  34. else:
  35. continue
  36. return typenum
  37. # 获取数据
  38. def get_data_p1(self):
  39. response = requests.get(self.url , headers = self.headers)
  40. # 判断长度是否足够大
  41. # print(len(response.content.decode()))
  42. return response.content.decode()
  43. # 获取下一层的页面数据
  44. def get_data_p2(self, typenum, num, limit):
  45. url = 'https://movie.douban.com/j/chart/top_list'
  46. params = {
  47. 'type': typenum,
  48. 'interval_id': '100:90',
  49. 'action':'',
  50. 'start': num*20,
  51. 'limit': limit
  52. }
  53. response = requests.get(url,params=params,headers=self.headers)
  54. # print(response.json())
  55. return response.json()
  56. # 处理数据
  57. def data_parse_p1(self, data):
  58. html = etree.HTML(data)
  59. data_list = html.xpath('//div[@class="types"]/span/a/@href')
  60. # 用于收集类型名字
  61. name_list = []
  62. dytype_list = []
  63. # 用于收集类型号
  64. for data in data_list:
  65. name = data.split('?')[-1].split('&')[0].split('=')[-1]
  66. dytype = data.split('?')[-1].split('&')[1].split('=')[-1]
  67. name_list.append(name)
  68. dytype_list.append(dytype)
  69. for (name,dytype) in zip(name_list,dytype_list):
  70. dydict = {}
  71. dydict['name'] = name
  72. dydict['dytype'] = dytype
  73. self.dydata_list.append(dydict)
  74. # print(self.dydata_list)
  75. return self.dydata_list
  76. def data_parse_p2(self, data_list,name):
  77. print(len(data_list))
  78. douban = self.wb.add_sheet(name)
  79. style = xlwt.XFStyle() # 初始化一个style对象,用来保存excel的样式
  80. font = xlwt.Font() # 创建一个font对象,用来保存对字体进行的操作
  81. font.name = '微软雅黑' # 字体设置为'微软雅黑'
  82. font.bold = True # 字体加粗
  83. al = xlwt.Alignment() # 创建一个对齐对啊想,用来改变文本内容的字体
  84. style.font = font # 将字体信息保存到style对象中
  85. style.alignment = al
  86. # 水平对齐方式、水平居中
  87. al.horz = 0x02
  88. # 垂直对齐方式、垂直居中
  89. al.vert = 0x01
  90. # 电影的标题
  91. douban.col(0).width = 256 * 25
  92. # 电影演员的名字
  93. douban.col(1).width = 256 * 50
  94. # 电影上映的年份
  95. douban.col(2).width = 256 * 15
  96. # 电影上映的国家
  97. douban.col(3).width = 256 * 15
  98. # 电影的标签
  99. douban.col(4).width = 256 * 20
  100. # 电影的评分
  101. douban.col(5).width = 256 * 8
  102. # 豆瓣中该电影的页面链接
  103. douban.col(6).width = 256 * 40
  104. douban.write(0, 0, '电影标题', style)
  105. douban.write(0, 1, '电影演员名字', style)
  106. douban.write(0, 2, '电影上映年份', style)
  107. douban.write(0, 3, '电影上映国家', style)
  108. douban.write(0, 4, '电影标签', style)
  109. douban.write(0, 5, '电影评分', style)
  110. douban.write(0, 6, '豆瓣中该电影的页面链接', style)
  111. row = 1
  112. for data in data_list:
  113. # 电影的标题
  114. title = data['title']
  115. # 电影演员的名字
  116. actors = data['actors']
  117. # 电影上映的年份
  118. release_date = data['release_date']
  119. # 电影上映的国家
  120. regions = data['regions'][0]
  121. # 电影的标签
  122. types = data['types']
  123. # 电影评分
  124. score = data['score']
  125. # 豆瓣查看的链接
  126. link = data['url']
  127. douban.write(row, 0, title)
  128. douban.write(row, 1, actors)
  129. douban.write(row, 2, release_date)
  130. douban.write(row, 3, regions)
  131. douban.write(row, 4, types)
  132. douban.write(row, 5, score)
  133. douban.write(row, 6, link)
  134. row += 1
  135. self.wb.save('douban.xls')
  136. # 运行程序
  137. def run(self, num, limit):
  138. # 获取第一层中的所需要的类型名字和数字
  139. self.data_parse_p1(self.get_data_p1())
  140. for name in self.name_list:
  141. typenum = self.get_data_typenum(name)
  142. # 向指定的分类进行数据的访问
  143. data_list = self.get_data_p2(typenum,num,limit)
  144. # 对获取的数据进行解析保存
  145. self.data_parse_p2(data_list,name)
  146. if __name__ == '__main__':
  147. # 需要查看的类型
  148. douban = DouBan(['喜剧','悬疑','惊悚'])
  149. # 需要查看的开始值start,以及需要查看的数量limit
  150. douban.run(0,100)
  151. time.sleep(2)

效果图

  • pycharm 运行台
  • excel表格显示

本案例笔者的想法是打算先获取到每一个电影类型的前100个数据,然后在excel表格中进行评分的筛选,最后观察现阶段某个电影类型中哪些电影在豆瓣电影中评分较高的

原文链接:http://www.cnblogs.com/xuan68/p/14406321.html

 友情链接:直通硅谷  点职佳  北美留学生论坛

本站QQ群:前端 618073944 | Java 606181507 | Python 626812652 | C/C++ 612253063 | 微信 634508462 | 苹果 692586424 | C#/.net 182808419 | PHP 305140648 | 运维 608723728

W3xue 的所有内容仅供测试,对任何法律问题及风险不承担任何责任。通过使用本站内容随之而来的风险与本站无关。
关于我们  |  意见建议  |  捐助我们  |  报错有奖  |  广告合作、友情链接(目前9元/月)请联系QQ:27243702 沸活量
皖ICP备17017327号-2 皖公网安备34020702000426号