经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
当前位置:技术经验 » 程序设计 » Python » 查看文章
Python爬虫抓取智联招聘(基础版)
来源:cnblogs  作者:Pythonbiubiubiu  时间:2019/11/12 8:49:35  对本文有异议

前言

文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者: C与Python实战

PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

http://note.youdao.com/noteshare?id=3054cce4add8a909e784ad934f956cef

对于每个上班族来说,总要经历几次换工作,如何在网上挑到心仪的工作?如何提前为心仪工作的面试做准备?今天我们来抓取智联招聘的招聘信息,助你换工作成功!

  • 运行平台: Windows

  • Python版本: Python3.6

  • IDE: Sublime Text

  • 其他工具: Chrome浏览器

1、网页分析

1.1 分析请求地址

以北京海淀区的python工程师为例进行网页分析。打开智联招聘首页,选择北京地区,在搜索框输入"python工程师",点击"搜工作":

在这里插入图片描述

接下来跳转到搜索结果页面,按"F12"打开开发者工具,然后在"热门地区"栏选择"海淀",我们看一下地址栏: 在这里插入图片描述

由地址栏后半部分searchresult.ashx?jl=北京&kw=python工程师&sm=0&isfilter=1&p=1&re=2005可以看出,我们要自己构造地址了。接下来要对开发者工具进行分析,按照如图所示步骤找到我们需要的数据:Request Headers和Query String Parameters 在这里插入图片描述 构造请求地址:

  1. 1 paras = {
  2. 2 'jl': '北京', # 搜索城市
  3. 3 'kw': 'python工程师', # 搜索关键词
  4. 4 'isadv': 0, # 是否打开更详细搜索选项
  5. 5 'isfilter': 1, # 是否对结果过滤
  6. 6 'p': 1, # 页数
  7. 7 're': 2005 # region的缩写,地区,2005代表海淀
  8. 8 }
  9. 9 ?
  10. 10 url = 'https://sou.zhaopin.com/jobs/searchresult.ashx?' + urlencode(paras)

 

请求头:

  1. 1 headers = {
  2. 2 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
  3. 3 'Host': 'sou.zhaopin.com',
  4. 4 'Referer': 'https://www.zhaopin.com/',
  5. 5 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
  6. 6 'Accept-Encoding': 'gzip, deflate, br',
  7. 7 'Accept-Language': 'zh-CN,zh;q=0.9'
  8. 8 }

 

1.2 分析有用数据

接下来我们要分析有用数据,从搜索结果中我们需要的数据有:职位名称、公司名称、公司详情页地址、职位月薪:

在这里插入图片描述

通过网页元素定位找到这几项在HTML文件中的位置,如下图所示:

在这里插入图片描述

用正则表达式对这四项内容进行提取:

  1. # 正则表达式进行解析
  2. pattern = re.compile('<a style=.*? target="_blank">(.*?)</a>.*?' # 匹配职位信息
  3. '<td class="gsmc"><a href="(.*?)" target="_blank">(.*?)</a>.*?' # 匹配公司网址和公司名称
  4. '<td class="zwyx">(.*?)</td>', re.S) # 匹配月薪
  5. ?
  6. # 匹配所有符合条件的内容
  7. items = re.findall(pattern, html)

 

注意:解析出来的部分职位名称带有标签,如下图所示:

在这里插入图片描述

那么在解析之后要对该数据进行处理剔除标签,用如下代码实现:

  1. for item in items:
  2. job_name = item[0]
  3. job_name = job_name.replace('<b>', '')
  4. job_name = job_name.replace('</b>', '')
  5. yield {
  6. 'job': job_name,
  7. 'website': item[1],
  8. 'company': item[2],
  9. 'salary': item[3]
  10. }

 

2、写入文件

我们获取到的数据每个职位的信息项都相同,可以写到数据库中,但是本文选择了csv文件,以下为百度百科解释:

逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据

由于python内置了csv文件操作的库函数,所以很方便:

  1. import csv
  2. def write_csv_headers(path, headers):
  3. '''
  4. 写入表头
  5. '''
  6. with open(path, 'a', encoding='gb18030', newline='') as f:
  7. f_csv = csv.DictWriter(f, headers)
  8. f_csv.writeheader()
  9. ?
  10. def write_csv_rows(path, headers, rows):
  11. '''
  12. 写入行
  13. '''
  14. with open(path, 'a', encoding='gb18030', newline='') as f:
  15. f_csv = csv.DictWriter(f, headers)
  16. f_csv.writerows(rows)

 

3、进度显示

要想找到理想工作,一定要对更多的职位进行筛选,那么我们抓取的数据量一定很大,几十页、几百页甚至几千页,那么我们要掌握抓取进度心里才能更加踏实啊,所以要加入进度条显示功能。

本文选择tqdm 进行进度显示,来看一下酷炫结果(图片来源网络):

在这里插入图片描述

执行以下命令进行安装:

  1. pip install tqdm
  1. 简单示例:
  1. from tqdm import tqdm
  2. from time import sleep
  3. ?
  4. for i in tqdm(range(1000)):
  5. sleep(0.01)

 

4、完整代码

以上是所有功能的分析,如下为完整代码:

  1. 1 #-*- coding: utf-8 -*-
  2. 2 import re
  3. 3 import csv
  4. 4 import requests
  5. 5 from tqdm import tqdm
  6. 6 from urllib.parse import urlencode
  7. 7 from requests.exceptions import RequestException
  8. 8 ?
  9. 9 def get_one_page(city, keyword, region, page):
  10. 10 '''
  11. 11 获取网页html内容并返回
  12. 12 '''
  13. 13 paras = {
  14. 14 'jl': city, # 搜索城市
  15. 15 'kw': keyword, # 搜索关键词
  16. 16 'isadv': 0, # 是否打开更详细搜索选项
  17. 17 'isfilter': 1, # 是否对结果过滤
  18. 18 'p': page, # 页数
  19. 19 're': region # region的缩写,地区,2005代表海淀
  20. 20 }
  21. 21 ?
  22. 22 headers = {
  23. 23 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
  24. 24 'Host': 'sou.zhaopin.com',
  25. 25 'Referer': 'https://www.zhaopin.com/',
  26. 26 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
  27. 27 'Accept-Encoding': 'gzip, deflate, br',
  28. 28 'Accept-Language': 'zh-CN,zh;q=0.9'
  29. 29 }
  30. 30 ?
  31. 31 url = 'https://sou.zhaopin.com/jobs/searchresult.ashx?' + urlencode(paras)
  32. 32 try:
  33. 33 # 获取网页内容,返回html数据
  34. 34 response = requests.get(url, headers=headers)
  35. 35 # 通过状态码判断是否获取成功
  36. 36 if response.status_code == 200:
  37. 37 return response.text
  38. 38 return None
  39. 39 except RequestException as e:
  40. 40 return None
  41. 41 ?
  42. 42 def parse_one_page(html):
  43. 43 '''
  44. 44 解析HTML代码,提取有用信息并返回
  45. 45 '''
  46. 46 # 正则表达式进行解析
  47. 47 pattern = re.compile('<a style=.*? target="_blank">(.*?)</a>.*?' # 匹配职位信息
  48. 48 '<td class="gsmc"><a href="(.*?)" target="_blank">(.*?)</a>.*?' # 匹配公司网址和公司名称
  49. 49 '<td class="zwyx">(.*?)</td>', re.S) # 匹配月薪
  50. 50 ?
  51. 51 # 匹配所有符合条件的内容
  52. 52 items = re.findall(pattern, html)
  53. 53 ?
  54. 54 for item in items:
  55. 55 job_name = item[0]
  56. 56 job_name = job_name.replace('<b>', '')
  57. 57 job_name = job_name.replace('</b>', '')
  58. 58 yield {
  59. 59 'job': job_name,
  60. 60 'website': item[1],
  61. 61 'company': item[2],
  62. 62 'salary': item[3]
  63. 63 }
  64. 64 ?
  65. 65 def write_csv_file(path, headers, rows):
  66. 66 '''
  67. 67 将表头和行写入csv文件
  68. 68 '''
  69. 69 # 加入encoding防止中文写入报错
  70. 70 # newline参数防止每写入一行都多一个空行
  71. 71 with open(path, 'a', encoding='gb18030', newline='') as f:
  72. 72 f_csv = csv.DictWriter(f, headers)
  73. 73 f_csv.writeheader()
  74. 74 f_csv.writerows(rows)
  75. 75 ?
  76. 76 def write_csv_headers(path, headers):
  77. 77 '''
  78. 78 写入表头
  79. 79 '''
  80. 80 with open(path, 'a', encoding='gb18030', newline='') as f:
  81. 81 f_csv = csv.DictWriter(f, headers)
  82. 82 f_csv.writeheader()
  83. 83 ?
  84. 84 def write_csv_rows(path, headers, rows):
  85. 85 '''
  86. 86 写入行
  87. 87 '''
  88. 88 with open(path, 'a', encoding='gb18030', newline='') as f:
  89. 89 f_csv = csv.DictWriter(f, headers)
  90. 90 f_csv.writerows(rows)
  91. 91 ?
  92. 92 def main(city, keyword, region, pages):
  93. 93 '''
  94. 94 主函数
  95. 95 '''
  96. 96 filename = 'zl_' + city + '_' + keyword + '.csv'
  97. 97 headers = ['job', 'website', 'company', 'salary']
  98. 98 write_csv_headers(filename, headers)
  99. 99 for i in tqdm(range(pages)):
  100. 100 '''
  101. 101 获取该页中所有职位信息,写入csv文件
  102. 102 '''
  103. 103 jobs = []
  104. 104 html = get_one_page(city, keyword, region, i)
  105. 105 items = parse_one_page(html)
  106. 106 for item in items:
  107. 107 jobs.append(item)
  108. 108 write_csv_rows(filename, headers, jobs)
  109. 109 ?
  110. 110 if __name__ == '__main__':
  111. 111 main('北京', 'python工程师', 2005, 10)

 

上面代码执行效果如图所示:

在这里插入图片描述

执行完成后会在py同级文件夹下会生成名为:zl北京python工程师.csv的文件,打开之后效果如下: 在这里插入图片描述 .

原文链接:http://www.cnblogs.com/qun821460695/p/11834388.html

 友情链接:直通硅谷  点职佳  北美留学生论坛

本站QQ群:前端 618073944 | Java 606181507 | Python 626812652 | C/C++ 612253063 | 微信 634508462 | 苹果 692586424 | C#/.net 182808419 | PHP 305140648 | 运维 608723728

W3xue 的所有内容仅供测试,对任何法律问题及风险不承担任何责任。通过使用本站内容随之而来的风险与本站无关。
关于我们  |  意见建议  |  捐助我们  |  报错有奖  |  广告合作、友情链接(目前9元/月)请联系QQ:27243702 沸活量
皖ICP备17017327号-2 皖公网安备34020702000426号