经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
当前位置:技术经验 » 程序设计 » Python3 » 查看文章
python3爬虫获取html内容及各属性值的方法
来源:jb51  时间:2018/12/18 9:16:43  对本文有异议

今天用到BeautifulSoup解析爬下来的网页数据

首先导入包from bs4 import BeautifulSoup

然后可以利用urllib请求数据

记得要导包

  1. import urllib.request

然后调用urlopen,读取数据

  1. f=urllib.request.urlopen(‘http://jingyan.baidu.com/article/455a9950bc94b8a166277898.html‘)
  2. response=f.read()

这里我们就不请求数据了,直接用本地的html代码,如下

注意:”'xxx”'是多行注释

  1. #python3
  2. from bs4 import BeautifulSoup
  3. html='''<html>
  4. <head>
  5. <title class='ceshi'>super 哈哈 star</title>
  6. </head>
  7. <body>
  8. 天下第一帅
  9. <p class='sister'>
  10.  
  11. 是不是
  12. </p>
  13. </body>
  14. </html>'''
  15. #用BeautifulSoup解析数据 python3 必须传入参数二'html.parser' 得到一个对象,接下来获取对象的相关属性
  16. html=BeautifulSoup(html,'html.parser')
  17. # 读取title内容
  18. print(html.title)
  19. # 读取title属性
  20. attrs=html.title.attrs
  21. print(attrs)
  22. # 获取属性attrs['class'] ---->['ceshi'] 这是一个list 通过下标可以获取值
  23. print(attrs['class'][0])
  24. # 读取body
  25. print(html.body)
  26. 读取数据还可以通过BeautifulSoupselect方法
  27. html.select()
  28. #按标签名查找
  29. soup.select('title')
  30. soup.select('body')
  31. # 按类名查找
  32. soup.select('.sister')
  33. # 按id名查找
  34. # p标签中id为link的标签
  35. soup.select('p #link')
  36. #取标签里面的值
  37. soup.p.string
  38. #取标签里属性值 通过href获取
  39. html['href']

以上这篇python3爬虫获取html内容及各属性值的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持w3xue。

 友情链接:直通硅谷  点职佳  北美留学生论坛

本站QQ群:前端 618073944 | Java 606181507 | Python 626812652 | C/C++ 612253063 | 微信 634508462 | 苹果 692586424 | C#/.net 182808419 | PHP 305140648 | 运维 608723728

W3xue 的所有内容仅供测试,对任何法律问题及风险不承担任何责任。通过使用本站内容随之而来的风险与本站无关。
关于我们  |  意见建议  |  捐助我们  |  报错有奖  |  广告合作、友情链接(目前9元/月)请联系QQ:27243702 沸活量
皖ICP备17017327号-2 皖公网安备34020702000426号