经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
当前位置:技术经验 » 程序设计 » Python3 » 查看文章
Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】
来源:jb51  时间:2018/12/12 9:30:42  对本文有异议

本文实例讲述了Python3实现爬取简书首页文章标题和文章链接的方法。分享给大家供大家参考,具体如下:

  1. from urllib import request
  2. from bs4 import BeautifulSoup #Beautiful Soup是一个可以从HTML或XML文件中提取结构化数据的Python库
  3. #构造头文件,模拟浏览器访问
  4. url="http://www.jianshu.com"
  5. headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
  6. page = request.Request(url,headers=headers)
  7. page_info = request.urlopen(page).read().decode('utf-8')#打开Url,获取HttpResponse返回对象并读取其ResposneBody
  8. # 将获取到的内容转换成BeautifulSoup格式,并将html.parser作为解析器
  9. soup = BeautifulSoup(page_info, 'html.parser')
  10. # 以格式化的形式打印html
  11. #print(soup.prettify())
  12. titles = soup.find_all('a', 'title')# 查找所有a标签中class='title'的语句
  13. '''''
  14. # 打印查找到的每一个a标签的string和文章链接
  15. for title in titles:
  16. print(title.string)
  17. print("http://www.jianshu.com" + title.get('href'))
  18. '''
  19. #open()是读写文件的函数,with语句会自动close()已打开文件
  20. with open(r"D:\articles.txt","w") as file: #在磁盘以只写的方式打开/创建一个名为 articles 的txt文件
  21. for title in titles:
  22. file.write(title.string+'\n')
  23. file.write("http://www.jianshu.com" + title.get('href')+'\n\n')
  24.  

本机测试运行结果如下:

更多关于Python相关内容可查看jb51专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总

希望本文所述对大家Python程序设计有所帮助。

 友情链接:直通硅谷  点职佳  北美留学生论坛

本站QQ群:前端 618073944 | Java 606181507 | Python 626812652 | C/C++ 612253063 | 微信 634508462 | 苹果 692586424 | C#/.net 182808419 | PHP 305140648 | 运维 608723728

W3xue 的所有内容仅供测试,对任何法律问题及风险不承担任何责任。通过使用本站内容随之而来的风险与本站无关。
关于我们  |  意见建议  |  捐助我们  |  报错有奖  |  广告合作、友情链接(目前9元/月)请联系QQ:27243702 沸活量
皖ICP备17017327号-2 皖公网安备34020702000426号