经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
当前位置:技术经验 » HTML/CSS » HTML5 » 查看文章
nodeJS实现简易爬虫
来源:cnblogs  作者:smile_or  时间:2019/8/29 8:47:54  对本文有异议

nodeJS实现简易爬虫

需求:使用nodeJS爬取昵图网某个分类下的图片并存入本地

  • 运用nodeJS自带系统模块http、fs

    示例代码:

  1. var http =require('http');
  2. var fs =require('fs');
  3. var curentPage=1; //当前图片页数
  4. var maxcurentPage=5;//最大页数
  5. //获取图片地址
  6. function getData(){
  7. let url = 'http://www.nipic.com/photo/xiandai/jiaotong/index.html?page='+curentPage
  8. http.get(url,(res)=>{
  9. var data = '';
  10. res.on('data',(a)=>{
  11. data+=a.toString();
  12. })
  13. res.on('end',()=>{
  14. let reg = /<img src="(.+?)" data-src="(.*?)" alt="(.*?)" \/>/g
  15. let arr=[];
  16. while (reg.exec(data)){
  17. arr.push(reg.exec(data)[2]);
  18. }
  19. for(i in arr){
  20. (function(i){
  21. setTimeout(()=>{
  22. getImg(arr[i])
  23. },500*i)
  24. })(i)
  25. }
  26. if (curentPage < maxcurentPage){
  27. curentPage++;
  28. arguments.callee();
  29. }
  30. })
  31. })
  32. }
  33. //图片写入img文件夹
  34. function getImg(url){
  35. let u = url.replace(/\/pic\//,'/file/')
  36. .replace(/_4.jpg/,'_2.jpg');
  37. http.get(u,(res)=>{
  38. let name = new Date().getTime();
  39. let stream = fs.createWriteStream('./img/' + name + '.png');
  40. res.pipe(stream);
  41. })
  42. }
  43. getData();

原文链接:http://www.cnblogs.com/sgs123/p/11425008.html

 友情链接:直通硅谷  点职佳  北美留学生论坛

本站QQ群:前端 618073944 | Java 606181507 | Python 626812652 | C/C++ 612253063 | 微信 634508462 | 苹果 692586424 | C#/.net 182808419 | PHP 305140648 | 运维 608723728

W3xue 的所有内容仅供测试,对任何法律问题及风险不承担任何责任。通过使用本站内容随之而来的风险与本站无关。
关于我们  |  意见建议  |  捐助我们  |  报错有奖  |  广告合作、友情链接(目前9元/月)请联系QQ:27243702 沸活量
皖ICP备17017327号-2 皖公网安备34020702000426号