视频1 视频21 视频41 视频61 视频文章1 视频文章21 视频文章41 视频文章61 推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37 推荐39 推荐41 推荐43 推荐45 推荐47 推荐49 关键词1 关键词101 关键词201 关键词301 关键词401 关键词501 关键词601 关键词701 关键词801 关键词901 关键词1001 关键词1101 关键词1201 关键词1301 关键词1401 关键词1501 关键词1601 关键词1701 关键词1801 关键词1901 视频扩展1 视频扩展6 视频扩展11 视频扩展16 文章1 文章201 文章401 文章601 文章801 文章1001 资讯1 资讯501 资讯1001 资讯1501 标签1 标签501 标签1001 关键词1 关键词501 关键词1001 关键词1501 专题2001
Nodejs实现爬虫抓取数据实例解析
2020-11-27 22:12:05 责编:小采
文档


开始之前请先确保自己安装了Node.js环境,如果没有安装,大家可以到脚本之家下载安装。

1.在项目文件夹安装两个必须的依赖包

npm install superagent --save-dev

superagent 是一个轻量的,渐进式的ajax api,可读性好,学习曲线低,内部依赖nodejs原生的请求api,适用于nodejs环境下

npm install cheerio --save-dev

cheerio是nodejs的抓取页面模块,为服务器特别定制的,快速、灵活、实施的jQuery核心实现。适合各种Web爬虫程序。相当于node.js中的jQuery

2.新建  crawler.js  文件

//导入依赖包
const http = require("http");
const path = require("path");
const url = require("url");
const fs = require("fs");
const superagent = require("superagent");
const cheerio = require("cheerio");

3.获取 Boos直聘数据

superagent
 .get("https://www.zhipin.com/job_detail/?city=100010000&source=10&query=%E5%%8D%E7%AB%AF")
 .end((error,response)=>{
 //获取页面文档数据
 var content = response.text;
 //cheerio也就是nodejs下的jQuery 将整个文档包装成一个集合,定义一个变量$接收
 var $ = cheerio.load(content);
 //定义一个空数组,用来接收数据
 var result=[];
 //分析文档结构 先获取每个li 再遍历里面的内容(此时每个li里面就存放着我们想要获取的数据)
 $(".job-list li .job-primary").each((index,value)=>{
 //地址和类型为一行显示,需要用到字符串截取
 //地址
 let address=$(value).find(".info-primary").children().eq(1).html();
 //类型
 let type=$(value).find(".info-company p").html();
 //解码
 address=unescape(address.replace(/&#x/g,'%u').replace(/;/g,''));
 type=unescape(type.replace(/&#x/g,'%u').replace(/;/g,''))
 //字符串截取
 let addressArr=address.split('<em class="vline"></em>');
 let typeArr=type.split('<em class="vline"></em>');
 //将获取的数据以对象的形式添加到数组中
 result.push({
 title:$(value).find(".name .job-title").text(),
 money:$(value).find(".name .red").text(),
 address:addressArr,
 company:$(value).find(".info-company a").text(),
 type:typeArr,
 position:$(value).find(".info-publis .name").text(),
 txImg:$(value).find(".info-publis img").attr("src"),
 time:$(value).find(".info-publis p").text()
 });
 // console.log(typeof $(value).find(".info-primary").children().eq(1).html());
 });
 //将数组转换成字符串
 result=JSON.stringify(result);
 //将数组
输出到json文件里 刷新目录 即可看到当前文件夹多出一个boss.json文件(打开boss.json文件,ctrl+A全选之后 ctrl+K,再Ctrl+F即可将json文件自动排版) fs.writeFile("boss.json",result,"utf-8",(error)=>{ //监听错误,如正常输出,则打印null if(error==null){ console.log("恭喜您,数据爬取成功!请打开json文件,先Ctrl+A,再Ctrl+K,最后Ctrl+F格式化后查看json文件(仅限Visual Studio Code编辑器)"); } }); });  

总结

以上所述是小编给大家介绍的Nodejs实现爬虫抓取数据,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对脚本之家网站的支持!

下载本文
显示全文
专题