视频1 视频21 视频41 视频61 视频文章1 视频文章21 视频文章41 视频文章61 推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37 推荐39 推荐41 推荐43 推荐45 推荐47 推荐49 关键词1 关键词101 关键词201 关键词301 关键词401 关键词501 关键词601 关键词701 关键词801 关键词901 关键词1001 关键词1101 关键词1201 关键词1301 关键词1401 关键词1501 关键词1601 关键词1701 关键词1801 关键词1901 视频扩展1 视频扩展6 视频扩展11 视频扩展16 文章1 文章201 文章401 文章601 文章801 文章1001 资讯1 资讯501 资讯1001 资讯1501 标签1 标签501 标签1001 关键词1 关键词501 关键词1001 关键词1501 专题2001
如何制作一个Node命令行图像识别工具
2020-11-27 22:02:40 责编:小采
文档

从 0 开始制作一个 NodeJS 命令行验证码识别工具。实现如下效果。

 

初始化项目

# 创建 recognition 项目
mkdir recognition
cd recognition
npm init -y

# 安装主依赖
yarn add images tesseract.js

# 安装工具依赖
yarn add chalk yargs

# 可选依赖
yarn add socks5-http-client

依赖说明

images :Node.js 轻量级跨平台图像编码库,用于处理下载下来的图片

tesseract.js :纯 JS 实现的 OCR(光学字符识别)工具,用于图像内容识别

chalk :让命令行内容样式好看

yargs :命令行参数解析器

socks5-http-client :SOCKS v5,用于设置代理,在需要拉取某些不能直接访问的资源时使用, request proxy 例子

项目准备

新建 cli.js

通常命令行工具入口名字为 cli.js ,我们新建一个 cli.js 文件,并在开头写上:

#!/usr/bin/env node

这样,我们告诉 *nix 系统,JavaScript 文件的解释器应该是 /usr/bin/env node ,它查找本地安装的 node

配置 bin

// package.json
{
 "bin": {
 "reg": "./cli.js"
 }
}

这样配置完成后,别人 npm install -g @chenng/recognition 的包,就可以直接通过命令行运行了:

reg --url=https://static.chenng.cn/imgs/test_img.png

link 本地开发

我们如何能够在本地可以使用 rec 命令呢?只需要把本项目 link 即可:

yarn link

核心逻辑

主要逻辑在 cli.jsrecognize.js 中。这里有几个注意点:

  • request 图片的时候要设置 encoding: null,否则返回的是乱码
  • 初次使用的时候需要下载训练集,需要花点时间
  • const Tesseract = require('tesseract.js');
    const images = require('images');
    const requset = require('request');
    const fs = require('fs');
    const { promisify } = require('util');
    const chalk = require('chalk');
    
    const writeFile = promisify(fs.writeFile);
    const rp = promisify(requset);
    
    class Recognize {
     constructor(url) {
     Recognize.downloadDir = `${__dirname}/dist/`;
     Recognize.downloadFile = `${__dirname}/dist/temp.png`;
     this.url = url;
     this.start();
     }
    
     async start() {
     const data = await this.downloadImg();
     await writeFile(Recognize.downloadFile, data);
     this.recognize();
     const result = await Tesseract.recognize(Recognize.downloadFile, {
     lang: 'eng',
     tessedit_char_blacklist: 'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ',
     });
    
     console.log(`
    
     识别成功!
     识别
    结果为:${chalk.green(result.text)} `); } async downloadImg() { if (!fs.existsSync(Recognize.downloadDir)) { fs.mkdirSync(Recognize.downloadDir); console.log(`创建了 ${Recognize.downloadDir} 文件夹`); } const res = await rp({ url: this.url, method: 'GET', encoding: null, }); return res.body; } recognize() { // 放大图片,并覆盖源文件 images(Recognize.downloadFile) .size(400) .save(Recognize.downloadFile); } } module.exports = Recognize;

    具体可以查看源码仓库: https://github.com/ringcrl/recognition

    发布上线

    # 新建代码仓库,git push
    
    # 登录到 npm
    npm adduser
    
    # 发包
    npm publish --access public
    
    # 全局安装
    npm install -g @chenng/recognition
    

     

    下载本文
    显示全文
    专题