中文文本纠错

常见错误原因及类型语音识别（ASR AutomaticSpeechRecognition）：谐音（眼镜->眼睛）、混淆音（流浪->牛郎）形近字：OCR｜五笔｜手写｜拼音（伍拾元->伍抬元，高粱->高梁）拼音全拼：shanghai->上海拼音缩写：sh->上海字词顺序颠倒字词补全语法错误一般流程错误识别生成纠正候选（召回率的保证）评价纠正候选（排序选择最可能的候选

北落师门XY

4538人浏览 · 2021-01-06 21:43:33

北落师门XY · 2021-01-06 21:43:33 发布

常见错误原因及类型

语音识别（ASR AutomaticSpeechRecognition）：谐音（眼镜->眼睛）、混淆音（流浪->牛郎）、方言

形近字：OCR｜五笔｜手写｜拼音（伍拾元->伍抬元，高粱->高梁）

拼音全拼：shanghai->上海

拼音缩写：sh->上海

拼音错误：咳数（ke shu）—> ke sou

字词顺序颠倒

字词补全

语法错误

口语化：呃嗯啊

分析场景错误类型很重要，比如在某比赛中常见错误可以归为4类：多词、缺词、错词、词序

一般流程

错误识别

生成纠正候选（召回率的保证）：近音字、近形字

评价纠正候选（排序选择最可能的候选，当比原句优秀时才做纠错）：计算句子概率

纠错方法

OCR纠错可利用的信息：

1、单个字符的置信度

2、笔画相似性

3、如为固定样式的票据、表格，可使用固定字段关键词表

4、语言模型

5、分词

6、领域词表

基于开源库

pycorrector

安装：pip3 install pycorrector

第一次import这个包，约需要4分钟自动下载模型

import pycorrector
corrected_sent, detail = pycorrector.correct('少先队员因该为老人让坐')
print(corrected_sent, detail)   # 少先队员应该为老人让座 [['因该', '应该', 4, 6], ['坐', '座', 10, 11]]
idx_errors = pycorrector.detect('少先队员因该为老人让坐')
print(idx_errors)   # [['因该', 4, 6, 'word'], ['坐', 10, 11, 'char']]

基于规则

Beam Search

利用原始CTC是贪心算法的特点，设计策略，使路径更合理。也可利用词汇的字典，约束搜索空间。包含

prefix Beam Search：

Vanilla Beam Search：前两种Beam search看起来差不多？？？都是取每个时间段的topN，用合并的概率，而不是单一路径的概率

Word Beam Search：基于词典树进行约束

合合信息对这些beam search方法的介绍如下，结论是“中文任务选择VBS而英文任务选择WBS较好。至于要不要引入LM的先验信息，可以视具体OCR任务决定”。实际中，beam search效果上限由ocr模型决定，比如我遇到的一个模型，最后输出的每个字符的概率基本都是0.99,也就是说错误字符的概率score都很高。

【技术新趋势】合合信息：文本纠错提升OCR任务准确率的方法_合合技术团队的博客-CSDN博客

四角编码（4-5位编码描述字形）

根据汉字左上、右上、左下、右下的四个角的笔形，转化为4-5位的阿拉伯数字编码

缺陷：由于编码空间较小，有些差异性很大的汉字，拥有同样或类似的编码，如量、日编码均为6010。

字符结构

有多种划分粒度，注意不同库的区别

词典树

对英文场景比较适用

基于模型

统计语言模型（Statistical Language Model）

文本为w1w2w3w4w5w6...wn的概率为：

$P(\omega_{1}, \omega _{2}, \ldots, \omega_{n})=P(\omega_{1})\cdot P(\omega_{1}|\omega_{2})\cdot P(\omega_{3}|\omega_{1},\omega_{2}) \ldots P(\omega_{n}|\omega_{1},\omega_{2} \ldots, \omega_{n-1})$