基于汉字笔画的汉语短文本相似度检测方法及系统

基本信息

申请号 CN201910877967.0 申请日 -
公开(公告)号 CN110674859A 公开(公告)日 2020-01-10
申请公布号 CN110674859A 申请公布日 2020-01-10
分类号 G06K9/62(2006.01); G06K9/68(2006.01); G06K9/20(2006.01) 分类 计算;推算;计数;
发明人 王路; 王颖娜; 张金生; 魏俊华 申请(专利权)人 智阳网络技术(上海)有限公司
代理机构 上海宏京知识产权代理事务所(普通合伙) 代理人 智阳网络技术(上海)有限公司
地址 201802 上海市嘉定区银翔路655号610室
法律状态 -

摘要

摘要 本发明公开了人工智能自然语言处理技术领域的基于汉字笔画的汉语短文本相似度检测方法及系统,包括:一、判断当前输入汉字是否属于笔画笔顺编码库;二、在步骤一中输入的汉字位于笔画笔顺编码库中时,直接对OCR生成文本与源文件进行编码;三、在步骤一中输入的汉字在笔画笔顺编码库中缺失时,先构建该汉字的笔画笔顺编码,然后将构建的笔画笔顺编码加入到笔画笔顺编码库中,再对OCR生成文本与源文件进行编码;四、计算OCR生成文本与源文件之间的相似性。本发明能够大幅改善OCR生成文本的质量,通过笔画笔顺信息计算短文本的相似性推测OCR生成文本的源文本,并利用源文本对OCR生成文本进行修复;提高了汉语短文本分类的精度,改善汉语短文本的分类效果。