平行语料处理方法、装置、设备及计算机可读存储介质

基本信息

申请号 CN202011415780.8 申请日 -
公开(公告)号 CN112446224A 公开(公告)日 2021-03-05
申请公布号 CN112446224A 申请公布日 2021-03-05
分类号 G06F40/58(2020.01)I;G06F40/289(2020.01)I 分类 计算;推算;计数;
发明人 方恺齐;崔春来 申请(专利权)人 广州彩彻区明科技有限公司
代理机构 北京同立钧成知识产权代理有限公司 代理人 张娜;刘芳
地址 100089北京市海淀区中关村学院路768创意园区C-04
法律状态 -

摘要

摘要 本申请提供一种平行语料处理方法、装置、设备及计算机可读存储介质,该方法对目标平行语料进行分句操作,得到目标平行语料中原文文档的M句原文和译文文档的N句译文;对M句原文和N句译文进行编码,得到每句原文对应的一个向量和每句译文对应的一个向量;根据得到的向量,对目标平行语料进行分段操作,得到多个双语互译段;对每个双语互译段,进行对齐操作,得到目标平行语料的对齐结果,降低了工作量,提高了准确性和效率。