平行语料处理方法、装置、设备及计算机可读存储介质
基本信息
申请号 | CN202011415780.8 | 申请日 | - |
公开(公告)号 | CN112446224A | 公开(公告)日 | 2021-03-05 |
申请公布号 | CN112446224A | 申请公布日 | 2021-03-05 |
分类号 | G06F40/58(2020.01)I;G06F40/289(2020.01)I | 分类 | 计算;推算;计数; |
发明人 | 方恺齐;崔春来 | 申请(专利权)人 | 广州彩彻区明科技有限公司 |
代理机构 | 北京同立钧成知识产权代理有限公司 | 代理人 | 张娜;刘芳 |
地址 | 100089北京市海淀区中关村学院路768创意园区C-04 | ||
法律状态 | - |
摘要
摘要 | 本申请提供一种平行语料处理方法、装置、设备及计算机可读存储介质,该方法对目标平行语料进行分句操作,得到目标平行语料中原文文档的M句原文和译文文档的N句译文;对M句原文和N句译文进行编码,得到每句原文对应的一个向量和每句译文对应的一个向量;根据得到的向量,对目标平行语料进行分段操作,得到多个双语互译段;对每个双语互译段,进行对齐操作,得到目标平行语料的对齐结果,降低了工作量,提高了准确性和效率。 |
