一种政策公文标题相似度计算方法
基本信息
申请号 | CN202110950532.1 | 申请日 | - |
公开(公告)号 | CN114186058A | 公开(公告)日 | 2022-03-15 |
申请公布号 | CN114186058A | 申请公布日 | 2022-03-15 |
分类号 | G06F16/35(2019.01)I;G06F40/194(2020.01)I;G06F40/258(2020.01)I;G06F40/295(2020.01)I;G06F40/30(2020.01)I;G06K9/62(2022.01)I | 分类 | 计算;推算;计数; |
发明人 | 熊子奇;夏志超;孔德智;薛彦凯;谭敏;洒科进 | 申请(专利权)人 | 中电科大数据研究院有限公司 |
代理机构 | 贵州派腾知识产权代理有限公司 | 代理人 | 宋妍丽 |
地址 | 550000贵州省贵阳市贵阳国家高新技术产业开发区金阳科技产业园黎阳大厦 | ||
法律状态 | - |
摘要
摘要 | 本发明提供了一种政策公文标题相似度计算方法,包含以下步骤:数据清洗‑标题处理‑业务关键词生成‑业务聚类‑总体相似度计算‑人工修正‑triplet数据集构造‑模型训练。本发明基于关键词的自动聚类,极大减轻了深度学习所需的数据标注的工作量;利用人工干预最终的聚类结果,提升了最终的相似度计算结果和系统鲁棒性;采用预训练语言模型提升了系统计算的泛化能力和计算结果,通过triplet构造三角损失,进一步在减少标注数据的同时提升了模型精度。 |
