基于深度预训练神经网络的中文医疗同义词聚类方法专利查询专利号|摘要-满商公司网

基于深度预训练神经网络的中文医疗同义词聚类方法

基本信息

摘要

摘要	本发明公开了一种基于深度预训练神经网络的中文医疗同义词聚类方法。1）将公开的中文医疗数据集中的同义词进行分类后构建得到同义词簇集C；2）基于步骤1）构建的同义词簇集C生成模型训练数据集：3）构建set‑instance神经网络模型；4）训练set‑instance神经网络模型；5）使用训练好的神经网络模型对候选词集进行聚类，生成候选同义词簇集。6）使用训练好的神经网络模型对候选同义词簇集进行合并，生成最终的同义词簇集。本发明将先验知识通过预训练模型的形式引入到set‑instance神经网络模型中，解决了词汇缺乏上下文语境的问题；此外，本发明可以利用训练好的神经网络模型对候选词进行聚类操作。