一种基于自然语义分析的用例提取方法

基本信息

申请号 CN201710223135.8 申请日 -
公开(公告)号 CN107038229B 公开(公告)日 2020-07-17
申请公布号 CN107038229B 申请公布日 2020-07-17
分类号 G06F16/332;G06F16/33;G06F40/30;G06F16/36 分类 计算;推算;计数;
发明人 康雁;柳青;王珺;张颜淞;林英;刘宇;岳远泽;丁玉锋 申请(专利权)人 泰盈科技集团股份有限公司
代理机构 北京科亿知识产权代理事务所(普通合伙) 代理人 汤东凤
地址 271000 山东省泰安市泰安高新区中天门大街1366号
法律状态 -

摘要

摘要 本发明属于数据处理技术领域,公开了一种基于自然语义分析的用例提取方法,用例提取方法包括:通过大量相关专业需求文档,训练属于自己领域的词库;对词库精度进行优化,排除干扰分词结果的错误词汇;运用相关领域的语料库进行分词,并标识出用例以及参与者;在分词的基础上提取句子主干,并建立基于语义分析的语义树;针对提取的句子主干通过模型匹配进行用例的识别以及提取。本发明新词发现算法利用三个特性很好的对所需要的新词进行了提取,在机器学习过程中,进行了大量的参数调控等,同时也进行了大量的样本学习,归纳出5类汉语语法模型,从而实现用例提取及参与者的匹配,最终准确度确定在95%以上。