一种基于字和词的语言特征提取装置及方法
基本信息
申请号 | CN202110958909.8 | 申请日 | - |
公开(公告)号 | CN113591471A | 公开(公告)日 | 2021-11-02 |
申请公布号 | CN113591471A | 申请公布日 | 2021-11-02 |
分类号 | G06F40/284(2020.01)I;G06F40/205(2020.01)I;G06F40/151(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I | 分类 | 计算;推算;计数; |
发明人 | 曾祥云;朱姬渊 | 申请(专利权)人 | 上海易康源医疗健康科技有限公司 |
代理机构 | 上海硕力知识产权代理事务所(普通合伙) | 代理人 | 杨松城 |
地址 | 200120 上海市浦东新区中国(上海)自由贸易试验区临港新片区新杨公路860号10幢 | ||
法律状态 | - |
摘要
摘要 | 本发明公开一种基于字和词的语言特征提取装置及方法,其语言特征提取装置包括数据处理模块、表征模块、特征抽取模块、目标函数模块,其中:数据处理模块用以将输入文本进行处理,得到输入数据;表征模块用以对输入数据进行映射,得到字向量集和词向量集;特征抽取模块用以对字向量集和词向量集进行分析,得到语言特征提取装置分析需要的特征;目标函数模块设置合适语言特征提取装置的目标函数,用以评价语言特征提取装置。本发明的语言特征提取装置及方法,在样本量不大的条件下,尤其对于具有很少数据集的特殊领域里,也能具有较高的泛化能力,降低了公司训练语言模型的难度和成本。 |
