一种基于字和词的语言特征提取装置及方法

基本信息

申请号 CN202110958909.8 申请日 -
公开(公告)号 CN113591471A 公开(公告)日 2021-11-02
申请公布号 CN113591471A 申请公布日 2021-11-02
分类号 G06F40/284(2020.01)I;G06F40/205(2020.01)I;G06F40/151(2020.01)I;G06N3/04(2006.01)I;G06N3/08(2006.01)I 分类 计算;推算;计数;
发明人 曾祥云;朱姬渊 申请(专利权)人 上海易康源医疗健康科技有限公司
代理机构 上海硕力知识产权代理事务所(普通合伙) 代理人 杨松城
地址 200120 上海市浦东新区中国(上海)自由贸易试验区临港新片区新杨公路860号10幢
法律状态 -

摘要

摘要 本发明公开一种基于字和词的语言特征提取装置及方法,其语言特征提取装置包括数据处理模块、表征模块、特征抽取模块、目标函数模块,其中:数据处理模块用以将输入文本进行处理,得到输入数据;表征模块用以对输入数据进行映射,得到字向量集和词向量集;特征抽取模块用以对字向量集和词向量集进行分析,得到语言特征提取装置分析需要的特征;目标函数模块设置合适语言特征提取装置的目标函数,用以评价语言特征提取装置。本发明的语言特征提取装置及方法,在样本量不大的条件下,尤其对于具有很少数据集的特殊领域里,也能具有较高的泛化能力,降低了公司训练语言模型的难度和成本。