一种实体词表示学习方法、装置、计算机设备及存储介质

基本信息

申请号 CN202010890302.6 申请日 -
公开(公告)号 CN111967252A 公开(公告)日 2020-11-20
申请公布号 CN111967252A 申请公布日 2020-11-20
分类号 G06F40/279;G06F40/35;G06F16/951 分类 计算;推算;计数;
发明人 李夏昕;孙璨;张永平 申请(专利权)人 深圳呗佬智能有限公司
代理机构 深圳市中融创智专利代理事务所(普通合伙) 代理人 叶垚平;李立
地址 518000 广东省深圳市南山区粤海街道海珠社区科苑南路2666号中国华润大厦L201
法律状态 -

摘要

摘要 本申请具体公开了一种实体词表示学习方法、装置、计算机设备及存储介质,该方法包括爬取互联网上公开的jd数据,以获取目标实体词t;将目标实体词t表示成和目标实体词t共现的实体词所组成的文档;用构建的文档训练tf‑idf模型;将文档在tf‑idf模型下的向量表示做L1归一,并做维度排序和维度截断;基于生成向量的维度值做采样,以构建embedding训练语料;用传统embedding模型在构建的语料上做训练,得到表示模型。