文本处理方法及装置

基本信息

申请号 CN201910346113.X 申请日 -
公开(公告)号 CN110110328A 公开(公告)日 2019-08-09
申请公布号 CN110110328A 申请公布日 2019-08-09
分类号 G06F17/27 分类 计算;推算;计数;
发明人 靳彦召 申请(专利权)人 北京零秒科技有限公司
代理机构 北京卓唐知识产权代理有限公司 代理人 北京零秒科技有限公司
地址 100089 北京市海淀区上地信息路12号1幢2层E206室
法律状态 -

摘要

摘要 本申请公开了一种文本处理方法及装置。该方法包括获取短文本语料,按照预设格式部署每条短文本并将所有所述短文本作为一个目标文档;统计所述目标文档中每个词出现的词频以及所述目标文档中所有词的词频总和;根据所述词频和所述词频总和,计算得到所述词的词权重。本申请解决了短文本处理效果不佳的技术问题。通过本申请可较好地识别出短文本中的重点词汇。此外,本申请适用于自然文本处理场景。