一种文档主题生成方法和装置

基本信息

申请号 CN201611089622.1 申请日 -
公开(公告)号 CN106776547B 公开(公告)日 2020-02-07
申请公布号 CN106776547B 申请公布日 2020-02-07
分类号 G06F40/258;G06F40/284;G06F40/289;G06F40/30 分类 计算;推算;计数;
发明人 董从娇;龚珊珊;滕一勤 申请(专利权)人 北京先进数通信息技术股份公司
代理机构 北京润泽恒知识产权代理有限公司 代理人 苏培华
地址 100089 北京市海淀区车道沟1号滨河大厦D座六层
法律状态 -

摘要

摘要 本发明实施例提供了一种文档主题生成方法和装置。所述方法包括:对文档集合的文档进行分词并提取出词语,统计表征所有提取的词语中两两之间的语义相关性的词间关系数据,统计表征每个词语在每个文档中的重要性的词语文档关系数据,迭代更新所述文档主题关系数据、词语主题关系数据和调整因子达到设定结束条件,以迭代更新得到的词语主题关系数据生成文档集合的文档主题。由此本发明使得最后生成的词语主题关系数据由词语文档关系数据和词间关系数据共同约束,实现了文档主题生成过程兼顾词语之间的语义关系,提高了文档主题生成的准确性。