一种相似性度量的方法以及系统

基本信息

申请号 CN201410244544.2 申请日 -
公开(公告)号 CN104102691B 公开(公告)日 2017-11-07
申请公布号 CN104102691B 申请公布日 2017-11-07
分类号 G06F17/30(2006.01)I 分类 计算;推算;计数;
发明人 朱宝 申请(专利权)人 百度移信网络技术(北京)有限公司
代理机构 北京志霖律师事务所 代理人 潘士霖
地址 100085 北京市海淀区农大南路1号院4号楼4层401、402、403、405、407、408单元
法律状态 -

摘要

摘要 本发明涉及一种相似性度量的方法以及系统。所述相似性度量方法包括:数据获取步骤,获取集合a中的元素item_a和集合b中的元素item_b、以及集合a中的元素item_a对集合b中的元素item_b无差别的相似性操作次数sim(item_a,item_b);相似度计算步骤,执行基于下式的集合b内部元素item_bi与元素item_bj的相似性值sim’(Item_bi,Item_bj)的计算, <mfenced open='''' close=''''> <mtable> <mtr> <mtd> <msup> <mi>sim</mi> <mo>&prime;</mo> </msup> <mrow> <mo>(</mo> <mi>Item</mi> <mo>_</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>,</mo> <mi>Item</mi> <mo>_</mo> <msub> <mi>b</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> </mtd> </mtr> <mtr> <mtd> <mi>k</mi> <mo>*</mo> <munder> <mi>&Sigma;</mi> <mi>m</mi> </munder> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>sim</mi> <mrow> <mo>(</mo> <mi>Item</mi> <mo>_</mo> <msub> <mi>a</mi> <mi>m</mi> </msub> <mo>,</mo> <mi>Item</mi> <mo>_</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <mi>sim</mi> <mrow> <mo>(</mo> <mi>Item</mi> <mo>_</mo> <msub> <mi>a</mi> <mi>m</mi> </msub> <mo>,</mo> <mi>Item</mi> <mo>_</mo> <msub> <mi>b</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <munder> <mi>&Sigma;</mi> <mi>n</mi> </munder> <mi>sim</mi> <mrow> <mo>(</mo> <mi>Item</mi> <mo>_</mo> <msub> <mi>a</mi> <mi>m</mi> </msub> <mo>,</mo> <mi>Item</mi> <mo>_</mo> <msub> <mi>b</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <munder> <mi>&Sigma;</mi> <mi>n</mi> </munder> <mi>sim</mi> <mrow> <mo>(</mo> <mi>Item</mi> <mo>_</mo> <msub> <mi>a</mi> <mi>m</mi> </msub> <mo>,</mo> <mi>Item</mi> <mo>_</mo> <msub> <mi>b</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <mrow> <munder> <mi>&Sigma;</mi> <mi>n</mi> </munder> <mi>sim</mi> <mrow> <mo>(</mo> <mi>Item</mi> <mo>_</mo> <msub> <mi>a</mi> <mi>n</mi> </msub> <mo>,</mo> <mi>Item</mi> <mo>_</mo> <msub> <mi>b</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <munder> <mi>&Sigma;</mi> <mi>n</mi> </munder> <mi>sim</mi> <mrow> <mo>(</mo> <mi>Item</mi> <mo>_</mo> <msub> <mi>a</mi> <mi>n</mi> </msub> <mo>,</mo> <mi>Item</mi> <mo>_</mo> <msub> <mi>b</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> </mtd> </mtr> </mtable> </mfenced>其中,i,j,m,n表示集合中元素的标号,k是归一化因子。