发信人: sioungiep (老实的苦力熊), 信区: SearchEngineTech 标  题: Re: 求大规模文本相似性计算方法 发信站: 水木社区 (Fri Feb 15 10:16:18 2008), 站内 据一位原百度员工对我说,百度新闻消重的方法很简单。 两篇新闻,各将最长的句子找出来,比较之,相同的就说明两篇新闻相同。 此方法相当快,也相当准。