Archives for 搜索引擎技术

RSS在线阅读器抓取速度分析

各大RSS在线阅读器抓取速度分析,由快到慢: Google Reader、QQ阅读空间、鲜果、抓虾、九点。

博客搜索点评

今天因为要搜索一下毅行相关的博客文章,试用了一下几款博客搜索产品。 [推荐]百度博客搜索、搜搜博客搜索:查准率和查全率都不错。 [一般]114博客搜索:查全率还行,就是无效文章比较多。google博客搜索,只能说一般啦。 [无用]搜狗博客搜索、有道博客搜索、新浪社区搜索、九点博客搜索。

《互联网认识经验分享》摘录

PPT作者askthesky,PPT连同现场录音可在下列地址下载: http://www.newsmth.net/bbscon.php?bid=715&id=15469 http://www.newsmth.net/bbscon.php?bid=715&id=15470 本文是PPT的摘录。 爬虫死循环和重复 爬虫简介 像人一样在互联网闲逛 爬虫难点举例 新页面、站点发现 包括抓新的,和更新的check 流量压力控制 黑洞检测 重复检测 抓取前就要能判断 靠的是先验数据的挖掘:无效参数,alias等 简介Ranking因素 用户满意是王道。谈点基础: 内容相关性 超链相关性 超链、站点权威性(PR)、质量 时效性 如何综合 准、好、新、全、快 SEO搜索引擎优化 判断质量,也是综合考虑。低->高、高->低、页->站、站->页、TF、超链、trustrank、流量、异常,多管齐下 是使SE更方便理解自己网站的友好行为 互联网也相当满足“自信心法则” 但过度SEO影响公平 搜索策略总在变,用户满意是永恒的追求 选择不择手段只为盈利,就注定了很难成功,并且没有一个有效的方法让你确保成功。 Spam的本质是成本之争 Spam让人头痛的是鱼龙混杂 当我们做好了用户,盈利将纷至沓来 数据说话 数据是衡量工作的标准 怎么做评估?怎么客观?(产品助理的工作) 我们怎么做调研,确定问题,迭代,怎么抽样,调整后怎么验证? 拿到很多数据,怎么分析? 高端用户vs小众需求 要做一个新产品的三个衡量准则:有需求、有优势、有利益。 谁都是第一,只要找到自己的关键词 比如我就很佩服淘宝支付宝时间差的盈利模式 但点子并不是竞争壁垒,也不能卖,因为一旦听说谁都能理解 竞争力还是要看具体技术和运营能力 继续讨论 做领域专家型聊天机器人? 用户行为挖掘(兴趣点),不知所云时推送广告(顾左右而言它) 考虑用贴吧热吧分类

2009年伊始考验各大网站更新能力

下面是2009年元月1日1:00前后访问各大网站获取其最下面版权所有copy200_的年份情况。赞百度、教育科研网、中国日报的更新速度! 2007 工业信息化部ICP/IP地址信息备案管理系统 www.miibeian.gov.cn 无   人力资源和社会保障部 www.mohrss.gov.cn 无   北京市工商行政管理局(红盾) www.hd315.gov.cn 无   商务部 www.mofcom.gov.cn 2008 人民网 www.people.com.cn 无   光明网 www.gmw.cn 无   新浪网 www.sina.com.cn 2009 百度 www.baidu.com 无   搜狐 www.sohu.com 2008 谷歌中国 www.google.cn 2008 雅虎中国 cn.yahoo.com 2008 中央人民政府网  www.gov.cn 无   科学技术部  www.most.gov.cn 无   教育部 www.moe.edu.cn 无   央视国际 www.cctv.com 2008 新华网 www.xinhuanet.com 2009 中国日报 www.chinadaily.com.cn 2009 中国教育和科研计算机网 edu.cn […]

百度是这样消重的

发信人: sioungiep (老实的苦力熊), 信区: SearchEngineTech 标  题: Re: 求大规模文本相似性计算方法 发信站: 水木社区 (Fri Feb 15 10:16:18 2008), 站内 据一位原百度员工对我说,百度新闻消重的方法很简单。 两篇新闻,各将最长的句子找出来,比较之,相同的就说明两篇新闻相同。 此方法相当快,也相当准。

发现五个搜索引擎系统

今天发现的五个搜索引擎系统: 龙蛛搜索 http://www.51kdv.com/ 深蓝搜索引擎 http://www.darkbluesoft.com K风网页搜索引擎系统 K-PageSearch Engine http://www.kwindsoft.com/ 射日搜索 http://www.shootsoft.net/ Sphider 轻量级搜索引擎 http://www.smf.cn/bbs/index.php/topic,114.0.html http://www.sphider.eu/