PPT作者askthesky,PPT连同现场录音可在下列地址下载: http://www.newsmth.net/bbscon.php?bid=715&id=15469 http://www.newsmth.net/bbscon.php?bid=715&id=15470 本文是PPT的摘录。 爬虫死循环和重复 爬虫简介 像人一样在互联网闲逛 爬虫难点举例 新页面、站点发现 包括抓新的,和更新的check 流量压力控制 黑洞检测 重复检测 抓取前就要能判断 靠的是先验数据的挖掘:无效参数,alias等 简介Ranking因素 用户满意是王道。谈点基础: 内容相关性 超链相关性 超链、站点权威性(PR)、质量 时效性 如何综合 准、好、新、全、快 SEO搜索引擎优化 判断质量,也是综合考虑。低->高、高->低、页->站、站->页、TF、超链、trustrank、流量、异常,多管齐下 是使SE更方便理解自己网站的友好行为 互联网也相当满足“自信心法则” 但过度SEO影响公平 搜索策略总在变,用户满意是永恒的追求 选择不择手段只为盈利,就注定了很难成功,并且没有一个有效的方法让你确保成功。 Spam的本质是成本之争 Spam让人头痛的是鱼龙混杂 当我们做好了用户,盈利将纷至沓来 数据说话 数据是衡量工作的标准 怎么做评估?怎么客观?(产品助理的工作) 我们怎么做调研,确定问题,迭代,怎么抽样,调整后怎么验证? 拿到很多数据,怎么分析? 高端用户vs小众需求 要做一个新产品的三个衡量准则:有需求、有优势、有利益。 谁都是第一,只要找到自己的关键词 比如我就很佩服淘宝支付宝时间差的盈利模式 但点子并不是竞争壁垒,也不能卖,因为一旦听说谁都能理解 竞争力还是要看具体技术和运营能力 继续讨论 做领域专家型聊天机器人? 用户行为挖掘(兴趣点),不知所云时推送广告(顾左右而言它) 考虑用贴吧热吧分类