浅谈互联网页面价值.ppt

上传人:zhu****ei 文档编号:3410328 上传时间:2019-12-13 格式:PPT 页数:17 大小:327.81KB
返回 下载 相关 举报
浅谈互联网页面价值.ppt_第1页
第1页 / 共17页
浅谈互联网页面价值.ppt_第2页
第2页 / 共17页
浅谈互联网页面价值.ppt_第3页
第3页 / 共17页
点击查看更多>>
资源描述
浅谈互联网页面价值,齐家2013-7-18,课程提纲,一、什么页面价值二、为什么要研究页面价值三、如何判断页面价值1.受众2.稀缺3.质量4.时效性四、页面价值的研究重点五、页面价值在工作中的运用,一、什么页面价值,用户价值:某个页面满足了某一用户的特定需求,就体现了这个页面对用户的价值(对用户有用)检索价值:只要是能解决某个用户信息需求的,并且是可以通过某些正常检索需求到达的,那么就是有检索价值的。(能够搜索到的对用户有用的信息)只有浏览价值的页面:只有“浏览”价值,而没有到达该信息的检索途径,那么该资源可能是有价值的,但检索价值就很低。(例子:一张百度大厦附近的地图,并且没有任何周边文字说明(或者link的anchortext),只有一张光秃秃的地图)结论:通俗的说,页面价值就是指对用户有用,并且能够通过搜索找的页面。,一、什么页面价值,一个页面是否有检索价值,应该取决于两点:1)是否能解决某个特定的需求(价值)2)是否可以通过某个常规的搜索方式获得该信息(检索),二、为什么要研究页面价值,不可能抓取所有的互联网页面,所以需要优先抓取有价值的页面对于一个网站或一个IP抓取速率需要有一个抓取速率的上限。在这一限制下,抓取或页面更新就需要有一个先后顺序。对于这些无价值的页面,好的搜索引擎会在第一时间将其排除出索引,或在检索时对其进行屏蔽。(例子:对于某些页面,页面内容发生变化,导致它的检索价值从有到无。典型的就是变为“死链”,或者被黑”)以多快的速度收录和以多短的周期更新索引,需要通过页面价值的分析来指导,在相关性大体相当的情况下,用户更倾向与浏览普遍意义上页面价值高的网页对页面价值的认识和判断的准确程度直接影响着搜索引擎的覆盖率、死链率、时效性等几大主要指标。,三、如何判断页面价值,一个页面的检索价值,大致受以下四个要素的影响:1、感兴趣的受众群大小2、该页面的稀缺程度(可替代性)3、该页面的质量高低4、该页面的时效性特征强弱这四种要素,简称受众,稀缺,质量和时效性。例子:小学生张三qzone日记和李彦宏在i贴吧上发表一条十几个字的i贴受众例子:搜索某个人的手机号码稀缺例子:比如资源下载速度,页面的布局,广告的多寡。页面质量例子:有着“新闻”的特征。典型的像各种“门”事件,地震、火灾等大型的自然灾害。时效性,三、如何判断页面价值,1.受众(代表了用户检索需求的大小,评价受众的大小主要依据信息发布源的受众和信息内容本身受众两大方面。具体因素包括且不限于:)网站忠实用户群大小(拥有更多忠实用户群的网站上的内容,会比忠实用户群较少的网站上的内容,有更多的既有和潜在受众群。)资源分布规律相对于某些结构性关键页面(首页、频道页等)的链接深度,也可以成为衡量一个资源受众群大小的指标了。访问热门度(第三方的工具来获取关键数据。)超链(超链某种程度上也是受众群大小的反映。某个资源的质量越高,接触的受众群越大,那么获得正常链接的数量往往也越大。)内容特征当在发布源相同的情况下,具有公众属性的内容分值会更高。例子(A:我写博客:“传言郭德纲要上春晚了。”B:我写博客:“我今天吃早饭了。”),三、如何判断页面价值,2.稀缺(稀缺主要是描述页面在互联网中的独特性。)对于主体内容重复的页面,我们应该评价其是否存在站点增益和内容增益,只有对于大量完全无增益的重复页面,我们才应该认为其稀缺度较低。例子:稀缺是不等同于无重复:某人发表了一篇针对某新闻事件的原创博客,随后被新浪转载到了新闻频道。从描述的内容上讲,这是一种重复。但这种重复仅仅是主体内容上的重复,一方面它的转载带来了访问速度、稳定性等方面的增益,并且之后的检索用户还有可能用“新闻事件+新浪”来检索此新闻。这可以被称之为站点增益。另一方面,它在转载过程中可能会改变页面的标题,而且依托其受众,在转载页面上,还有可能出现更多的有价值评论和回复等,还有可能存在指向其它相关事件的新闻链接。这些可以被称之为内容增益。因此即使主题内容没有任何变化,新浪的这次转载也是有价值的,其稀缺度也是较高的。同样,反过来说,如果转载的网站相当不知名,则其无法带来站点名/稳定性/速度的增益。更有甚者,转载之后在页面上加入大量广告妨碍阅读,或者只转载了内容中不完整的一部分,这样的转载,或者说采集,就是纯重复的,与采集源相比,就是没有检索价值的了。,三、如何判断页面价值,3.质量(页面的质量是它对需求的满足程度的一种体现)判断页面质量的高低,应该是从最基础的需求依次递进的。首先,不能是死链、网站要有一定的稳定性、访问速度要令人满意。其次,主体内容是否完整、版式和字体是否易读、各类广告会不会太多。最后,信息是否丰富、延伸出的次级需求是否满足。高质量的页面定义:对用户有用(满足基本需求、延伸的次级需求),并且易于阅读的页面。,三、如何判断页面价值,典型的低质量页面存在以下一些特征:1、主需求无效/未满足(过期分类广告/软件下载页面,下载链接无效等)2、死链3、虚假信息/诈骗等4、点不稳定5、影响主需求的权限问题(下载/浏览需要注册会员/积分等)6、信息不完整(转载不全等)7、浏览体验差(广告/字体/页面布局等),三、如何判断页面价值,典型的高质量页面存在以下一些特征:1、访问速度快(页面加载快/资源下载速度快)2、页面整洁干净,主体内容在显著位置。3、页面信息完整。4、页面元素丰富(文字、图片、评论、相关推荐等),三、如何判断页面价值,4.时效性一般体现在两个方面:一是页面所描述的事物本身有着较强的公众话题性,容易被传播。这其实是受众的一个体现。二是页面所描述的事物仅在第一时间有较高热度,随着时间推移热度显著下降。这是一种“新闻”性。,三、如何判断页面价值,4.时效性:时效性一般体现在两个方面:一是页面所描述的事物本身有着较强的公众话题性,容易被传播。这其实是受众的一个体现。二是页面所描述的事物仅在第一时间有较高热度,随着时间推移热度显著下降。这是一种“新闻”性。,三、如何判断页面价值,判断页面的时效性价值,主要通过下面一些途径:页面本身受众是否有短时间的突增,比如超链爆发。贾君鹏的帖子就是一个典型的例子。描述相同事物的互联网页面是否有段时间的突增。贾君鹏事件短时间内爆发出大量相关讨论、报道,和这一事件相关的所有内容都具有了时效性属性。根据一个集合内的页面是否具有上述两种特征,推测该集合的时效性价值。比如魔兽世界吧经常爆出一些热门帖子,公众话题,我们推测出自魔兽世界吧的帖子其时效性“潜在价值”比较高。,四、页面价值的研究重点,1、对页面价值体系的认识。我们目前对页面价值的认识是来源于前文所述的四个维度,这个认识是否全面,对于不断变化的互联网环境与用户需求,这些维度应该如何扩展与变化才能更好的服务于整体的搜索体验提升,是一个很重要问题。2、对于反映页面价值的页面特征提取。巧妇难为无米之炊,挖掘更多的页面特征,更准确合理的特征提取是页面价值判定准确率提升的基础。3、对各种页面特征的组合策略(机器学习)。针对不用的应用方向,需要利用相应的特征通过合理且高效的策略拟合出页面价值的最终评价结果。,五、页面价值在工作中的运用,1.如何制作高质量的页面内容方面:对用户有用(满足基本需求、延伸的次级需求),用户体验方面:易于阅读(1访问速度快(页面加载快/资源下载速度快)2页面整洁干净,主体内容在显著位置。3页面信息完整。4页面元素丰富(文字、图片、评论、相关推荐等))从四大要素中考虑。2.转载的内容:如何选择,如何收录,谢谢!Thankyou!,2013-7-18,
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!