主题型网页发现以及网页内信息块发现.ppt

资源描述

主题型网页发现以及网页内信息块发现,华南理工大学广东省计算机网络重点实验室成员：蔡捷飞、陈啟泓、梁志宏、马亮、温泽逢,主题型网页发现,目录,特征分析算法设计结果分析不足与改进,特征分析,主题型网页特征：文字较多（非锚文本）主题型网页一般都有明显的文本段落，文字较多，相应的标点符号也较多。URL较长在一般的Web网站链接导航树上，主题型网页主要分布于底层，多为叶节点。对于同一网站而言，主题型网页的URL相对较长。URL体现了网站内容管理的层次，对于大型网站而言，URL往往非常有规律。链接较少主题型网页的主体在于“文字”，相对于导航型网页，其链接数较少。,特征分析,非主题型网页特征文字较少非主题型网页的主体是链接，图像，或者其它形式的内容，文字较少链接较多对于导航型网页而言，链接是其主要内容URL较短导航型网页的URL层数较少，且多为目录型URL,特征分析,网页噪音特征多以链接的形式出现有很多锚文本，但标点符号较少有许多常见的噪音文本，如版权声明等在视觉上，多出现于网页的边缘,算法设计,主题型网页发现：对网页进行二元分类分类过程分为三个阶段：阶段1：根据主题型网页的重要特征进行分类，这些重要特征主要包括：标点符号数目，文字数目。无需复杂算法，只需设置特征阈值。阶段2：对在阶段1中无法确定分类的网页，提取更多的特征，利用分类器（如支持向量机）进行进一步的分类。这一阶段的特征有：URL层数、URL中数字的个数、文字数目、标点符号数目等。阶段3：经过上面两个阶段的分类之后，对主题型网页进行信息块抽取，根据抽取结果的反馈，进一步筛选网页，去掉非主题型网页。,抽取网页重要特征,根据特征阈值判断,判断为非主题型网页,判断为主题型网页,进一步抽取网页特征,难以判断,分类器分类,判断为非主题型网页,判断为主题型网页,信息块抽取,反馈,进一步去除非主题型网页,网页数据,阶段1,阶段2,阶段3,网页去噪,算法设计,关键1：网页去噪利用HTML分析工具（HtmlParser）去除所有脚本代码去除网页中的所有锚文本网页噪音多为广告，以链接的形式出现过滤常见的噪音文本去掉以非锚文本形式出现的网页噪音,算法设计,关键2：特征阈值设定重要特征：网页正文内容中的中文句号和逗号的数目URL层数URL是否为目录型，是否包含某些特殊关键字阈值设置：抽样测试表明，当网页的句号和逗号数目超过20个时，绝大部分的网页为主题型网页；当句号和逗号数目少于5时，绝大部分的网页为非主题型网页；当URL层数为1时，绝大部分的网页为非主题型网页；当URL为目录型URL时，绝大部分的网页为非主题型网页；,算法设计,关键3：分类器分类器的选择有监督分类器：支持向量机无监督分类器：KNN聚类分类器的特征选择网页正文文字数目网页正文标点符号数目URL层数URL中数字的个数,结果分析,测试集：cwt_quark_70thousand71502个web阶段1：（输入71502个web）主题型网页：33161个非主题型网页：19623个无法判断的网页：18718个（26.18%）阶段2：（输入18718个web，利用SVM分类）主题型网页：15139个非主题型网页：3579个阶段3：根据主题型网页信息块抽取结果，去掉只能抽取到极少内容的主题型网页3206个最终：主题型网页：45094个（63.07%）非主题型网页：26408个（36.93%）,结果分析,从阶段1的分类结果看出：大部分的网页（73.82%）可以根据网页的重要特征的阈值进行分类，方法简单高效。虽然只有26.18%的网页需要利用分类器进行进一步的分类，但这26.18%的网页可能恰恰决定了本算法的分类效果。因为这26.18%的网页都是模棱两可的，对它们进行准确的分类至关重要！由于阶段1和阶段2都可能存在一定的误差，因此经过信息块抽取之后的反馈是很重要的。,不足与改进,对网页的特征选择与抽取还有待完善，期望以后能挖掘出更能描述网页性质的特征。在网页去噪方面略显粗糙，需做进一步改善阶段1的特征阈值设定过于简单。阶段3的反馈机制过于简单。,网页内信息块发现,一、术语定义,主题型网页：主题型网页是指网页中通过文字描述了一件或多件事物，是有一定主题的；如一张具体的新闻网页就是典型的有主题网页。PlainText：最终在浏览器中显示的文本，而且这些文本不是锚文本。AnchorText：锚文本，这些文本也会在浏览器中显示，但是这些文本也是跳往其他网页的链接。,二、主题型网页特点,主题型网页通常包含利用大量的文本来介绍，而且这部分文本中绝大部分都是PlainText。将网页以树（Tree）的形式表现，HTML标签以及标签内的文本都作为树的（Tree）节点存在于该树中。HTML（）成为这棵树的根节点大部分的叶子节点都是文本节点主题型网页的噪音信息可以分成是两种：一种是广告（锚文本）另外一种是网页声明,三、主题信息块的发现与提取：,目标：为了找到主题信息的起始位置和长度，最有效的办法就是找到这样一个节点p，节点p满足下面的条件：,算法,1.集合L为树中所有的叶子节点，并且节点不为标记的子节点2.对于L中的任意节点leaf，if(！isPlainText(leaf)L=L-leaf3.averageLength=calAverageLength(L);/平均长度任意节点leaf属于L，calLength（leaf）averageLength;L=L-leaf;4.集合M为空。任意节点leaf属于L，parent=leaf.getParent()while(parent.getChildren().size=1)parent=parent.getParent();M=M+parent;如果M.size经验值（这里经验值设为3）结束否则,L=M，并执行3。,四、进一步去除噪音,干扰信息：script、frame（广告、或网站定制的脚本）对脚本、frame的信息进行定位，并根据每段正文的起始和结束位置与干扰信息块的关系，将正文提取出来。,五、表格型网页抽取,以表格的形式来展现主题股票的价格信息电脑DIY的配件信息处理抽取网页中的Table标记中的内容统计Table中包含文字的TR和TD（避免递归处理）的信息把所有TD数目（列数）超过阈值的TR的都抽取出来，如果这些TR的数目大于某个阈值,将其父结点加到结果集,结果分析,1.对于布局正规的网页，抽取方法效果十分理想2.对于论坛类型的文章，该方法可以去除一些无意义的回复（如顶、赞等），保留有意义的回复。3.对于表格类型的网页，结合有规律的行列分布，可以对表格信息进行有效的抽取,不足与改进,找到一个更加科学的方法来设定阈值利用标题以获得更多的信息更好的“上升”策略,谢谢！请批评指正！,成员：蔡捷飞、陈啟泓、梁志宏、马亮、温泽逢,

展开阅读全文