辽宁石油化工大学学报 ›› 2009, Vol. 29 ›› Issue (3): 65-69.
HU Yu1, WANG Li-zhi2
摘要: Web上的信息很多存储在HTML 页面上,传统的网页数据抽取方法是使用包装器(Wrapper)来抽取
网页中感兴趣的数据。包装器所需的信息模式识别知识的获取是一个费时费力且需要较高智能的工作。避开了使
用Wrapper,针对新闻类网页的结构特点,从视觉角度对网页页面空间的构成进行了噪声与信息实体的划分与判断。
讨论了一种根据新闻类网页层次结构和各层节点统计信息进行新闻主体提取的方法。改进了传统的DOM 模型,增
加了层次与样式等属性作为噪声判断的依据,并对其节点添加了统计信息,利用新闻的标题、时间等外显特性,提出
并实现了一种结合正向直接抽取与反向降噪抽取新闻类网页得到结构化数据的方法。实验结果表明,用这种方法
进行新闻类网页主体信息提取的有效性。
胡 瑜,王立志. 基于HTML结构特征的网页信息提取[J]. 辽宁石油化工大学学报, 2009, 29(3): 65-69.
HU Yu,WANG Li-zhi. Page Information Extraction Based on the Structure of the HTML[J]. Journal of Liaoning Petrochemical University, 2009, 29(3): 65-69.