辽宁石油化工大学学报 ›› 2006, Vol. 26 ›› Issue (2): 83-86.
李彦刚, 魏海平* , 侯兴华
摘要: 互联网上信息量的激增, 迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息, 如标题、链接、email 和图片等, 而HTML 语言所表述的Web 页面经浏览器分析后只适合浏览, 不适合作为一种数据交换的方式由机器处理。介绍了HTMLParser 的原理和java 正则表达式相关知识, 基于HTMLParser 包和正则表达式。以提取网站内部email 信息为例, 提出了Web 信息抽取系统设计方案, 阐述了email 信息抽取的工作原理和关键技术, 给出了email 抽取算法, 并详细介绍了系统的抽取URL、email 和存储模块, 抽取结果保存于数据库中,供机器检索利用。
李彦刚, 魏海平,侯兴华. 基于HTMLParser 的Web 信息抽取系统的设计与实现[J]. 辽宁石油化工大学学报, 2006, 26(2): 83-86.
LI Yan -g ang,WEI Hai -ping. Design and Implementation of Web Information Extraction System Based on HTMLParser[J]. Journal of Liaoning Petrochemical University, 2006, 26(2): 83-86.