站点垂直挖掘模型的研究和实现
第6章 站点垂直挖掘模型的研究和实现王晓飞11(北京邮电大学模式识别实验室)0 引言在通过对结构挖掘和内容挖掘的理论研究和方法改进基础上,本章从实际应用的角度出发,分析具体的实际应用需求,设计和实现了基于结构挖掘和内容挖掘的站点垂直挖掘模型。站点垂直挖掘模型由一系列科学严谨的信息挖掘理论和方法构成,通过结构挖掘和内容挖掘,逐步将拥挤、充满噪声的无结构化站点信息转换简洁、扼要的结
第6章 站点垂直挖掘模型的研究和实现
王晓飞11
(北京邮电大学模式识别实验室)
0 引言
在通过对结构挖掘和内容挖掘的理论研究和方法改进基础上,本章从实际应用的角度出发,分析具体的实际应用需求,设计和实现了基于结构挖掘和内容挖掘的站点垂直挖掘模型。站点垂直挖掘模型由一系列科学严谨的信息挖掘理论和方法构成,通过结构挖掘和内容挖掘,逐步将拥挤、充满噪声的无结构化站点信息转换简洁、扼要的结构化信息。模型选取招标网站作为主题站点进行实验。招标网页信息种类繁多,网页结构形式多变,正文包含半结构化和自由化文本,同时,实用性比较强,选取招标站点作为实例具有较好的参照性。
1 站点垂直挖掘模型架构
1.1 需求分析
目前,全国已有很多大型和专业的招标信息公示网站,各地区也有针对本地区的招标信息公示网站,这些网站上的数据已经达到很大的量级,如果使用得当,可以获取适合公司发展的有用信息。但是,由于这些网站上的信息太多,而且相互之间并不相通,用户检索起来需要花费大量的时间与金钱。所以,本文设计的基于结构挖掘和内容挖掘的垂直站点挖掘模型主要对大量专业的公开招标信息网站进行信息进行实时抓取、分类、关键信息抽取,为公司提供最全面、快捷的信息提供途径、节约时间与成本。
1.2 模型架构
垂直站点挖掘模型首先利用爬虫收集网站的信息,然后构建映射网站层次结构的URL层次树,用URL层次树描述网站的主题层次信息,识别URL页面的类别,区分出首页式、列表式和正文式页面。不同结构的网页挖掘方式不同,精准的内容挖掘需要事先知道网页的结构。在完成站点的结构挖掘基础上,我们就可以进行精准的网页信息抽取。模型框架如图6-1所示,由图可以看出该系统主要以下核心模块。
如图6-1 站点垂直挖掘模型架构
l Web:主题站点,包含丰富的主题信息,站点页面更新迅速,是数据的来源;
l spider: 站点爬虫,用于下载站点页面,获取站点的信息,由于站点有多个,所以站点爬虫也拥有多个;
l 结构挖掘模块:主要采用三元组URL结构树描述方法,对站点进行结构挖掘,将站点的页面进行页面结构分类,形成首页式、列表式和正文式页面集;
l 更新模块:由于首页式和列表式页面信息更新迅速,对这些页面进行定时爬取,可以有效的获取网站发布的最新消息;
l 内容挖掘模块:对正文页面进行信息的定位和关键内容的抽取,例如抽取项目名称、招标单位、招标内容、项目类别、招标时间、招标代理、联系方式等;
l 数据库:存储经过多次处理和过滤形成的结构化信息;
l 展现模块:根据用户的需求,将数据库的数据以多种形式展现给用户。
2 结构挖掘模型实现
2.1 结构挖掘模型流程
2.2 核心模块详解
2.2.1 URL解析模块
2.2.2 网页分类模块
2.2.3 URL层次树构造
2.3 实验结果与分析
3 基于语义和规则的内容挖掘模型实现
基于语义和规则的内容挖掘模型的主要功能是逐步细化和分解网页,有效的利用了网页潜在的结构、语义信息,针对形式各异的网页,抽取细粒度信息,形成结构化的网页属性项,达到精确抽取Web网页信息的目的。
3.1 核心模块详解
3.1.1 招标主题语义词典构造
主题语义词典主要由领域关键词构成,主题语义词典主要在领域词典的基础上,添加关联关键词、核心词素和属性值规则约束。语义词典的功能是用于识别和抽取网页文本项中的词语实体,语义词典的正确建立是信息抽取计算的关键。通过对招标网页的研究和招标领域知识的理解,首先确定该领域的属性类集和抽取属性项集,建立语义词典的层级框架,如图3-2。
图3-2语义词典的层级框架
由于XML文件不仅具有良好的数据存储性和高度结构化,而且还能设定处理数据的规则,所以采用XML文件构建语义词典,操作方便,易于理解。如图3-4是招标XML语义词典部分数据。
图3-4 XML词典
3.1.2 规则制定
主题语义词典主要由领域关键词构成,主题语义词典主要在领域词典的基础上,添加关联关键词、核心词素和属性值规则约束。语义词典的功能是用于识别和抽取网页文本项中的词语实体,语义词典的正确建立是信息抽取计算的关键。通过对招标网页的研究和招标领域知识的理解,首先确定该领域的属性类集和抽取属性项集,建立语义词典的层级框架,如图3-2。
规则主要用于对属性项进行约束和抽取。网页经过词语实体的抽取后,将形成实体词语集,约束规则可以过滤无价值信息。约束规则的制定主要通过实体属性、常识和经验。抽取规则主要是利用词语相似度公式,将实体词语和待抽取属性项形成一一对应。招标主题细粒度部分规则制定如图3-3和表6-1所示。
图3-3属性实体和属性值规则约束
表3-1 细粒度规则列表
规则(满足上层规则,才能继续下层) | 内容 |
时间建立统一要求:属性值为时间实体,若是数字,则满足时间格式,若是文字,则包含“年”、“月”、“日”等常见时间词; | |
采购开始时间-规则1 | 属性关键词约束“采购”“开始”等; |
采购结束时间-规则2 | 属性关键词约束“采购”“结束”等; |
成交中标时间-规则3 | 属性关键词约束“成交”,“中标”等; |
公司建立统一规则:常见公司关键词库,例如“公司”,“有限”,“研究所”; | |
招标公司-规则4 | 属性建立核心词“招标”和同义词; |
中标公司-规则5 | 属性建立核心词“中标”和同义词; |
代理公司-规则6 | 属性建立核心词“代理”和同义词; |
和地域信息:建立地域信息库; | |
地域类型-规则7 | 优先查找联系地址中的关键词; |
标题-规则8 | 根据第四章标题抽取方法抽取; |
链接-规则9 | 根据网页结构信息获取; |
联系人-规则10 | 属性设置“联系人”等关键词,属性值为人名,可能拥有不止一个联系人; |
联系电话-规则11 | 属性拥有“联系”、“电话”等关键词,属性值是数字,可能包含多个电话; |
联系地址-规则12 | 属性拥有“地址”等关键词,属性值是有关键字存在地域信息库中; |
3.2 实验结果和分析
根据基于语义和规则的内容挖掘模型,我们制作网络爬虫和属性项抽取的工具对不同网页结构的招标网站进行测试。将最终信息存入数据库,数据库结果如图3-8所示。
图3-8 抽取结果示例
经过对不同网站的2810条采购中标网页的数据进行分析,其统计结果如下表6-2:
表6-2 测试结果统计
属性 | 正确总数 | 所占比例 |
标题 | 2723 | 96.9% |
链接 | 2780 | 98.9% |
联系人 | 2464 | 87.6% |
联系电话 | 2575 | 91.6% |
联系地址 | 2650 | 94.3% |
地域类型 | 2539 | 90.4% |
采购开始时间 | 2510 | 89.3% |
采购结束时间 | 2471 | 87.9% |
成交中标时间 | 2399 | 85.4% |
招标公司 | 2785 | 99.1% |
中标公司 | 2697 | 95.9% |
代理公司 | 2746 | 97.7% |
根据表格可以看出招标网页信息的细粒度抽取精确度平均可以达到92.9%。利用本文提出的将网页转换为属性和属性值结构文本,利用语义和规则的抽取网页细粒度信息方法,准确可靠,实用性较好。分析抽取错误的网页,错误主要有以下原因造成:网页中大量信息处于自由文本当中,对自由文本的切分不准确;属性项关键字相近,没有进一步区分出属性从属。由于对语义词典的依赖,使得抽取精度在一定程度上受限。
同时,为了验证本方法的适用性,我们将2810条实验数据,再通过传统的正则表达式方法实验,形成对比,实验对比结果如图3-9:
图3-8 对比结果
根据图可以看出正则表达式的方法平均抽取精度只能达到54.7%。这是由于正则表达式方法依赖于抽取项的正则表达式的编写,而正则表达式的编写需要找到正确的起始点和结束点。不同网站拥有不同的模板,但即使针对具有相似模板的单个网站,抽取项的表达也不尽相同,例如招标单位就有以下的多种表达方式,如“采购人,采购单位,项目单位,项目采购人,招标单位,建设单位,项目业主,发布单位,采购名称”等条目,或使用句子表达:“我单位受XX委托,发布以下公开招标公告”。同时,正则表达式匹配严格,例如“采购人”这样被空格断开的词语就可能被认为不是采购人属性项。这些原因使得正则表达式编写困难,很难设定统一的起始点和结束点,最终造成信息获取不精确。而语义和规则抽取方法是将文本转换为词语,计算词语之间和带抽取属性项之间的语义相似度,不受制于语言表达的格式和网页的格式,因此具有很高的精确性。
4 总结
站点挖掘模型通过一系列归纳学习、机器学习、统计分析等方法得到网页间的内在特性,据此采取用户感兴趣的信息,获得更高层次的知识和规律。本章主要从实际应用的角度出发,通过一个具体的招标主题,实验验证基于结构挖掘和内容挖掘的站点垂直挖掘模型准确性和实用性。通过实验证明站点垂直挖掘模型,适用于Web上的各种类型网站,能够准确的识别网页URL的类别,解决当前大多Web信息处理技术局限于某一类网站、信息提取细致化程度低、准确性差等问题。垂直挖掘模型不仅可以能够为用户提供合理、智能、有效的网络信息,而且能够为搜索引擎、推荐系统、信息聚类分类提供帮助。
更多推荐
所有评论(0)