全文检索 :20世纪末产生的信息检索技术

更新时间:2024-09-20 21:05

全文数据库是全文检索系统的主要构成部分。所谓全文数据库是将一个完整的信息源的全部内容转化为计算机可以识别、处理的信息单元而形成的数据集合。全文数据库不仅存储了信息,而且还有对全文数据进行词、字、段落等更深层次的编辑、加工的功能,而且所有全文数据库无一不是海量信息数据库。

概念

发展历史

全文检索是20世纪末产生的一种新的信息检索技术。经过几十年的发展,特别是以计算机技术为代表的新一代信息技术应用,使全文检索从最初的字符串匹配和简单的布尔逻辑检索技术演进到能对超大文本、语音、图像、活动影像等非结构化数据进行综合管理的复合技术。由于内涵和外延的深刻变化,全文检索系统已成为新一代管理系统的代名词,衡量全文检索系统的基本指标和全文检索的内涵也发生巨大变化。

系统及功能

对于全文数据库这种比较非结构化的数据,用时态数据库(关系数据库管理系统)技术来管理是目前最好的一种方式。但是由于RDBMS底层结构的缘故使得它管理大量非结构化数据显得有些先天不足,特别是查询这些海量非结构化数据的速度较慢,而通过全文检索技术就能高效地管理这些非结构化数据。

关于全文数据库的特点,空军政治学院计算机中心王兰成副教授认为全文数据库与书目数据库、事实数据库相比较主要有如下特点:(1)全文数据库包含信息的原始性 库中信息基本上是未经信息加工的原始文本,具有客观性。(2)信息检索的彻底性 可对文中任何字、词、句进行检索,还可表示检索之间的复杂位置关系(3)所用检索语言的自然性 不做人工标引,借助截词、邻接等匹配方法,以自然语言检索所需文献。这是与传统主题词检索方法的根本区别。(4)数据相对的稳定性 全文数据库基本上是封闭的,一般不需更新。(5)检索结果的准确性(6)数据结构的非结构性。

实现技术

全文检索系统的实现技术分为三个方面:关系型全文检索系统、层次型全文检索系统、面向对象的全文检索系统及自动标引技术。

针对全文数据系统的构建,提出全文检索系统的实现技术,主要分为5个步骤。

(1)数据准备:它是指针对计划加载到全文数据库中的数据进行收集、整理、归类等预先处理的过程。加载到全文数据中的数据可以从多种途径获得,常见的数据来源有:电脑打字产生的文件,电子印刷产生的文稿,计算机网上传送的文件,电子出版物,图文处理产生的文件,专门组织人力录入建库。

(2)文本预处理:包括规范格式,当格式多种多样时,应加以整理,使文献的格式规范化;批式标引,文本预处理阶段完成的批式标引,不受全文数据库结构的限制,效率较高。

(3)数据加载:数据准备好以后,便可以加载(拷入、输入)到数据库文件中去了。加载数据可有单篇方式或批量方式。单篇方式一次加载一篇,适于平时文献随时加载的情况。批量方式一次加载多篇,适于集中大量加载的情况。

(4)数据检索:数据库建立起来之后,便可根据全文检索系统提供的检索功能对数据库进行检索。

(5)数据维护:全文数据建立以后,需要经常对数据库的内容进行索引、更新、追加和清理。

参考资料

免责声明
隐私政策
用户协议
目录 22
0{{catalogNumber[index]}}. {{item.title}}
{{item.title}}
友情链接: