知网论文查重样例–信息检索系统评价的发展历史

2017-10-01 作者:小编

知网论文查重样例--信息检索系统评价的发展历史

对信息检索系统进行有计划的评价活动开始于20世纪50年代初期。根据检索评价研究活动及其发展过程中呈现出来的阶段性特点,可以将信息检索系统评价研究的发展历史划分为以下4个阶段:

(1)20世纪50年代初期至60年代中期。从20世纪50年代初期基于计算机的信息检索试验获得成功以来,直到60年代中期,信息检索都处于脱机批处理发展时期,磁带是信息存储的主要载体,检索提问则用穿孔纸带(或卡片)来表示,检索处理结果一般不能立即获得,必须等到成批或定期的检索匹配。

据记载,项情报检索系统的评价研究是于1953年由美国文献公司进行的,它比较了单元词系统和美国武装部队技术情报局编制的字顺主题目录,证实了客观评价的重要性。1954年,克莱弗登和索恩对单元词系统作了简单实验,为Cranfield研究计划奠定了基础。Cranfield研究计划的名称为“标引系统比较概率研究”,是上个有名的大型评价实验。Cranfield-Ⅰ始于1957年,对4种索引语言的性能进行了比较。

Cranfield中间实验始于1961年,对《冶金文献索引》与用英国电气公司分面法编制的手工标引进行了比较,次提出了失误分析法。Cranfield-Ⅱ始于1963年,研究了索引语言的构成及其对检索系统性能的影响。结论是:若同时考虑查全率与查准率两个性能,检索效果好的语言是以文献原文中出现的、未经规范的词为基础的自然语言,这与大多数人认为的受控词表较好相悖。这一时期还进行了其他的评价研究活动,如1960年Swanson进行了常规主题标引与计算机全文检索的比较报告;Schuller对单元词系统与UDC系统的效率进行比较试验等。

总的来说,这一时期的检索系统评价研究工作主要集中在对各种检索语言和标引方法的比较和评测上,所取得的研究成果主要反映在Cranfield项目中。在前后两期、历时近10年的Cranfield检索评价实验中,初步摸索、提出并形成了一套检索性能评价的指标体系,这为后来的相关研究工作奠定了方法论的基础。

(2)20世纪60年代中期至70年代中期。20世纪60年代中期以后,信息检索开始进入联机实时检索时期,信息检索中心的主机开始借助于电话线与远距离终端相连,用户通过检索终端与系统进行人机对话,并可在屏幕上迅速浏览到检索结果。这一阶段检索系统评价的研究对象主要集中于实用或试验性检索系统。

有名的评价研究项目有F.W.Lancaster等主持的MEDLARS系统评价、G.Salton领导的SMART系统评价研究、P.Leggate等人对SDI服务的评价以及美国西方储备大学系统比较实验室进行的检索实验和评价研究等,其中有名的就是SMART和MEDLARS研究项目。

SMART研究计划的名称为“文本的机器分析与检索系统”,其研究结果表明:就检索性能而言,文摘好于篇名,但全文好于文摘未能得到证实,计算机处理明显好过人工处理。MEDLARS项目评价了美国国家医学图书馆建立的“医学文献分析与检索系统”,这是在运行系统上进行的个大型评价研究。与阶段相比,这一时期的检索系统评价活动取得了很大的进步,主要表现在:不仅评价对象有所转移和扩展,评价试验设计水平也有了明显提高,评价指标较以往更为合理、完善,并且新增加了新颖率、费用效益等评价指标,在评价方法上也更趋于多样化。

(3)20世纪70年代中期至90年代初期。随着信息技术的飞速进步,自20世纪70年代中斯后,信息检索迈入了一个辉煌的崭新发展时期———网络化与多元化检索时期。此时的联机检索系统利用上主要的数据通信网,已发展成为性的联机检索系统。

在这一阶段的前半期,检索系统的评价研究主要集中在联机检索系统方面,并提出了一些有关联机系统的检索语言、数据库、检索软件、检索费用等方面的评价指标。而在后半期,新出现的光盘检索系统等开始进入评价范围。此外,还有一个更加引人注目的变化是:评价研究的重点逐渐从系统方面转移到检索者(即用户)方面,即开始注重研究检索用户的特性(如教育背景、检索经验、个性等)与检索成功率之间的关系。

至此,“以用户为中心”的观念逐渐影响并实际应用到检索系统评价活动中来,而长期以来一直占据评价研究主要地位的Cranfield评价模式也不断被研究人员反思和质疑。如何摆脱Cranfield模式基于实验室环境的封闭式评价,将真实的检索用户引入并参与到检索评价过程中来,创建一些面向用户的检索评价指标,成为这一时期以及未来相当长时间内检索系统评价研究工作的主要挑战和急需解决的问题。这一阶段出现的检索评价活动以IBM公司对大型全文信息检索系统开展的评价活动STAIRS为代表。

(4)20世纪90年代初期至现在(TREC时代)。从总体上看,截止到20世纪90年代初期,检索系统评价研究的范围在不断扩大,评价水平不断提高,评价指标体系也日趋合理和完善。但是,已有的检索系统评价活动还是存在着一些缺陷和问题,主要表现在:检索系统评价项目多是为了个别的测试计划而设计并分散进行,彼此之间各有不同的测试对象和评价规则;使用的试验数据量较小,其规模及特性与真实的检索环境之间存在着相当大的差异等。

这样的评价研究,不仅会造成评价结果的可比性差,其有效性也受到许多质疑,因而很难证明其实用价值。在这种背景下,建立一个共同的、一致性的评价平台(或环境)势在必行,而TREC的出现无疑顺应了这样的研究要求。TREC的全称是“文本检索会议”,但它并不是一个真正意义上的学术性会议,而是一项致力于对文本信息检索技术进行大规模评价研究的试验活动。

作为文本检索领域具性的一项年度评测活动,TREC的参与者必须拥有自己研究、开发的检索系统,而且必须使用由TREC主办方提供的统一测试语料库和检索提问,在自己的检索系统上进行试验。后,通过提交试验结果数据,由主办方统一进行检索系统的性能评价与排名。基于TREC平台的检索评价研究有效克服了以往评价研究中的诸多缺陷,多年的实践和事实也进一步证明,TREC活动为理论检索模型和试验检索系统提供了公平、定量、具有实用价值的性能评价机会,TREC的影响力也在逐渐扩大。

除TREC外,在检索系统评价研究新时期,得到研究人员很大关注的另一个问题是Web搜索引擎的发展及评价研究。作为网络环境下的一种新型检索系统,搜索引擎评价有其独特的要求和标准,简单沿用传统的评价方法和指标已经不再适宜,关于网络环境下的信息检索系统的评价问题(包括搜索引擎的评价),目前仍在不断地深入研究和探讨之中,这也是本文接下来的研究重点。

.—— END ——.