知网论文检测样例--索引数据库的评价指标
Chu&Rosenthal的检索系统评价方法中把“索引数据库的构成”摆在了评价指标的部分,因为它是决定网络检索系统检索性能优劣的基础。
(1)数据库的规模和内容。索引数据库规模和内容决定了检索系统的全面性。网络的发展使得信息呈现爆炸性增长,数据库中涵盖的内容越丰富,某一专题的信息越多,就越能提供一站式服务,网络化带来的趋势之一就是集成,数据库的集成度越高就越有利。检索多样化要求数据库中不仅只有文本信息,还应有图片、音乐、视频,而提供全文检索在信息的完整性上也对数据库提出了要求,检索多语种化则要求数据库中也储存着他国语言的信息。
(2)标引深度。在网络数据库中,标引深度是指标引到网页的哪一层次(网站级、网页级等)。有的信息检索系统只标引主页(层次:网站级),有的则标引到第二、第三或更深层次。标引深度也可以指是全文标引还是部分标引。随着全文检索要求的提出,曾经只对摘要做标引的时代已经结束了,全文标引才是大势所趋。简言之,对于信息检索来说,标引的层次越高,其信息的可获得程度就越好,信息提供的深入化也对标引深度提出了较高的要求。
(3)标引范围。标引的范围主要指标引信息的形式。可视化技术的使用和检索多样化的需求,使得标引的信息形式发生了极大的变化。以往占主导地位的期刊、报纸等,逐渐为后起之秀的网页文件、ftp文件、电子期刊、图像、声音、多媒体等信息形式让出巨大空间。我们很难预测将来还会有哪些新的信息形式涌现出来,但清楚的是,我们将要面对的不再是单一的,而是多元的、不断发展的信息形式,这就需要标引范围的不断拓展,检索多样化对于标引范围的要求不容忽视。
(4)更新频率。索引的更新频率决定了网络信息检索的时效性,更新频率越快,索引的时效性越高。一般的检索系统是每周更新,也有的是每月甚至更长时间更新一次,而标引量大的检索系统更需要较长时间才能把所有信息全部更新一次。更新频率快慢的判定可以通过对各检索系统返回内容的新颖性比较而得到。
(5)索引组成。索引的抽词法在很大程度上影响检索质量。信息检索系统一般采用抽词法取出能够表达信息内容的主题词,提供用户匹配检索。但抽词法一般使用词频统计的方法,即统计某个词在文档、网页等信息源中出现的频率,将出现频率较高的词作为标引词。
有的还在词频统计的基础上辅之以加权法,即按词在信息源中出现的位置或相对于信息源的长度而赋予权值,以后所得的加权值较大的作为标引词等。现在能够使用的抽词法生成方法不少,但都只是着眼于抽词法中使用的词表的生成,而检索智能化则要求检索系统不仅仅能根据用户的输入来判断如何抽词,还要揣摩用户的实际需要。在此基础上,信息检索系统开始加入诸如同义词表、反义词表等相关词表。
可视化技术的应用和检索的多样化要求检索系统不仅仅能对文本、元数据标引,甚至可以对音乐本身、视频、图片进行标引。检索多语种化要求检索系统不仅能对英语和本国语言标引,而且能够对他国语言进行标引。
.—— END ——.