万方、维普、CNKI以及搜索引擎检索能力的定量研究

2019-01-16 作者:小编

在网络资源飞速发展的大环境下,科技网络资源的建设逐步完善,在我国开展科技查新工作的二十多年历程中,以往以手工检索书本型检索工具为主的工作模式,也逐渐转变为以计算机检索科技数字资源为主的检索方式。科技查新,简单地说就是基于文献检索判定前人有无相似的研究或成果,为判断目标项目是否具有新颖性提供客观依据,以防止低水平重复研究开发而造成的人力、财力、物力的浪费和损失。要完成一个项目查新,证实该项目涉及的研究内容在检索范围内未见有文献报告,就要求立足于对相关文献检索的全面性,而检索人员则通过多个电子数据库联用的方式来应对“查全”的要求[1]。
万方、维普、CNKI作为中文文献检索的三大常用数据库资源,它们在各个学科领域的查新过程中基本成为必检的数据库。而由于上述三大数据库各自的特点,它们相互具有资源同质化和差异化[2,3]。因此,在查新过程中应当充分发挥三大数据库检索功能的优势,互补式地调用三大数据库中的文献资源,以减少漏检的风险。此外,由于搜索引擎能有效地搜索因特网上的相关信息,充分调用网络资源,所以它对提高查全率的作用受到越来越多的重视[4]。已有文献论述了三大常用数据库资源以及搜索引擎在查新检索中的重要性及其数字资源的特点[5],但未见有文献对它们的检索能力进行定量研究。本文旨在对查新过程中的检出文献进行定量分析,对比研究科技电子资源数据库与网络资源在查新过程中的文献检索能力。PaperisOk论文查重网提供中国知网查重官方入口服务,所有论文查重系统均来之官网检测,查重报告均支持验证真伪!不论您学习哪个专业,写作什么类型的论文,只要您有文本相似度检测的需求,中国知网查重检测系统总有一个版本适合您。
1 研究方法
1.1 研究对象与检索策略
选取万方、维普以及CNKI三大中文常用数据库为电子资源数据库,选取Google、Baidu两大搜索引擎为网络资源检索工具[6],通过对检出文献的定量分析,研究电子资源数据库与网络资源在查新过程中的文献检索能力。同时调用国家知识产权局(http://www.sipo.gov.cn/)的专利数据信息用作专利检索能力对比研究。上述数据库及网络信息均为2012年6月份数据。
文中选取两个理工类(材料领域)热门查新课题作为研究案例,包括“硅基量子点太阳电池的关键技术”和“氧化锰分子筛的合成、表征及应用”。在检索过程中编定一检索式,以便保证研究数据具有横向对比价值。在万方、维普以及CNKI三大中文常用数据库中,检索范围限定在题目、关键词和文摘范围内,以确保上述三个中文数据库检索范围的一致性。
1.2 数据分析
首先从各个数据库以及搜索引擎当中检索获取相关文献,再由人工逐一筛除从检索中获得的、但实际基本不相关或相关度较低的文献,得到用于数据统计和分析的有效文献,并将有效文献按期刊论文、学位论文、会议论文和专利四个类别进行统计。在数据统计中,为了反映文献发表年限的分布情况,将检索年限分成六个区域,分别为2000年以前(主要是1990~1999年间的文献)、2000~2004年、2005~2009年、2010年、2011年和2012年,近三年的数据单独统计是为了能更直观反映研究对象对新文献的检索能力。利用Excel将系列有效数据以柱状图形式直观反映在同一图表中,以便作横向定量分析。通过对人工筛选后得出的检出文献数量值、完整度以及相关度进行综合考虑,对三大数据库及搜索引擎的检索能力做出初步评价。
2 实例分析
2.1 分析案例一:“硅基量子点太阳电池的关键技术”
检索式:(硅 or Si) and 量子点 and 太阳 and 电池
图1 案例一的数据统计图
(上图:期刊论文+学位论文+会议论文;下图:专利)
期刊论文:在统计于2010年的数据中,在万方、维普和CNKI中检出密切相关期刊论文数量值分别为2、3和5,其中万方、维普检出的文献全部不相同,而两者调出的文献则分别对应CNKI检出的5篇文献。2011年数据中,万方、维普检出密切相关期刊论文数量值分别为1和0,CNKI的检出数量值为2,其中1篇同于万方检出的相关文献。2012年数据中,万方、维普均未检出密切相关期刊论文,而CNKI的检出数量值为3。在这个案例中,CNKI检出的密切相关期刊论文基本覆盖了万方和维普两个库。另一方面,利用Google和Baidu搜索引擎检出的相关期刊论文数量较多,对其逐一比照后发现,所述文献有一部分与三大数据库中调出文献相同,也有一部分文献未能以同一个检索式从三大数据库中调出。这里分析主要原因有:1)搜索引擎对检索词的检索范围有可能超出题目、关键词和文摘,一定程度削弱了有效数据的可对比性;2)搜索引擎调用了网上各类资源,部分文献所属的杂志三大数据库未有收录。尽管检出文献数量上占据优势,但通过对文献进行人工注意比照分析后发现,搜索引擎检出的相关期刊论文在相关度方面明显低于三大数据库中调出的文献,而且搜索引擎调出的大部分文献连接(此查新课题中约为83%)实际上是调用了三大数据库的资源,即通过调整检索式和检索范围,可以在三大数据库中调出这部分文献。此外,搜索引擎检出的相关期刊论文中还有较多综述文献,而查新报告中引用相关文献一般为研究型论文,而较少采用综述文献。
学位论文:本查新案例中万方、CNKI在学位论文的检出数量值方面优于Google和Baidu搜索,打开搜索引擎链接发现调出的大部分有效信息(此查新课题中约为89%)同样终是连接到三大数据库之一,而且从Google和Baidu搜索引擎得到的相关学位论文已被万方及CNKI共同覆盖,可以认为在本查新案例中无需进一步利用Google和Baidu搜索引擎进行学位论文的补检。而万方和CNKI分别有部分学位论文在对方中未能检出,因此两者需互补使用。
会议论文:在本查新案例中,万方、CNKI、Google、Baidu都在会议论文检索方面体现了一定作用,从Google或Baidu检出的个别会议论文无法从万方或CNKI中调出,因此需要联用上述检索手段才能保证会议论文的检全率。
专利:从万方调出的相关专利从数量上和相似度上都十分接近于国家专利局发布的相关专利,仅是在2011年的数据中万方多检索出1篇相关专利,其余与国家专利局的数据一致(总计获得17项相关专利)。CNKI检出的相关专利总计仅5项,且全部被包含于万方调出专利。而Baidu则调出28项专利,其中11项专利同于万方调出的数据,剩余17项专利在相关度方面明显较低。因此,在本查新案例中,可以认为利用万方及国家专利局网上专利搜索已能满足专利检索的要求。
图2 案例一的数据总量统计图
表1 由案例一得出的检索能力评价列表
2.2 分析案例二:“氧化锰分子筛的合成、表征及应用”
检索式:(氧化锰 or MnO2) and 分子筛
期刊论文:此查新项目中,从万方、维普、CNKI调出的期刊论文数量接近,相互重复性也较大;Google、Baidu也都能调出较多论文,但相关度同样较低。
学位论文:CNKI中调出的学位论文包含了其他数据库及搜索引擎调出的全部学位论文,表现出佳检索效果。
会议论文:万方及CNKI的检索结果都比较理想,但两者调出文献中都有不重复部分;Baidu中则无法调出密切相关的会议论文。
图3 案例二的数据统计图
(上图:期刊论文+学位论文+会议论文;下图:专利)
专利:从万方调出专利数量与从国家专利局调出的专利数量接近,分别是33项和29项,而后者29项专利都被包含于前者之中。CNKI、Google及Baidu的检索效果均不理想。
图4 案例二的数据总量统计图
表2 由案例二得出的检索能力评价列表
2.3 综合评价
通过对上述查新案例作综合分析,用以评价三大数据库及收索引擎的检索能力,如表3所示:
表3 综合检索能力评价列表
通过查新案例的研究,对三大数据库及搜索引擎的检索能力综合评价为:
万方:综合检索能力较好,尤其是专利的检索能力较强,一般能满足初步检索的要求;检索速度快,便于提炼检索词和初步制定检索式;无时间限制,便于长时间检索。
维普:对期刊论文的检索能力较好;可实现文摘显示,便于把握查新点的技术范畴,且检索速度较快。
CNKI:对期刊论文及学位论文的检索能力突出,检索速度较快,但对专利检索不理想。
Google:检索内容丰富,尤其适用于对会议论文的补充检索,但文献可靠性需考究。
Baidu:可检索出大量信息,特别适用于查新过程中对产品信息的检索,但相关度相对较小,文献可靠性需考究。
3 结论
本文以理工类热门查新课题(材料领域)作为研究案例,对三大数据库及收索引擎的检索能力做了定量对比研究,并从检出文献数量值、完整度以及相关度角度综合考虑,对其检索能力做出了初步评价。研究结论为:1)万方、维普和CNKI三大数据库单独使用无法满足科技查新的“查全”要求,而三大库联用则在检索期刊论文、学位论文及专利方面能获得较高的检全率;2)万方可用于查新检索的初步检索(提炼检索词和初步制定检索式),维普可实现文摘显示以便于把握查新点的技术范畴,CNKI则对期刊论文及学位论文的检索能力特别突出;3)搜索引擎能在检索会议论文(及产品信息)方面有较好的补充作用。
【参考文献】
[1]马建春.科技查新中提高查全率的方法探析[J].科技情报开发与经济,2010(29): 132-134.
[2]李金兰.CNKI、万方、维普资源比较与分析[J].情报探索,2011(4): 59-61.
[3]林豪慧,陈如好.知网、维普、万方的同质化和(下转第131页)(上接第7页)差异化评析[J].图书馆学研究,2009(9): 25-27.
[4]杜津萍,王磊.搜索引擎在科技查新中的应用[J].图书馆工作与研究,2007(3):73-75.
[5]王超.科技查新视角下三大中文数据库的比较研究[J].现代情报, 2011,31(10):163-165.
[6]马园园.中文搜索引擎的现状与发展研究[J].图书馆学刊,2007,29(6):131-133.

27
来源:科技视界 2012年22期

.—— END ——.