摘要:本研究以美国科技信息研究所出版的《科学引文索引》(SCI)为数据源检索2004~2013年生物医学领域文本挖掘文献,并从年度变化、国家/地区分布、作者等方面进行文献计量学分析。结果显示:全球生物医学文本挖掘文献总量呈上升趋势。而对其进一步的研究,必将促进文本挖掘技术的进步和成熟,从而也为生物医学领域的发展注入新的活力。PaperisOk论文查重网提供中国知网查重入口服务,所有论文查重系统均来之官网检测,查重报告均支持验证真伪!不论您学习哪个专业,写作什么类型的论文,只要您有文本相似度检测的需求,知网查重检测系统总有一个版本适合您。
关键词:文本挖掘;生物医学;发展动态;文献计量学;SCI
文本挖掘(Text mining)是数据挖掘的一个方向,当数据挖掘的对象由文本这种数据类型组成时,这个过程就称为文本挖掘[1]。1988 年, Swanson 教授在MEDLINE 的生物医学文献中发现了诸如镁缺失与偏头痛的医学关系[2]并获得了实验的验证。至此之后, 强有力的文本挖掘工具在现代生物医学研究中扮演着越来越重要的角色。本研究采用文献计量学的方法,对SCI数据库收录的2004~2013年间生物医学领域的文本挖掘相关文献从年度变化、国家/地区分布、作者等方面进行文献计量学分析,旨在了解该领域的研究现状和发展趋势,以期为后续的研究提供参考。
1 方法
笔者所统计的文献数据全部来源于美国ISI 的SCI 网络版(SCI of Web),以与文本挖掘相关的自由词text mining,Literature mining,Knowledge discovery in text,Text data mining和以生物医学相关的自由词Biomedicine,Systems biology,Medicine,Genomics,Proteomics,Metabolomics, Bioinformatics,Biology,Traditional Chinese Medicine对上述数据库进行主题词搜索。然后对下载的所有文献进行数据的筛选和清理后,终选择纳入文献797篇。检索完成时间为2014年3月20日。
2 结果
2.1年度发表量 我们整理出来的2004~2013年生物医学领域文本挖掘文献总共有797篇,每年的发文数量从2004年的43篇到2013年的124篇,总体呈现增长趋势。
2.2国家/地区 经统计,在所有797篇文章中总共有53个国家参与了文章的发表,遍及全五个大洲,但各个大洲的对该领域的研究极不平衡。虽然欧洲有着高的发文总量,但是北美洲的美国却以高发文量(289篇)位居全球国家排名的位,紧随其后的是英国(125)和中国(82).
2.3高被引论文 根据普赖斯定律[3]可以算出在纳入统计的文献中被引频次≥42 的为高被引文献(注:Mp=42.21, Npmax=3177)。797篇文献中被引频次≥42 的论文共79篇。高被引论文排名前3位的文章为。《Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources》(被引3177次),《The Gene Ontology Annotation (GOA) Database: sharing knowledge in Uniprot with Gene Ontology》(366次)和《RegulonDB (version 6.0): gene regulation model of Escherichia coli K-12 beyond transcription, active (experimental) annotated promoters and Textpresso navigation》(274次)
2.4核心作者分析 在生物医学领域文本挖掘研究的797篇文献中,共有2565位作者(包含所有合著者),根据普赖斯定律,核心作者低发文数m 的值为: 。其中指发文多的作者发表的论文数。本次研究中 为23,故m 取整数为4。作者论文4篇以上为80人,其发表的论文为468篇,占总论文量58.7%,高于总论文数的50%,说明在生物医学领域的文本挖掘研究已经形成了较为稳定的研究群体。
3 结论
2004~2013年以来发文数量总体呈现增长趋势。全球大约有60%左右的文章都是通过国家间合作完成的,美国是发表文章多的国家,其次是英国和中国。目前文本挖掘技术在生物医学中的应用还处于不断的研究和发展阶段,但上对该领域的认识正不断提高,初步形成了一批在该领域的核心研究地区、核心作者和核心研究领域。
致谢:衷心感谢北京市“青年英才计划”基金(YETP0821)的支持。
参考文献:
[1] Hearst M A. Text data mining: issues, techniques, and relationship to information access. Presentation notes for UW/MS workshop on data mining, 1997.
[2] Swanson D, Smalheiser N R. Assessing a gap in the biomedical literature: magnesium deficiency and neurologic disease[J]. Neuroscience Research Communications, 1994, 15: 1-9.
[3] 刘雪立,王兆军.2004—2008 年我国情报专题研究高被引论文的统计与分析[J].情报杂志,2010, 29(1): 64-67.
来源:医学信息 2014年24期
.—— END ——.
上一篇: 从SCI论文统计分析看陕西的科研发展
下一篇: 二级单位SCI发表文章情况统计与分析方法