基于语义技术的学术论文不端研究综述

2018-10-11 作者:小编

摘要:针对学术不端的现状,本文首先给出了有关学术不端的定义,并在定义的基础上,从信息计量和语义两个角度,对相关的文献进行了分类和归类,以期从中对相关的研究和技术进行相应的梳理,以便于开发相关的学术研究不端软件,并制定相关的学术不端规范。PaperisOk论文查重网提供中国知网查重官方入口服务,所有论文查重系统均来之官网检测,查重报告均支持验证真伪!不论您学习哪个专业,写作什么类型的论文,只要您有文本相似度检测的需求,中国知网查重检测系统总有一个版本适合您。

关键词:信息计量;语义技术;学术不端;语义挖掘

中图分类号:G643 文献标识码:A 文章编号:1001-828X(2015)005-000-02

一、学术不端的界定

1989年美国公共卫生局颁布个正式定义。它认为学术不端行为除了包括前者所确定的行为,还应该排除对其他论文数据在进行解释和判断时作者本人的无意识误解或观点差异。

1989年的定义虽然缩小了学术论文不端的范围,但它并没有叙述何为伪造、篡改、剽窃,也没有指明其他行为的具体范围,这降低了此定义的可操作性。因此,在2000年美国科学技术政策办公室对1989年公共卫生局颁布的定义进一步的限定和解释。它认为学术不端行为是指在建议、进行或评议研究,或在报告研究结果时发生的捏造、篡改或剽窃行为。捏造是指编造数据或结果并记录或报告它们。篡改是指伪造研究原料、设备或程序,或改变、删除数据或结果,致使在研究记录中没有正确地描述研究活动。剽窃是指把他人的观点、程序、结果或话语据为己有,而没有给予他人适当的荣誉。学术不端行为不包括无意识误解或观点差异。这一定义受到了美国的普遍承认,但不同国家和研究机构在这一定义的基础上还略有修改和调整。

从学术论文的结构与特点层面分析,学术论文不端的主要表现形式有:在没有说明的情况下①直接使用论文中的语句或数据,并不对其进行修改;②转述其他论文中的概念或思想;③在论文中过度使用自己曾经发表的论文。

根据不同类型的学术论文不端形式,不同的检测方法在有效性和适用性上也存在一定差别。比如一篇论文抄袭剽窃的是其他语言的论文,或者对于一篇论文抄袭剽窃了多篇文章的不同部分时,能适用的检测方法就有很大差别。下面本文将对这些检测系统和算法进行阐述。

二、基于文本内容匹配的检测方法

1993年,Manber提出了一个Sif工具,用于在大规模文件系统中寻找内容相似的文件。Sif工具中“近似指纹”的思想就是用基于字符串匹配的方法来度量文本之间的相似。1995年,Brin和Garcia-Molina]等人在“数字图书馆”工程中提出了文本复制检测机制COPS(copy protection system)系统与相应算法。COPS系统框架为以后的自然语言文本复制检测系统奠定了基础,后来的检测系统框架与COPS大同小异。在COPS的基础上,Garcia-Molina和Shivakumar等人又提出了SCAM(Stanford copy analysis method)原型。SCAM还吸收了信息检索技术中向量空间模型的思想,使用了基于词频统计的方法检测文本之间的相似性。同一时期,贝尔实验室的Heintze开发了KOALA系统用于剽窃检测。KOALA系统采用与Sif基本相同的方法,与之类似的方法还有Broder等人提出的“shingling”方法。至此,基于字词直接匹配的学术论文不端检测方法逐渐分成两大类型:基于词频统计的方法和基于字符串比较的方法。

1.基于字符串比较的检测方法

基于字符串比较的方法,也称为基于语法(syntactic)的方法,包括sif,COPS,KOALA,shingling,YAP3,MDR等。这类方法都要求从文档中选取一些字符串,这些字符串被称为“指纹”(fingerprint)。然后把指纹映射到Hash表中,一个指纹对应一个数字。后统计Hash表中相同的指纹数目或者比率,作为文本相似度依据。

(1)文本块选择
KOALA认为30-45字符比较合适,20个字符佳。Shingle方法选择10个连续的单词,大约50-60个字符。Sif工具选取连续50个字节。MDR选取60个字符作为块长度[16]。显而易见,块长度(粒度)越小,匹配错误的机会越大。很可能把两篇不相关的文档判定为剽窃。另一方面,块长度(粒度)越大,丢失复制文档的机会就越大。这样就会把很多复制文档漏过去。
除此之外,在选取文本块时,如何确定文本块的边界,文本块之间是否重叠,各个系统也不相同。COPS做过的实验显示,重叠文本块的检测精度要高于非重叠文本块的检测精度。但是,重叠文本块需要更多的索引空间。另外,对于非重叠文本块而言,插入或者删除一个单词将改变文本块边界,从而会导致检测精度降低。

(2)特征选择
将文本看做由一系列标记组合成的句子集合是一种简单直观的方式,而每个标记分别对应一个单词、数字或标点符号。早期人们发现一些较为简单的单词级别的特征,例如平均单词长度、句子长度等,Holmes则对每个单词的音节组成进行了深入分析,认为充分利用文本中每个单词的音节数特征可以很好量化作者的写作风格。
文本的词汇多样性与丰富性程度是反映作者写作能力及特点的个性化指标,同时也是体现文本风格的重要特征。除了词汇特征以外,文本的词性信息同样也是反映作者写作习惯的一个方面。而且由于同一作者所写的文章往往会使用相似的模式,因此该类特征被认为比词汇特征更加可靠。

2.基于词频统计的检测算法

以SCAM为首的基于词频统计的检测系统都受到了信息检索技术的启示。

(1)SCAM算法
SCAM首先统计文档中各个单词出现的次数,而在处理中文文本前还应该对文本进行分词预等处理。然后按照信息检索中常用的反向索引存储法(inverted index storage)存储文档与词频信息。
后,SCAM参照向量空间模型(vector space model)提出了相关频率模型(relative frequency model),用以度量文档相似性。向量空间模型一般采用点积或者余弦公式来度量相似性。但其相关频率模型其实是对余弦公式进行了改动,试图提高文件复制检测精度。

(2)CHECK算法
CHEC方法的大特点是把文档结构信息引入了文本复制检测中。CHECK需要解析每一篇文档,获得其结构特性(structure characteristic),并存入注册数据库中。CHECK把一篇文档按照其章、节、段落等组织成一棵文档树。树的根节点就是整篇文档,其他节点是文档的一个片段,父节点内容恰好是其子节点内容之和。然后,运用信息检索技术中关键词提取的方法,根据词频提取整篇文档的关键词。
由于CHECK原型只检测Latex文档,而Latex文档中含有格式信息。所以,CHECK在提取关键词时还采用了一些启发式。比如,CHECK认为那些斜体和粗体的单词一般都是重要的单词,所以把这些单词都看作关键词,而无论其出现频率有多少。接下来,CHECK统计各个节点上出现的关键词。节点上的每一个关键词都以其在该节点上的频率比重为相应权重。后,由此构成的树就成为该文档的结构特性。

(3)CDSDG方法
CDSDG是由宋擒豹等人提出的。它的方法与CHECK方法非常类似。它也是把文档按照章、节、段等不同的文本块大小组织成一棵结构树,然后与CHECK方法一样获得每个节点的关键词向量(CDSDG称为主题向量)和相应的词频向量。
但是,在匹配两个节点时,CDSDG既需要度量两个节点的语义重叠度,又需要度量结构重叠度。语义重叠度就是词频向量的相似度,不过,CDSDG并没有采用点积或者余弦公式,而是采用了与SCAM一样的度量公式。

三、结语

学术论文不端问题已经越来越被大家所关注,解决论文抄袭的检测问题对于保护知识产权、提高学术论文质量、净化学术领域、防止学术腐败都有很重要的意义。
对于学术论文检测系统而言,除了要能查出单纯地复制粘贴拼凑出来的论文,还更应该能找到思想剽窃、风格剽窃等深度剽窃。增加提取的特征,对学术论文语料库进行加工和完善,提高检测时的检全率及检准率,努力加强对语义的理解都是接下来进一步研究的发展方向。

参考文献:
[1]Ahlgren,P., Jarneving, B.(2008).Bibliographic coupling, common abstract stems and clustering: A comparison of two document-document similarity approaches in the context of science mapping. Scientometrics,76(2),273-290.
[2]Boyack, K.W., Klavans, R. (2010).Co-citation analysis, bibliographic coupling, and direct citation: Which citation approach represents the research front most accurately?. Journal of the American Society for Information Science and Technology, 61(12),2389-2404.
[3]Chen,D.Z., Huang, M.H., Hsieh, H. Ch.et al.(2011). Identifying missing relevant patent citation links by using bibliographic coupling in LED illuminating technology. Journal of Informetrics, 5(3), 400-412.
[4]Egghe, L., Rousseau, R.(2002).Co-citation, bibliographic coupling and a characterization of lattice citation networks. Scientometrics, 55(3),349-361.
[5]Gl?nzel,W., Czerwon, H.J.(1995).A new methodological approach to bibliographic coupling and its application to research-front and other core documents. Proceedings of 5th International Conference on Scientometrics and Informetrics,167-176.
[6]Gl?nzel, W., Czerwon, H.J.(1996). A new methodological approach to bibliographic coupling and its application to the national, regional and institutional level. Scientometrics, 37(2),195-221.
[7]Huang, M.H., Chiang, L.Y., Chen, D.Z.(2004).Constructing a patent citation map using bibliographic coupling: A study of Taiwan's high-tech companies. Scientometrics,58(3),489-506.
[8]Jarneving, B.(2007).Bibliographic coupling and its application to research-front and other core documents. Journal of Informetrics,1(4),287-307.

作者:曾通

来源:现代经济信息 2015年5期

.—— END ——.