很多国外期刊都会选择iThenticate作为查重手段。当文章第一次上传至iThenticate时,将为作者返回一个相似性评分。该结果往往是评判论文是否存在抄袭的重要依据。那么,相似度评分表示了什么问题?它与剽窃是什么关系呢?
本期内容包括:
• 了解相似度含义
• 读懂相似度报告(不同的重复率代表什么?)
• 相似度与剽窃(我的论文剽窃了吗)
1 相似度评分是什么?
相似度评分表示上传文档中与其他已发布文章或web页面中的文本匹配的百分比,也就是我们说的重复率。例如,30%的分数有可能是匹配一个来源,也有可能由许多较小的匹配累加而成,最大的可能只有4到5%。
30%相似度评分的不同匹配结果
相似度评分只是通过比较文档来检查文本相似性。它既不作出法律判断,也不提出法律建议。
匹配出现的位置有时比匹配的数量更重要。例如,某些研究领域的编辑可能不太关心方法部分的匹配大小,因为在方法部分中描述某个过程的方法只有那么多。如果讨论或结论中匹配的内容没有进行适当的引用,即使该匹配只占论文的一小部分,也应引起关注。
一种类型文章的可接受重复率范围可能不适合另一种类型的文章。例如,综述文章的总体相似度评分可能高于原始研究文章。
2 如何解读相似度报告?
在查看相似度(重复率)报告前一定要注意,几乎所有论文的在经过查重后,都会有一定的重复率。但这并不意味着每一篇论文都有剽窃的嫌疑。
其中重复率结果可以划分为以下三个范围 :
<10% 低重复率= Not Likely to Be an Issue(不太可能有问题)
这种重复率的来源是一些分散性的文本或一些常用短语。一般单个重复来源仅在1-3%。因此,这种重复率报告结果可以直接忽略。
10-50% 中等重复率= Possible Issue(可能有问题)
重复率在此范围内的文章可能存在一些大片的重复段落,但这也取决于来自单个来源的重复比例。这样的文章需要简略的阅读重复率报告,并确定单个重复来源的重复率均不超过10%。
>50% 高重复率= Probable Issue(很可能有问题)
重复率在这个范围的文章,报告中的百分比将自动用橙色背景突出显示。这样的重复率报告需要我们仔细阅读,很有可能文章与一个或多个重复源的重复率都很高。
3 如何判断论文是否剽窃?
论文剽窃主要有以下几个类型
1) 范围
相似点是指几个单词或几个句子、整段、几段、一篇论文的大部分还是整篇论文
2) 复制材料的原创性
- 提交文件是否包含描述材料、方法和/或程序的技术语言和/或标准短语?
- 这种相似性是否与作者本人的作品有关?
- 提交的文件是否包含重用先前发表的文章但未引用?
- 一字不差的材料是否是用引号括起来的
3) 材料的位置/背景/类型
摘要:摘要中出现大量匹配提示文章可能有问题。
关键词:如果,在摘要旁边,关键词显示了高水平的匹配词,那么这也告诉你要更仔细地看提交的文档。
材料和方法/程序:一篇文章的这一部分只有这么多种表达方式。应该检查重叠是否涉及无法重新构思措辞的标准过程。但整段文字中,简单地找出并替换一个单词是不可接受的。
结果和/或讨论/结论:此区域的匹配可能表示抄袭或重复/冗余提交。
引用:相似之处是否与提交文件中正确引用有关。
尽管相似度报告能给作者和编辑很好的参考,但有时这个重复率报告也会出现一些错误,需要对照查看各个重复源的重复率大小和手稿正文内容判断是否属于剽窃的范围。
错误警报:一篇显示错误警报的文章重复率会超过30%,但在报告中却并不显示有剽窃的痕迹。这是因为整篇文章的重复率可能由多个重复率不超过5%的重复源组成,这样的文章仅需要简略的阅读重复率报告。
隐藏问题:具有隐藏问题的文章表面上看起来没有什么问题,但查看报告后就会发现有剽窃现象存在。这类文章通常整体重复率不是很高,但存在一个高重复率的重复源。例如,一篇文章的重复率只有12%,但只有两个重复源。其中一个重复源重复率为1%,而另一个重复源重复率则高达11%。这样的报告同样也需要仔细阅读。
因此单纯的比较查重率的大小有些不客观,还需要仔细查看单个重复源的重复率。具体分为以下几个范围:
1-3%: 这类重复源来自于一小段相似单词或一些常用的短语。这类重复源一般不需要查看。
4-7%:这类重复源是一些相似的句子或一个小的段落。如果只有一个这样的重复源,可能没有什么问题。但是如果有多个这样的重复源,那么文章在提交时可能会显示有问题,可能就需要对文章进行一定的修改。
8-15%:这种重复源通常由几个段落组成,并会表明文章有文本使用不当。这种情况就需要引起重视,对必要的地方着重修改。
15-25%:单个重复源的重复率如果在这个范围,那么文章很有可能存在一整段的抄袭。这类文章需要仔细检查重复的内容,并反思为什么会出现如此多的重复。
>25%:存在这个重复率的文章就需要着重关注,非常仔细的检查重复率报告。
作者须知:
在未编辑的手稿中如果有一些简单的错误,可能会导致匹配被错误地选取。比如,如果在手稿中省略了参考文献的标题,该部分内容将不会被排除在外。
如果作者没有使用引号,或者在文章的开头或结尾漏掉了一个引号,系统将不会将其识别为引用,即使编辑可能会很明显地看到它。
一般来说,所有主要的期刊都是会员,但是如果你想知道某个特定的期刊是否包含在数据库中,请访问以下链接: http://www.ithenticate.com/plagiarism-checker-database-content/,并在页面的末尾搜索学术期刊。
总的来说,相似性评分并不是什么神奇的数字,它并不能直接说明文章是否存在剽窃的行为。对已经获得的相似性结果,首先我们分析结果中这些匹配的来源是多个还是单个,以及这些匹配在文章中的具体位置。最后,根据这些分析结果及我们文章的类型,才能确定是否真的有剽窃现象的存在。
扫描下方二维码,关注【埃米编辑】微信公众号,获取更多SCI论文写作资料。
编译/婷婷
参考资料:
[1] http://www.ithenticate.com/plagiarism-detection-blog/bid/63534/CrossCheck-Plagiarism-Screening-Understanding-the-Similarity-Score#.XTEmpvnWaCA