论文查重怎么查？

2020-03-15 本文已影响0人一枚猫奴_

ต热乎ต

很多同学大喊论文重复率降不下去，其中有一半是因为使用了错误的查重软件。根据经验，专本硕论文大部分要求知网，少数维普；博士论文大部分知网，极少数万方。

降重难度：知网＜万方＜维普＜paperpass/paperfree/各种paper类软件

（2019年，万方升级后难度变高，维普升级后变态程度略下降）

你没看错，知网是最简单的，但很多同学迫于钱包压力，前期会使用paperxx来查，这些野生软件的算法很严格，意味着一段抄袭内容你修改后，知网可能已经合格了，但paperxx很可能标黄，继续占重复率，给人怎么都降不下来的感觉……

所以我一般建议使用学校要求的软件，如果用知网觉得肉疼，还可以用小分解（知网初稿系统），算法一样，少一个论文库，价格便宜，改得差不多再用定稿系统查。

在知乎逛了一圈，一般抖机灵的回答大家爱看，问题是投机也得管用才行啊，试过的人都知道，翻译软件/机器翻译出来的文字太辣眼睛了，还有加空格、逗号什么的，真不怕挨揍，看不下去了……

做一波辟谣和科普吧

（2020.02最新信息，若别处说法不一，以本文为准 [嚣张]）

☀️那些离谱的江湖传说

①系统怎么查重？ ②会留检测记录吗？ ③标引用、抄书、截图顶用吗？ ④格式影响查重不？

☀️拿来就用的正派降重技巧

☀️你很可能还想问这些

ต 首先辟谣一些疯传的观点。

① 系统到底怎么查重：“不允许连续13字相同”“查重阈值5%”❓

猫奴说：经常有人问我知网是按连续多少字相同来查？这一条是最流行、最古老的传言了，假的。就这么说吧，按最严格的标准来，你每隔7个字就插入一个字，语句不通不说，降重效果微乎其微。知网查重系统开发一二十年了，每年更新个几次，算法怎会如此小儿科，那也不会有人苦恼降重的问题了，每句多写几个字谁不会。

查重阈值是多少？查重阈值确实存在，但具体是多少有很多种说法，0.5%、1%、5%…… 但即使知道了也没多大意义，何必纠结这个。比如阈值是1%，知网查重会分段落（按章节或随机分），如果一个段落10000字，那么理论上单篇抄袭100字不会标红。那么实际操作是这样的，你先假定一个阈值（可能是错的），看每个章节字数（系统可能不按章节分），算出单篇可抄袭字数（最多也就一小段），找多篇文献每篇抄一小段（某些文献可借鉴的很多，而有些文献一段也用不上），最后你得确保除了抄袭的这段，其它内容不会和这些文献重复（有时自己写的也判定重复），以上条件都满足，抄袭而不标红的“阴谋”才能得逞，太累了……

当然你每篇抄得越少，被查出来几率越低，这是肯定的，至于“越少”是多少，没人说得清。

那知网到底怎么查重？

知网采用模糊算法，分段进行查重（识别出章节就按章节分段）。统计每个段落文字/关键词并与论文库里文献进行对比，达到一定比率就把连续重复多的地方标红。

看到这里是不是很懵，完全不知道怎么对症下药。你只需要知道的是，系统没有那么智能，不会对比论文表达的意思，它只是一堆很死的代码、算法，按字词的相似比率来判断抄袭，你要做的是尽量改得和原文不同，观点一样没关系，用词、表达方式一定要变。

② 查重后听说有检测记录，知网会不会就入库了，导致学校重复率飙升❓

猫奴说：不会，只要你有钱，查多少次都可以，知网更新时才会收录（通常半年或一年后）。只要学校没说不然提前查，那就放心查随便查。

检测记录是指，检测报告上可能会显示[最近一次]的查重时间和结果。这个记录不代表论文入库，不影响学校检测。然而在全国检测量巨大的毕业季，常会出现即使你没有提前检测，也会有查重记录的情况（知网Bug）。少数学校不允许学生提前检测，倒是可以联系我使用“无痕检测”来删除记录，但只能确保没有此次查重的记录，以前查重过留下的记录删除不了，也无法保证避免知网出现Bug，把别人的检测记录安在你头上的情况……

③ 引用要怎么标注才不会标红？抄书或截图是不是查不出来❓

猫奴说：引用也是参与查重的，无论你标注得再规范，都不影响查重结果，直接引用别人原文等于抄袭，你需要用自己的话组织表达别人的观点。

有人问，一篇论文知网上搜不到、或者抄书，是不是就查不出来？不是。首先知网和知网查重系统是两回事，系统收录的远不止知网上的论文，假设不成立。其次抄书的问题，系统有图书资源库，而且即使没收录，你抄的内容也可能被以前的学生抄过，所以被标红也不是没有可能。

知网是可以查图片的，在2018.04更新后增加了OCR功能，所以截图文字或表格不管用了，很可能被查出来。至于Mathtype编辑的公式，和图片差不多，根据经验被查出来几率不大，能用尽量用。

④ 论文格式影响查重吗❓

猫奴说：说实话，会影响。当然不是指字体、颜色、行间距这些格式，而主要是三点：

首先，目录要自动生成，参考文献格式正确，才不会被标红；

其次，各章节标题是否为标题格式，会改变系统分段，有时对结果影响很大，有同学自己查重合格，重新排版后交到学校查，重复率升高了10%；

最后，关于word和pdf查重，一定要按学校要求来，因为结果可能差异很大，如果两个都允许，首选word查。pdf会查脚注，参考文献标红几率大，以及可能出现各种各样的问题。

⑤ 暂时想到这么多，待补充。有疑问请留言。(ง ˙o˙)ว

“我一个老实学生，不想用投机法把论文搞得乌七八糟，我要怎么降重❓”

方法：以句子或段落为单位，在理解原文意思和逻辑的基础上，复述一遍。

精髓：结合使用各种降重技巧，尽可能改得和原文不同，逃过系统查重。

原则：保持原意，质量第一，降重第二。别过分苛求重复率，别为了降重而降重！

最基础又有效的降重技巧：（4年实战总结）

① 同义词替换（专业词保留，其它词改掉）

如：损坏=破坏，渠道=途径，降低=减少，第一第二第三=首先其次最后

如：人们俗称的女神通常都十分漂亮 → 普通人眼中的女神往往都面貌姣好

② 改变表述方式（“变换主被动语态”“使用反义词”等把原文换一种方式来表达）

如：成功率很高=失败率很低，我打了他=他被我揍了

③ 打乱顺序（多个词语、短句或段落在并列的情况下，尽量打乱顺序）

如：我喜欢的水果有苹果、梨子和香蕉=我爱吃香蕉、梨子及苹果这三种水果

④ 拆分合并法：长句分成短句，短句合并为长句

⑤ 适当增词（实在无计可施的情况下，可适当增词来避免句子和原文过于相似）

⑥ 做表格：不仅数据可以做表格，只要分类表述的内容都可以做表格，例如各公司的激励政策对比，做表可以一定程度避免重复，更妙的是，维普不查表格。

⑦ 表格重复：调换行列顺序，数据用mathtype输入

⑧ 翻译法的正确使用姿势：读外文文献并人工翻译，重复的几率很低，慎用机器翻译。

⑨ Mathtype输入数据或字母：工科福利，目前知网检测图片的能力有限，大部分mathtype查不出来。

⑩ 中英文人名互换（汤姆=Tom）

⑪ 中文数字和阿拉伯数字互换（“一”=1、①，19世纪80年代=十九世纪八十年代）

⑫ 专业词多到崩溃：有把握的前提下可替换，如“CO2”→“二氧化碳”，“降维攻击”→“降维打击”；可使用代词，他、她、它、其、这、那、前者、后者、该物质等等，如“A在燃烧后产生B，A的特点是……，B的特点是……”可改为“B是A的燃烧产物，前者具有……特征，后者具有……特征”，这不就消灭俩关键词。

⑬ 能写中文尽量不写英文。查重系统是按字符数算的，“皇帝”算2个字符，“Emperor”算7个字符，当然更容易重复了。

⑭英文摘要重复：改英文太难，那就把中文句先改得彻底一些，拗口也没关系，然后用谷歌翻译差不多就能搞定。学校要求高的话需人工翻译。

⑮ 想到再补充…… (ง ˙o˙)ว

题外话：有些同学会说，这些方法我试过了，不管用。我想说，单纯使用一种方法效果肯定不会太好，比如每句替换几个近义词或只调换顺序，改后依旧标红的可能性很大。降重是一个概率问题，各种技巧需要结合起来使用，查重系统就是一堆算法，你对原句改动越大，系统越无法识别出相似，那自然就降重成功；反过来，即使你已经竭尽全力改动某句或某段，也不能100%保证说肯定不重复了，很多同学都有过这种体会，一些自己写的句子也会被标红，天下论文千千万，这种情况其实很常见，你要做的是把标红内容都改改，那么全文重复率降低是必然的事。

具体降重案例的剖析：（教你怎么使用上面的技巧）

① 什么叫以句子/段落为单位进行降重❓

《皇帝的新衣》原文：许多年前，有一位皇帝，为了穿得漂亮，不惜把所有的钱都花掉。他既不关心他的军队，也不喜欢去看戏，他也不喜欢乘着马车逛公园——除非是为了炫耀一下他的新衣服。他每天每个钟头要换一套新衣服，人们提到他总是说：“皇上在更衣室里。”

以句子为单位降重后：在很久以前，有个皇帝愿意将全部财产都用在穿着打扮上。他对看戏提不起兴趣，对军队不管不顾，连坐马车逛公园都一心想着向世人显摆自己的新衣服。这位皇帝一整天总在换衣服，成了老百姓口中“总在更衣室里”的皇帝。

⭐重点：改前改后段落中相同的词语已加粗，其它词汇全替换，且保证原意不变，语句通顺。

以段落为单位降重后：在很久以前，有一位老百姓口中“总在更衣室里”的皇帝。他对看戏提不起兴趣，对军队不管不顾，但一整天总在换衣服，连坐马车逛公园都一心想着向世人显摆自己的新衣服。他甚至愿意将全部财产都用在穿着打扮上。

⭐重点：理解整段话的意思，在替换词、调换顺序的基础上把句子进行糅合，重新表达。

② 具体说说这个“调换顺序”要怎么操作❓

调换顺序，主要用在因果关系和并列关系的多个词语、句子或段落之间。比如这段《皇帝的新衣》，你会发现每个短句都在表达皇帝臭美这个意思，但互相之间不挨着，谁先说谁后说都行，那就可以随便排列组合。再比如“因为你很美，所以我爱你”，改为“我爱你，是由于你很美”，先果后因；“因为你漂亮、善良又有钱，所以我爱你”，改为“我爱你，是由于你有钱、善良还漂亮”，三个形容词并列关系，可以随意排列顺序。

抛砖引玉，总之，你越想尽办法把原文改得“面目全非”，查重系统就越认不出你来，重复率当然轻松通过。埋头一顿爆改，改得它乌漆嘛黑、锃光瓦亮，改得原文都认不出仿文……（对不起，卡姆突然附身）

题外话：有些同学会说，查重系统是识别关键词，调换顺序根本没用，或者拿检测报告来说，“你看我按你说的改了，还是标红了”。这就像告诉我清华毕业生也有卖猪肉的，就放弃读书了一样。降重是个概率问题，并不是你改了就一定成功，只是不改一定会继续红，你用的技巧方法越多，降重效果越好，按句子改不如按段落改效果好，只改词汇不如改词汇+换顺序的效果好。调换顺序有没有用，起码对知网来说太有用了（几千篇、数百万字亲测），paperpass可能不是那么友好，但还是那句话，不改一定红，改了碰碰运气。还有，不要纠结于某一句话到底要怎么降重，有些句子就是特别难，实在改不了就放弃，多关注那些能改的，控制全文重复率就好。

③ 大段数据重复怎么改❓

⭐重点：别动数据，结合“同义词替换”、“打乱顺序”等方式进行修改。

“替换词”：增加→上涨；一共→总数；大幅度→显著 ……

“变换顺序”使用得更加频繁，如专任教师→保育员→教师，改为先说教师→保育员→专任教师。

词语、短句甚至段落之间，只要是并列的情况，都可以打乱顺序进行叙述，降重效果甚佳。其它细节技巧大家可以自己对比两个段落，体会下。

⭐最多人问的问题：

①我抄的怎么没查出来，哪个查重系统更准❓

猫奴说：查重系统没有准不准的说法，它们各自论文库不同，你只要老老实实通过学校要求的软件即可。即使牛逼如知网，也不能保证把所有抄袭都查出来。

抄的没查出来有两种可能，一是系统没收录，二是没达到查重阈值（简单说就是抄某篇论文字数不多，系统默认不标红）。只要是正版知网，提交相同文档到学校，结果肯定是一样的。

②第一次检测没标红的句子，在修改后复测时标红了，什么情况❓

猫奴说：虽然知网是目前最牛的查重系统，但也做不到100%一次性把所有抄袭都查出来。当整篇文章在字数、结构、内容上有所变化时，系统又可能再次检测出新的抄袭。即使这个句子或段落自始至终没有改动过，但在修改过程中它周围的段落或整篇文章有所变化，其所在环境发生变化，最终导致这个段落也被系统识别了。

举个很形象的例子——连连看，这个游戏有个功能是重新排列，在重新排列前后，虽然可供连接的东西本身没有变，但由于顺序变了或周围环境变了，就又可以发现新的连接。再举个很实际的例子，一篇文章重复了5000字，把红字都删掉再检测，大概率不会是0%。

有的同学问，那会不会越改重复率越高，不得改到天荒地老？

不会的。通常新查出来的标红内容，都是那种本身就是抄的，只是第一次没查出来而已。把这些都改掉了，那重复率肯定能降低。

同时也提醒大家，修改后建议都再检测一下，保证和提交学校的是同一版本，才能确保结果一致哦（学校有自建库的话，结果可能会有差异）。

③哪里有正版知网检测❓

猫奴说：所有能检测的地方都是商家，知网不对外检测。淘宝很多都是真的，只是要学会识别。

所以不要再问“你这个是不是官网检测？”“为什么你比官网检测便宜，是不是假的？”这种傻问题了，你百度搜出来的检测入口，没有一个是官网，都是装成官网的样子而已，当然也并不是越贵越好。

知网正版报告可验真伪，网址：学术不端报告单验证

其中专本科定稿系统验证显示PMLC，硕博士定稿显示5.0或TMLC，期刊/分解系统显示AMLC或SMLC。

验证成功即为正版，这是一点。另外还有一点安全问题，论文是否会被泄露等等，这个就靠自己辨别了，选择信任靠谱的商家。

④知网报告上“疑似指标”会有影响吗❓

猫奴说：这个疑似指标没人看的，至少我没碰到哪个学校说不准有疑似指标，但有些同学还是爱去纠结这个东西，那我简单说下吧。

“疑似剽窃文字表述”，只要你重复率不是0%，几乎都会打钩；

“疑似剽窃观点”，你把报告上列出的剽窃观点的句子，全改到合格（从红到黑），那么理论上可以去掉这个指标。

⑤还没想到，有人看再更。(ง ˙o˙)ว

淘宝：一枚猫奴

知乎：一枚猫奴

微博：一枚猫奴_