论文检测

查重品牌联盟站权威的论文查重入口!查抄袭,查相似度,学术不端论文检测系统品牌站!

知网学术不端文献检测系统分解

主题:学术不端文献检测系统与学术不端与元数据 版权:原创标记本站原创 更新时间:2024/03/26 阅读量:2474

该文文章为和知网学术不端文献检测系统和分解相关知识,在这里免费阅读,为您的知网检测提供帮助解答.

论文查重提醒您,论文写作完毕之后最好借助知网论文检测系统进行检测,才能更好的修改论文.

实现论文的学术不端检测,用户需要提供的资源包括:

知网学术不端文献检测系统分解

1.论文全文内容

论文全文内容是检测论文是否存在学术不端行为的基础数据.本检测系统是对提交的论文全文内容进行分析,在内容分析的基础上,生成各项检测指标.因此,全文数据是系统所需要的必要资源.

2.元数据信息

元数据指论文相应的作者、作者单位、发表时间、支持基金项目等信息.元数据是检测系统对学术不端类型进行判断所需的基础数据,为了更准确的便于系统做出预判,用户可以在提交检测文献的同时,一并提交文献的元数据信息.

特别提到的是:在进行论文检测的时候,作者信息是非常必要的.输入作者信息,在后续的检测过程中,系统能够自动根据作者信息区分比对资源中的文献是属于该作者已发表的文献,还是他人的文献,为用户快速甄别论文是否存在学术不端行为提供更直观的印象.因为在论文中,引用自己以前发表过的文献是合理的.

在对用户提交的检测文献检测之后,系统生成的检测结果包括:

1. 重合文字来源文献信息.

系统详细列出重合文字来源文献信息,这些文献都是真实存在,而且应是公开发表或得到发表确认的.

2. 比对信息.

检测文献和来源文献的详细比对信息,用户可以快速选择重合文字部分查阅.

3. 总检测指标.

该指标体系从多个角度对检测文献中的文字复制情况进行了概括性描述.

4. 子检测指标.

因为论文一般较长,因此,系统一般按章检索,并且每一章给出子检测指标,该检测指标从多个角度对该章内容的检测情况进行了详细描述.

5. 诊断类型.

系统根据指标参数以及其他元数据相关信息,自动给出一个预判的诊断类型,供审查人员参考.

6. 检测报告.

检测系统自动生成一个检测报告单,详细列出检测文献的学术不端行为检测情况,用户可以对该报告单进行修改,生成终审报告.

(一)总指标体系

论文一般文献篇幅较大,字数多,硕士论文一般为3~5万字,博士论文则多达十多万字.因此,为了让用户对整个论文有一个快速的概况了解,特制定了以下总指标体系:

l        总重合字数(CCA)l        总文字复制比(TTR)l        总文字数(TCA)l        疑似章节数(QCA)l        总章节数(TCA)l        首部重合文字数(HCCA)l        尾部重合文字数(ECCA)

上述指标从整体情况描述了论文的检测情况,便于用户快速了解该论文总的检测概况.下面对上述指标分别进行说明.

1.总重合字数(CCA)

论文一般篇幅大,少则3~5万字,多则十多万字,若以文字复制比来衡量一篇论文的文字重合情况,则不太合适.因为对于一篇十几万字的博士论文来说,10%就已达到1万字,文字复制情况已经非常严重.因此,对于博硕士论文检测,检测系统使用绝对字数即总重合字数作为检测结果的核心指标.

2.总文字复制比(TTR)

总文字复制比则是指论文中总的重合字数在总的论文字数中所占的比例.通过该指标,我们可以直观了解到重合字数在该检测论文中所占的比例情况.

3.总文字数(TCA)

总文字数是指该检测论文所有包含的字数,文字复制比与总文字数的乘积即为重合字数.

4.疑似章节数(QCA)、总章节数(TCA)

疑似章节数是则检测论文疑似存在学术不端行为的章节的数量.总章节数则是指论文总的章节数(对于不按章节显示,而是按照固定长度切分的论文,每一段落为一章节).

5.首部重合文字数(HCCA)、尾部重合文字数(ECCA)

首部重合文字数指论文前1万字中重合的文字数量.尾部重合文字数是指除去前1万字,剩下的部分中重合的文字数量.对于论文,一般开头部分均是综述性的报告介绍,其重要性远低于论文尾部.

(二)子检测指标

对于论文的每一章节,又制定了如下检测指标来反映该章节的检测情况,对于一篇论文来说,每一章的内容各异,重点也不一样,其核心工作内容一般主要存在某几章中,子检测指标可以让用户迅速了解每一章节的检测情况.子检测指标包括:

l        文字复制比(TR)

l        重合字数(CNW)

l        最大段长(LPL)

l        平均段长(APL)

l        段落数(PN)

l        段文字比(PR)

l        首部复制比(HR)

l        尾部复制比(ER)

l        引用复制比(RR)*

上述指标从多个角度反映了检测文献的检测情况,便于用户进行针对性审核.下面对各项指标分别进行说明.

1 、文字复制比(TR)

因为论文一般文字量较多,为了便于用户快速浏览检测结果.系统会自动对论文进行切分处理.有如下两种处理方式:

1.若用户提交的论文是MS Word格式,且按照MS Word格式生成了文档目录,检测系统会自动识别论文章节,按论文实际章节信息显示论文内容.

2.若论文不存在明显的章节信息,或者不是MS Word格式论文,则系统会自动按照每段1万余字符切分论文,按照切分后的结果显示.

文字复制比即指论文切分后每一章节段落的文字复制情况.文字复制比即指论文的某一章节与比对文献比较后,重合文字部分在该章节中所占的比例.比例越高,反映该章节越多的文字来自于其他已发表文献.文字复制比反映了文章“抄袭”的文字数量比例,一般来说,文字复制比越高,存在学术不端行为的可能性越大.

2、重合字数(CNW)

重合字数指论文该章节与比对文献比较后,重合部分的字数.一般来说,不管文字复制比如何,重合字数越多,存在学术不端行为的可能性越大.如图所示,在图中,虽然文字复制比只有16%,比例不高,但图中左文标红部分实际上是抄袭了右文的标红部分.

3、最大段长(LPL)、平均段长(APL)、段落数(PN)

在论文检测中,当连续文字超过一定比例时,称之为段.在本系统中,一般认为,连续200以上文字称为段.

与比对文献重合的最大段长度即为最大段长.最大段长反映成段抄袭特征.连续的文字越长,抄袭的可能性越大.

在论文中,所有段的长度的平均值即为平均段长.

在论文中,所有段的数量为段落数.

平均段长和段落数反映了重合文字在论文中的分布情况,一般来说,指标参数越高,存在学术不端行为的可能性越大.如图9所示,标红部分的连续文字构成了段,而且它是算法设计的抄袭,审查人员比较容易判断;而在图中,标红文字不构成段,连续文字较少,对它的性质判断则可能需要更多的信息.

4、段文字比(PR)

在论文的某一章节中,所有该章节文字重合段的字数之和占该章节文字数的比例为段文字比.段文字比反映了抄袭连续特征.一般来说,连续文字出现的越多,比文字分散出现的情况更可能存在学术不端行为.

5、首部复制比(HR)

论文某一章节的前20%称之为章节首部,首部的文字复制比为首部复制比.就中文文献来说,一般每一章节正文开头部分出现的是综述性语言,重要性相对偏低.如图所示,左文和右文开头大段相同,但文字内容基本都是综述性的介绍.

6、尾部复制比(ER)

每一章节的后80%称之为章节尾部,尾部的文字复制比为尾部复制比.

通常情况下,尾部文字内容就重要性来说,比前部文字内容要高.如图12所示,我们仔细查阅比较图11和图12的内容发现,图11中首部文献是综述他人工作,而图12中尾部文献则是阐述自己的研究工作的目的和意义,应该是作者个人工作的体现,在这部分直接抄袭他文,性质要严重得多.

7、引用复制比(RR)

引用复制比指与存在引证关系的文献的文字重合部分的比例.对于论文来说,存在引证关系与不存在引证关系的复制部分应区别对待.复制了他文内容,而不注明引用,性质要更加严重.同时我们也认为,不是所有的注明了引用的,就不存在抄袭,引用也应有一个度和范围的限制.

按照上面的检测方法和指标体系,AMLC能够处理多种的学术不端类型.在论文检测中,一般不存在不当署名、一稿多投等学术不端行为.对于论文检测中的各类学术不端行为,按照性质的严重性由低到高排序,主要包括:抄袭、篡改、伪造等.下面分别进行介绍.

本文由 中国知网论文查重 www.jiancelunwen.com 原创

该文总结,这是学术不端文献检测系统与学术不端与元数据类有关研究,在这里免费阅读,为您的检测系统与学术与知网与不端与分解提供资料学习.