基于领域的数字出版物检测系统的实现

主题：文献版权：原创标记

本站原创更新时间：2024/04/19 阅读量：9914

这篇是一篇免费的关于领域和检测和系统相关资料,可作为出版物分类研读.

〔摘要〕数字出版物的侵权检测能够提高数字出版物质量,净化数字出版物市场,为数字出版物的发展提供良性循环.本文从出版机构所处的领域出发,以其自身所有的资源为基础,利用现有的文献检测技术,在句子层次上实现了数字出版物的相似性检测,从而为出版机构提供一个符合其自身需求的检测系统.

基于领域的数字出版物检测系统的实现

　　〔关键词〕数字出版物；侵权检测；相似性检测

　　近年来,随着国家加强文化工程的建设,以及数字阅读需求的爆发式增长,数字出版物得到了前所未有的发展.在发展的同时,很多出版机构为了追求赢利而忽略数字出版物的质量,特别是在书籍、资料等文献领域,内容重复、剽窃侵权现象严重,极大地损害了原创者的利益.已有的数字出版物检测系统贪大求全,忽略了出版机构对于检测系统的专、精、深的特定需求,造成资源浪费严重.同时,专业领域内的文献资源往往比较混杂,即有书籍、报刊、也有一些共开的文件以及内部资料等等,需要检测系统能够进行跨文档、跨格式检测.而当前已有的检测系统大都只专注于论文及网页的检测,所检测的对象比较单一,并不涉及书籍、资料、内部文献等多重格式的文献检测.因此,如何解决专业领域内数字出版物剽窃的检测是当前我们急需解决的重要问题.
　　提高数字出版物的质量,净化数字出版物市场,降低编辑审阅的成本,减少读者的阅读干扰因素,打造良好的市场培育能力是当前一些出版机构的当务之急.这首先需要解决领域内的出版物剽窃现象,加强数子出版物相似性检测,杜绝劣质数字出版物的产生.本文从数字出版物所涉及的领域入手,以数字出版物的句子为基本单元,利用已有的编辑距离检测方法实现了领域内数字出版物的相似性检测.本检测系统简单,容易操作,配置要求相对较低,适合各个小的出版单位自行解决领域内数字出版物的文献抄袭行为.
　　1 相关的研究

文献相似性检测主要涉及两个方面：一是检测对象,即对应的数字资源.二是采取可靠的检测技术,主要是相似度的计算.首先从检测技术来看,在文档检测领域的研究中,主要从3个方面来实现文档相似性的比较.一个是利用词频统计的方法来实现文献相似性的比较.该方法通常是将文本中的低频词忽略掉,以高频词作为相似性检测的对象,通过相似词的词频并结合一些特征判断的方法来实现相似的检测.典型的是1995年Garia-Molina等提出的SCAM系统[1].这类检测系统的优点是简单、速度快,缺点是结果并不理想.第二种方法是从文档的结构出发以某一结构中包含相似字句作为比较的对象来实现文档相似性的检测.利用文档结构来实现检测的系统通常以文档的章节、段落、句子作为结构处理对象,以句子或文本的词性、词序与之相结合作为相似度的比较依据,并通过香港理工大学的Si和Leong在1997年研发的CHECK系统[2]利用关键词统计再加上文本结构信息实现文本相似性检测.宋擒豹等于2003年提出的CDSDG系统[3]以及鲍军鹏在2006年提出的DCDGrid系统[4]也是在检测系统中利用了文档、句子的结构.杨思春提出了一种改进的句子相似度计算模型,以关键词抽取,结合同义词比较,并以词形加词序来实现句子相似度的计算[5].程克明以文本的结构和内容作为检测对象,从文本中抽取其目录作为目录树,利用关键词统计和加权树性结构来实现文献相似性检测[6].从结构入手能够大幅提高检测结果的质量,但是检测效率有待提高.最后一种是利用数字指纹方法是实现文献相似性检测.数字指纹是通过对文档的字符串进行哈希运算,得到字符串的不同的哈希值,形成“数字指纹”,并利用哈希表中相同的指纹数目或者比率作为字符串相似性比较的依据,进而得到文档的相似性.典型的是亚利桑那大学的Manber在1994年提出了一个Sif工具[7],以字符串的Hash运算值作为检测值来实现大型文件系统中查找相似文档.1995年斯坦福大学的Brin等人提出COPS系统[8],1996年Heintze的KOALA系统[9]以及后来的Broder的Shingling算法[10]和Charikar的Simhash算法[11],都是基于近似指纹的字符串匹配的算法进行复制检测的.数字指纹运算快,适合大量数据之间的相似性计算,因此得到广泛的应用.近年来,随着语义技术的发展,将语义技术融入相似性检测中成为相似度检测的趋势.中国人民大学的夏天提出的xsimilarity项目实现了基于词语的语义相似性检测[12].同时,在相似性检测上,还有很多其它方面相似度的测量,例如斯坦福大学的Alex Aiken 1994年开发的MOSS系统能够实现代码、文本等多种表达语言的相似性检测[13].

其次从检测对象领域来看,大多数检测系统并不涉及书籍、报刊、资料等内容的检测,只注重期刊、论文、网页的检测,而且多数检测系统采取数据全盘扫描模式,并没有领域之分.以中国知网CNKI为例,其在侵权检测的方面存在3个子系统：《科技期刊学术不端文献检测系统（AMLC）》、《学位论文学术不端行为检测系统（TMLC2）》、《社科期刊学术不端文献检测系统（LC）》.它们都以《中国学术文献网络出版总库》为全文比对数据库,可检测抄袭与剽窃、伪造、篡改、不当署名、一稿多投等学术不端文献,可供期刊编辑部检测来稿和已发表的文献[14].这种做法极大地提高了检全率,但是也消耗了大量的资源来处理不同领域的内容,甚至因为在医学、物理、文学之间进行相似性检测而产生了一些毫无意义的结果.
　　由于出版机构特别是一些专业出版社其经营领域相对固定,经常需要处理的都是一些即定领域的文档,并不需要其它领域的文献作为其资源库的一部分.同时,由于日常的工作积累,使其不仅拥有一些规范性的文档,也拥有一些不规范的内部资料,而这些文档对于很多检测系统来说并不支持.因此,当前的一些检测系统并不适合于当前的出版机构特别是一些专业出版社. 当前页数：1/2首页上一页12 下一页尾页

综上而言:该文是一篇文献类有关研究,可作为检测系统与出版物与领域与数字研习.