国内的大学使用微软的WordWord处理软件制作学位论文。学位论文有严格的格式要求。由于人工论文检查效率和准确性低,需要设计学位论文形式的自动检查系统。安徽工业大学的陈国胜老师、何宗明老师在2009年提出了基于XML技术的Word文件的输入和格式检查系统的设计方法。该方法通过Word文档和XML文档的相互转换,设计了Word文档的输入和格式检测系统。但是,这个系统还有不完善的地方。例如,改进文档格式检测机制,进一步实现Excel接口和XSTL转换接口。东北电力大学的一位教授,于2012年提出了一种基于VBA的论文检查方法。这个方法需要使用VBA技术操作宏。一般用户很难使用。隋欣、张军辉在2013年。虽然提出了基于NET的文本信息提取解析方式,但仅读取了文本内的文本、标题、目录、表信息,但不涉及文本的格式信息提取。虽然很多学者表示要操作各种各样的文件,但是还没有比较方便有效的系统来检查同样形式要求多的论文。
本论文设计开发了基于OpenXML格式规范的大学院学位论文格式自动检测系统。该系统采用自动化方式检测docx形式的论文文档,提高用户编辑学位论文的效率,减轻教师和学生的负担。一种系统功能包括单元定位模块、格式提取模块和对比度模块三个模块,如图1所示,设计该方法的系统架构图。
单元定位模块包括11个子模块,包括覆盖定位子模块、独创宣告定位子模块、标题定位子模块等,分别识别论文的特定部位,取得对应的XML信息有功能。格式提取模块包括段落属性提取子模块和特殊格式属性提取子模块两个子模块。段落属性提取子模块的功能是提取测量论文各部分共同的段落属性,例如每个段落的字体、大小、段落间隔。
特殊格式属性提取子模块的功能是提取除了段落属性之外的其他格式,例如参考文献样式提取、图和表格章节标题提取。对照模块包括规则设定文件、规则对比度子模块、报告生成子模块3个部分。规则配置文件的功能是保存模板论文规定的规则,是检查测定对象论文是否正确的基准。
规则对比子模块的功能是比较测定论文的格式特征和规则配置的规则,判断格式的正误。报告生成子模块的功能是获取规则对比度子模块检测到的错误信息并写入检测报告。由于该系统为论文的每一部分的格式,所以
2单元定位模块如何精确定位每一部分,并且如何正确地切断每一部分是重要的。以下是论文中几个重要部分的定位算法。
首先查找全文的第一个带编号的标题,标题后面的第一个段落是正文的开头。然后过滤中间包的标题元素和包装图元素。最后确定正文的结尾部分,寻找正文末尾出现的第一个没有号码的标题,将此作为正文部分的结尾位置的标志。元素包含标题的文本信息和样式。在OpenXML中,根据文档中设置的每个区域的页眉属性,与第一页不同,会生成不同于奇偶校验页的页眉。方法如下。首先巡游要素,判断是否包含子要素。如果包含子元素,则所有页眉引用子元素,然后元素页脚引用子元素。使用页眉引用和页脚引用的标识符位于相应页面的眉毛元素和页脚元素中。如果不包含子元素,则遍历以下元素并重复第一步。重复第二步,直到文档上次停止循环为止,从元素中找到要保存最后一节属性的子元素。
表格中的信息存储在元素的子元素中,您可以依次查找表格的位置。如何命名表格,首先计算获得的位置信息,即该元素是第几子元素,然后检测上一个位置是空段落,并将空段落是否是空行作为表格名称处理。如果在前面的位置找不到表格名,可以追溯到前面的位置来判断。如果要追溯到
步以上却找不到表格名称,则会判断表格名或表格名的格式是错误的。3格式提取模块的格式提取模块的功能是为了获取论文的各个特定部分的格式。格式提取模块包括段落属性提取子模块和特殊格式属性提取子模块。
测量目标学位论文的各特定部分具有段落属性,段落属性提取是所有特定部分的共同动作,由段落属性提取子模块完成。在OpenXML中,所有文本内容都保存在段落元素中。在表格1中,段落具有相同的元素及其描述。(1)字体依次访问各个元素,根据样式层次结构从rFonts元素中依次提取字体,获得中英文字体。检测段落是否为全英语和全中文。另外,有中文也有英语。无法丢弃提取的中文字体样式并用于比较模块。如果是全中文,则取消提取的英语字体样式,不能用于比较模块。如果有中文和英语,提取的中文字体样式全部保存。
(2)尺寸首先基于从样式的层级结构获得的属性Val的值来计算磅单位的大小,然后参考参考参考大小表来获得大小和磅数的对应关系,获得实际大小,并将大小保存在比较模块中。(3)从元素的before和beforeLine属性中提取段前距离信息。
首先根据样式的层次结构找到元素。如果该元素包含beforeLinds属性,则获得与该属性对应的属性值,并计算该段落以行间倍数表示的段前距离。使用元素的子元素行Pitch属性获得一行的磅数。统一换算成“英镑”单位的区间前距离。不包含beforeLine时,属性取得before属性的属性值,计算以“磅”为单位的区间前距离。特殊格式提取子模块用于处理除段落属性以外的格式提取问题,包括参考文献样式提取、图和表的章的标题名称提取等,这些格式对于OpenXML没有明确的要素对应,可以进行特殊的矩形提取。需要。(1)参考文献格式的提取,首先利用正则式使用与参考文献一致的标记代码,根据标记代码决定参考文献的种类。如果不匹配,此文献中缺少标记代码。保存错误信息后,继续提取下一个参考文奉纳形式。成功后,将此文献作为分割点分割括号。分成几个部分来检测作者、出版社、出版年份等格式是否满足要求。接着,获取文献目录的编号模式,判断参考文献的编号是否连续。如果不连续,则保存错误信息,并连续进入下一步。最后参考