档案是一个国家、一个民族、一个地区文化遗产的重要组成部分,对于保护和传承文化遗产具有重要价值。同时,档案也是历史研究的重要原始资料,对于政府、企事业单位进行科学决策具有重要参考价值。
在我国,尤其是政府机关和事业单位,档案的管理必须严格遵守国家的相关规定,比如我们常说的“八号令”和“十号令”就是分别针对政府机关和企业的档案管理规定。
现存问题
档案整理是档案管理工作中的重要组成,目的是包装存档文件的质量,为今后的档案利用打好基础。
在档案管理流程中,最可能引发瓶颈效应的环节便是对档案价值进行评定,这一环节不仅需要工作人员熟知国家相关法规,还需掌握立档机构业务特性。然而,实际情况是,由于档案数量巨大,尽管诸多单位都设有专属的档案部门,但仍不得不将档案整理工作外包给专门的档案服务公司。
尽管单位档案部门的员工大多熟悉国家规定和自身业务,但由于档案服务公司的从业者往往不断接手来自多元化客户的委托,因此对客户公司业务的了解程度有限,从而导致档案价值评定效率低下,质量参差不齐。
解决方案
依照国家相关规定,应按照文件的价值来设定保管期限,具体依据其内容的重要程度划分为:不予归档、10年、30年以及永久保留。
从计算机的角度来看这就是一个分类问题。于是我们与档案馆合作、利用档案馆已归档的数据,通过监督学习建立了多个分类模型,包括政府机关通用模型、事业单位通用模型。
通用模型的准确率约为72%,尽管各个机构在党群及行政层面存在诸多共性,然而,由于业务差异颇大,导致结果未能满足预期。因此,我们调整了策略,先构建党群、行政以及业务的分类模型,将党群和行政相关档案用于培训通用模型,而各个机构的业务档案则用于专门训练业务档案模型。
调整后的模型的准确率有较大幅度的提升,先后在人社局、档案馆、规划局、审计局、司法局、市劳动保障监察局和税务局几个机构试用,准确率稳定在81%到85%之间。
最后,我们还分析得出,文件中存在着一些具有显著特点的关键词能极有效地确认档案的价值,例如如若在题名中出现“调任”二字,便基本可断定此文件为人事调动之相关资料,保管期限应设为永久。因此,在总结出这类型的关键词后,辅以机器学习模型鉴定,最终的准确率已接近了90%,基本与较高水平的人工鉴定质量相同。
自动档是全国首款智能化档案整理辅助平台,利用机器学习实现了自动化的档案价值判定
自动档