论大数据背景下的电子文件归档_大数据背景下

2020-02-28 其他范文 下载本文

论大数据背景下的电子文件归档由刀豆文库小编整理,希望给你工作、学习、生活带来方便,猜你可能喜欢“大数据背景下”。

浅谈大数据背景下的电子文件的归档管理

2011413078 游玫玫

摘要:

主题词:

一、引言

随着物联网、移动互联网、社会化网络的快速发展,数据将成几何级数增长。据估计,2007年,人类大约存储了超过300艾字节的数据,而到2013年,世界上存储的数据预计能达到1.2泽字节。其中,非数字数据只占不到2%。“大数据”时代已经悄然来临,并给各行各业带来了数据使用方式的根本性变革。这场变革也必然对档案界产生深刻影响。在大数据时代背景下,各行各业都面临着对庞大而复杂的数据进行有效管理的巨大挑战,人们越来越认识到对自身产生和拥有的大数据进行有效管理的重要性和迫切性,档案行业也不例外。其中,数据的爆炸式增长也必然带来电子文件的爆炸式增长,并将成为新生成文件的主体。电子文件是数字档案馆信息资源的重要来源,是数字档案馆管理的主要对象。但是,目前电子文件的归档工作还没有得到足够的重视, 很多重要的电子文件无法确定其保管的职责而游离在网络系统中,处于档案的管理之外,这样势必给我们进行的档案数字化建设造成不可弥补的损失。因此,在大数据时代背景下做好电子文件的捕获和归档工作刻不容缓。

二、何谓“大数据”

(一)大数据的概念

与云计算一样,“大数据”(Big Data)是最近几年被人们热议的话题。半个世纪以来,随着计算机技术全面融入社会生活,信息呈几何式增长,量的积累引起了质的改变。而最先经历信息爆炸的学科是,如天文学和基因学。创造出了“大数据”这个概念,进而发展到所有的领域中。最初,大数据这个概念是指需要处理的信息量过大,超过了一般电脑处理数据所能使用的内存量,因此工程师必须改进处理数据的工具。今天,大数据是人们大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。大数据是人民获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织机构以及政府与公民关系的方法。

(二)大数据,大挑战

2013 年 1 月 29 日,住房和城乡建设部公布了首批 90个智慧城市试点,由家统一规划和施行的智慧城市建设正式起步。建设智慧城市要遵循“多用信息少用能源”“、多用信息少受灾害”以及“多用信息多利民众”几项原则。档案馆作为永久保存档案,并提供档案为社会服务的科学文化事业机构,储存有海量的信息资源,是信息资源的聚焦体,但是由于管理方式的落后、人才的欠缺、社会档案意识的低下等原因,这些信息资源宝藏并没有得到有效地开发和利用。智慧城市的建设是档案信息资源得以更好开发和利用的真正机会,是档案馆真正融入城市、提高形象的难得机遇。智慧城市依赖信息的使用,档案馆要想真正融入智慧城市的建设,就需要盘活档案馆保存的信息,使这些信息融入智慧城市的信息 流,为决策层、为公众所用,要盘活各个档案馆保存的海量的大数据时代,电子文件以指数级的速度增长,给电子文件的管理带来了前所未有的挑战,虽然我们知道这些浩瀚的电子文件中蕴藏着巨大的“金矿”,但我们逐渐发现想要从这

些电子文件中“淘金”比纸质文件还困难。面对着巨量的电子文件,我国长期以来提倡的“直接鉴定法”将在此遇到严峻的挑战,文件鉴定人员逐一阅读每一份电子文件的原文恐怕实在是无能为力。后来档案界比较认同电子文件的宏观鉴定 方法,即从总体上判断机构形成有价值文件的能力,而不是直接地对文件加以处理。按照这种思路,在确定一个机构是电子文件管理的对象后,就需要对这个机构产生的电子文件进行收集,对这些电子文件进行收集只完成了电子文件管理的第一步,而且在现今条件下,收集这些电子文件也并不难,困难的是如何快速的从这些电子文件中检索出所需要的文件?如何对这些电子文件进行分类?如何鉴定哪些是值得归档保存的?如何对这些电子文件进行编研从而抽取出其中的知识因子以供社会利用?要解决上述问题,档案工作者除了从管理方面寻求解决办法外还要寻求技术的帮助。大数据技术可以从技术上提供解决这些问题的办法。在普通的硬件上安装大数据转发器,就能收集数据形成庞大的系统数据,这个量级可以达到每天数 TB 并逐渐向 PB 数量级扩大,大数据软件可以为机器生成的海量数据建立索引,将其整理成可以搜索的链接,这正是档案工作迫切需要的技术。除此之外大数据技术还能完成数据的分类、数据的挖掘,从而使档案界有应对越来越复杂的数据的分析能力。

1.2.2 处理非结构化电子文件需要大数据技术

大数据类型繁多,包括结构化数据、半结构化数据和非结构化数据,现代互联网应用呈现出非结构化数据大幅增长的特点,至 2012 年末,非结构化数据占有例将达到整个数据量的 75%以上,同时,由于数据显性或隐性的网络化存在,使得数据之间的复杂关联无所不在。一直以来,人们对数据的管理采用的是关系型的数据库,比较有代表性的就是IOE(I 指 IBM 的服务器,O 指 Oracle 的数据库,E 指 EMC的存储模式)模式,档案行业也如此,但是大数据时代,IOE模式已经不适合做大数据处理。大数据应用除了数据规模巨大之外,还意味着拥有庞大的文件数量,因此如何管理文件系统层累积的元数据是一个难题,处理当会影响系统的扩展能力和性能。面对着快速增长的非结构化文件,档案工作者在进行电子文件管理时困难重重,现在基于大数据技术的数据库,如 SQL 已经可以做关系数据,也可以做空间数据、图像、数据流等非结构化数据,而且基于对象的存储架构可以在一个系统中管理十亿级别的文件数量,还不会像传统存储一样遭遇元数据管理的困扰,大数据技术为档案工作者管理非结构化电子文件的问题提供了解决之道。

三、电子文件的归档

1、电子文件归档概念

归档是将经鉴定具有档案价值的文件由形成部门向档案部门移交的过程。无论是纸质文件的管理还是电子文件的管理,还是电子文件的管理,归档工作都是十分重要的环节,都标志着文件管理责任由文件生成部门向档案部门的全面移交。不同的是,在传统的纸质文件管理环境中,文件生命周期的阶段性相对较为明显,归档通常在文件的生命周期运转形态,归档环节可能会前移至电子文件生成或收到之际,甚至在此之前,在系统开发设计阶段便开始予以规划和设定,加上电子文件自身的技术特性、多种多样的载体形式以及计算机管理的特殊要求,使得电子文件的归档工作要比纸质文件的归档工作更为复杂。

2、电子文件的归档方式

逻辑归档(logical filing)是指在计算机网络上进行,不改变原存储方式和位置而实现的将电子文件的管理权限向档案部门移交的过程。物理归档(physical

filing)是指把电子文件集中下载到可脱机保存的载体上,向档案部门移交的过程。逻辑归档有助于充分利用机构内部的网络资源,实现资源共享。物理归档可以实现电子文件的集中管理,保证电子文件的安全性。

电子文件的归档方式也可分为在线归档,离线归档和近线归档。在线归档(On-line Filing)也称网络归档。一是指将归档电子文件通过网络直接传输到档案部门,或加工后传输到档案部门规定的地址中,并存储在档案部门本地载体的过程;二是指逻辑归档。离线归档(Off-line Filing)指将电子文件存储在一定的介质上移交给档案部门的过程,是物理归档的另一种方式。近线归档(Near-line Filling)外延相对较广泛,主要定位于在线归档和离线归档之间的应用。就是指将那些并不是经常用到,或者说数据的访问量并不大的电子文件存放在性能较低的存储设备上。但同时对这些的设备要求是寻址迅速、传输率高。

四、大数据背景下电子文件归档管理

信息技术的突飞猛进使互联网在当今社会生活中的应用日益普及,计算机成为了人们办公、学习不可或缺的工具,信息呈爆炸式的增长,大数据时代俨然已经来临。在此背景下,各单位生产出越来越多的电子文件,对于电子文件的归档与保存已经成为各单位在进行文件归档过程当中极为重要的一环。面对汹涌而来的电子文件,档案档案界很有必要探讨一下大数据时代背景下的档案归档管理。

1、大数据背景下电文件归档面临的问题

在大数据时代下,电子文件来源复杂,种类繁多,随着技术的革新,计算机系统不断更新换代,电子文件的归档常需要更改载体且需频繁更改,如何保证电子文件的长久保存与利用,尤其是对于专业软件形成的特殊文件,有着技术和标准运用上难题。在大数据的席卷下,由于各级组织、机构不同程度地存在着电子文件归档方法不恰当、管理方法不科学、管理制度不健全、管理系统功能不完善等问题,直接威胁着电子文件档案信息的有效收集、长期留存,影响着信息资源的整合与利用,给电子文件的归档管理带来了严重风险和隐患。

第一,当前电子文件的真实完整难以保证。在大数据时代,电子文件在很多方面取代了纸质文件。它由拟稿者直接写在磁盘上,并进行修改,然后立即存贮到办公信息数据中,由档案管理人员、技术人员等进行共享。电子文件易于修改,而且改动后难以留下痕迹。电子文件制作过程的虚拟化使对其原件的判别难于实现,在不同时间不同地点,不同人可以获得相同的文件,因而对于原件的辨认是一件难度颇大的工作,因而时常造成真假难辨的局面。

第二、在电子文件的流转、归档、保存、利用等管理活动在各单位仍不普遍,绝大多数单位仍以纸质文件为主要管理对象,电子文件管理没有得到应有的重视。

电子文件收集归档的方法和手段虽有不少,但多停留在研究层面、制度层面或起步阶段,实际操作中还受到诸多因素的制约。行业内真正实施电子文件网上在线归档的单位为数不多。有些正在实施,有些刚刚起步,更多的还在观望。电子文件的归档管理理论和方法有待在实践中进一步探索和完善。其中,具体问题如下:

第二,某些机构实施了建设电子文件的归档保存,但存在保存电子文件不完整纸质文件内容不一致,无法及时、准确查找,无法读取,利用超出权限等问题,中保存不完整问题最为突出。不完整主要表现为仅归档保存了电子文件本身(内容),而忽略了背景、结构信息等元数据,电子文件的真实性、完整性、安全性和可读性面临着巨大风险。

第三,建设业务部门在电子文件归档及其管理实践中缺乏可以依据和参考的规范,城建电子文件管理仍处于自我探索、经验管理的阶段,导致不同机构管理方式差异较大、管理水平参差不齐。

第四,在承认建设电子文件数字化、网络化管理趋势的同时,城建档案馆、建设单位与其他文件形成者就当前城建档案馆接收保存电子文件的必要性,接收电子文件内容、类型与格式,接收的优先级,具体管理方式等问题尚未达成共识,影响了归档接收工作开展的进程。

《论大数据背景下的电子文件归档.docx》
将本文的Word文档下载,方便收藏和打印
推荐度:
论大数据背景下的电子文件归档
点击下载文档
相关专题 大数据背景下 文件 数据 背景下 大数据背景下 文件 数据 背景下
[其他范文]相关推荐
    [其他范文]热门文章
      下载全文