一 背景
进入知识经济时代,信息资源作为最重要的社会财富越来越受到关注,利用信息技术,掌握有效的信息资源,已经成为主导全球经济的基础;随着网络技术的不断发展,越来越多的单位、企业都在思索如何将先进的网络技术与现有的信息结合起来,并已经开始利用各种有效的技术对具有价值的图像、书本、期刊、杂志、论文、语音、影像、电子文件、数据库等各种资源进行收集和组织规范性的加工和处理,使其转化为数字信息,并通过网络通讯技术进行高效、经济地传播、接收。使各种不同的用户可以在任何时间、任何地点,都能获取所需的信息资源。这种信息资源数字化的模式,具有大容量信息管理能力,可直接获取资料,建立索引查询、快速处理、安全存储、输出打印等,能够为多人提供信息共享、提高信息的利用程度,让信息得到最大程度的利用。
北京金信桥网络技术有限责任公司多年来致力于数字资源应用技术研究和产品的开发,推出了TBS资源数字化管理管理系统。
二 应用范围
TBS资源数字化管理系统可广泛适用于大、中、小各种类型的图书馆、信息中心、文献信息服务机构及地区性或行业性文献信息资源共享中心等的应用需求。
三 设计原则
TBS资源数字化管理系统是一套基于Internet/Intranet环境应用的资源数字化管理软件,以面向实用、面向网络、面向标准的为基本设计思想,充分体现了用户功能的完整性、界面的良好性、功能参数设置的灵活性等特点,并且具有实施成本低廉、部署速度快的明显优势。
四 实现资源数字化存储的关键技
1 可利用的资源现状
一般来说,信息资源按保存方式可分为:
1. 纸介质:各种印刷文献、期刊、报纸、图书。
2. 电子文献: Office文档、电子论文、图片。
3. 电子书:已数字化的图书等。
4. WEB网页:从互联网上下载的网络资源。
其中纸介质资源占有相当大的比重,同时处理过程最为复杂,是资源数字化的关键。目前,主要的处理方法有:
1、 人工输入:把文献资料用键盘输入计算机是最慢的方法,也是费用最高昂的方法,更困难的是文字校对和重新排版,图片和表格的安排等等,其工作量几乎等同于重新排版一本新的图书。此外,必然会出现的人工录入差错,但使用起来是很方便的,可以进行任意检索,包括全文检索。可以任意将文字内容进行剪裁、复制和粘贴。
2、 扫描存储:使用扫描仪将文献逐页转化为图像存储是图书馆普遍采用的一种方法,扫描存储具有投入少、费用低、速度快等优点,容易形成规模。一天可以处理成千上万页(A4幅面)的图书资料。扫描存储保持了书籍的原貌,避免了转换过程中的文字错误,也可以把各种非文字内容(如图片、表格)转变为高分辨率图像。但这种方法有一些致命的缺陷。如不能进行全文检索、页面标注、摘录、存储容量太大等。
3、OCR(计算机文字识别)技术。
近几年来,通过使用OCR软件对印刷或书写的文字进行自动识别,实现文字自动录入的精确性已提高到95%以上,但这仍意味着每页会产生十几个或更多的错误。处理过程较为复杂,技术的不成熟和相关的高成本使OCR技术还停留在劳动密集型建设阶段。其次是不能保留原书的版式。
2 TBS的技术特点
为了解决扫描存储不能实现全文检索的问题,北京金信桥网络技术有限责任公司推出的TBS资源数字化管理系统,在使用扫描仪将文献逐页转化为图像存储后,进行OCR识别,得到识别率在90%以上的纯文本信息
,与前面提到的图像存储资料配合使用,初步实现了全文检索功能,同时保证了书的内容和版式100%的正确率。这种方式实现的全文检索功能,能将检索到的词条精确定位到它所在的页。
3 TBS的优势
这种方案的的优势在于:保持了文献资料的原貌、实现了全文检索功能、实施成本低、建设周期短、速度快。
五 资源数字化系统功能
由于可数字化资源的来源广泛、特点各异以及不同用户的要求的不一致,导致数字化加工过程的复杂特点。
纸介质:扫描、图形文件自动纠偏去噪、OCR。
电子文献:格式转换、加密。
电子书:原样保留。
WEB网页:通过网上自动采集、除重,保留有价值的文件
TBS通过详细的需求分析,创造性的提出了高度灵活的工艺加工过程组织方法。TBS指出,资源数字化过程可以拆分成录入、扫描、识别、标引、分类、入库六类工艺以及相应的校对工艺,通过完善的接口和流程分析,TBS完全将它们分割开来,对应形成了独立的程序,通过浏览器串接相同的文件服务器和数据库服务器上。因此,用户可以任意确定工艺流程操作个数和顺序,实现单机资源数字化过程和机群间高效率的相互协同作业。如图:
录入:将文献资料编号、录入ISBN号和分类号、获取扫描码信息等工作;
扫描:根据扫描码自动定位文件服务器的目录,将相关文献资料顺序扫描,形成图形文件;
识别:对扫描的图形进行处理,并识别成文本文件,将图形压缩成具有安全性能的文件;
标引:标出数据库字段信息;
分类:将没有分类的文献资料进行分类。
入库:将有关资料装入数据库。
对于不同种类和不同要求的资源加工,资源数字化加工工艺流程的个数和顺序可以任意规定。
1 流水线管理功能模块
资源数字化过程是一个?浅E哟蟆⒏丛拥募庸す蹋琓BS通过五大工艺的设定,使得每道工序操作简便,便于合理安排工作岗位,并行操作,极大的提高了生产效率和生产质量。工艺间可以通过软件实现简便、详备、非实时的交流,实现了未分配任务的自行领取或者管理员指定专人完成,错误任务的及时更改和返回任务的详细说明,这些交互功能保证了流水线的顺畅进行。
TBS流水线的特点如下:
流水线特性:每一个任务均需顺序通过流水线上的几个过程;
独享特性,每一个任务在同一时刻只能由一个人独立处理,同一组内只能由一个人来处理;
单循环特性:后一组的人员完成检查、检查前一组工作的任务;
灵活特性:较对只需再加一个组即可;
交互特性:各组成员同一任务的成员可以通过界面的友好交互。
2 多文件批量处理模块
功能如下:
批量图像处理:对扫描文件进行批量图形处理(纠偏、去污、去边框);
批量识别:对处理后的图形文件进行批量识别;
文字校对: 对识别结果进行人工校对
或者采用两种识别软件分别识别,对比后进行人工处理;
批量转换:对所扫描的文件进行批量格式转换;
批量打包:将图形文件打包为pdf文件。
3 标引入库模块
提供了批量标引入库的方法。功能如下:
检查方案;有选择的检查标引项,某些不必要的字段不再列出;
批量检查:同时检查多条标引;
入库方案:哪些项目入库、怎么入,完全由用户控制;
批量入库:多条标引同时入库;
批量保存:将一些有用的工作成果如图形文件、标引文件、转换和打包的文件批量保存。
数据库浏览和编辑:检查入库是否有误并予以修改。
4 质量控制和员工管理模块
质量控制是为了保证和控制系统的录入质量而采取的一整套方法和措施。质量的保证首先要求软件的易用性好和员工工作尽量简化。TBS严谨的工艺划分和最先进的界面设计方法和最广泛的意见征求,绝对保证了各工种操作的简便。其次还需提高员工的主观能动性,TBS通过个人出错量和出错率的量化统计,为完善员工的管理和提高加工质量提供了有力的保证。
各操作员的界面通过权限管理程序自动生成。各操作员只能看到与自己有关的任务和未分配的任务,保证了系统数据的最大安全。
同时TBS还提供了各员工的上下机时间来记录员工的出勤情况,提高了各员工的加工数量来记录员工的工作量。
5 内容发布及全文检索模块
参见TBS数字图书馆管理系统(TBS/DLS)。
6 光盘出版模块
参见TBS光盘出版检索系统 (TBS/CDS)。
|