TBS-DPS 数字化加工管理系统 |
|
|
第一章 系统概述
在信息化的时代,人们迫切需要利用各种技术手段对现存的有价值的书籍、期刊、杂志、论文、档案、语音、图像、影像、电子文件、数据库等各类资源进行收集、加工和处理,使其转化为数字化信息,以便于在网络环境下进行高效快捷地存储、管理、检索、利用和传播,使用户可以在任何时间、任何地点,都能从网络上得到所需要的各种电子资源。TBSDPS数字化加工管理软件是通过一个管理流程把多个独立的功能模块(扫描、图像处理、版面还原、OCR批处理、标题置标、段落置标、引文解析、辅助著录、自动打包、自动归档等)集成起来而形成的一套完整的资源数字化加工管理软件。
第二章 系统结构
2.1系统架构
TBSDPS数字化加工管理软件主要构成:服务器软件、管理员软件、操作员软件。
2.2 功能架构
软件各个功能模块之间的相互关系如下:
2.3 TBSDPS软、硬件部署
TBSDPS软件主要包括五个部分: EBS统一认证服务器、FTS文件服务器、MNG应用管理服务、OCRServer识别服务、MS-SQL 数据库管理软件、TBSDPS管理软件、TBSDPS操作软件。FTS文件服务、EBS统一认证服务、MNG任务调度服务、MSSQL数据库管理软件可以根据实际情况整合为一台服务器。软件也可以挂接多个FTS文件服务器。另外,TBSDPS管理软件、TBSDPS操作软件可以安装在同一台个人电脑上。
第三章 功能及特点
3.1 系统功能
3.1.1管理功能
■ 系统配置
系统配置进行?鞫仁菘猓菘猓募衿鳎没ё椋鞫确衿鞯呐渲谩?br>
■ 流水线管理
管理多条流水线,各条流水线分别配置,互不干扰;
自动任务分配与手动任务分配相结合,管理员可以指定某个员工完成某项任务,当员工没有指派的任务时,自动领取任务;
对不合格工件可要求返工,下道工序的员工发现上道工序的处理结果存在较多问题时,可要求上道工序的员工返工,同样,管理员在检查工件质量时,也可指定某个工件的某个工序进行返工;
流水线的工序可任意配置,可根据每条流水线的具体情况配置工序,比如对于期刊流水线增加标引工序;
■ 工序管理
每道工序的员工可任意配置,每个员工可以属于多条流水线、多道工序,员工登录时,给员工列出员工所在的所有流水线、工序,员工选择某一流水线下的某一道工序,开始工作;
■ 员工管理
对员工进行分组管理,使员工的管理更有条理;
可对任意员工进行任意的操作权限配置,保证系统的安全、稳定;
■ 工件管理
管理员可以方便地进行工件管理,包括任意工件的检查与显示、要求返工、任务分配、工件的改名等操作;
■ 日志统计
员工可以查看自己在任意时段的工作统计,帮助员工了解自己的工作进度,从而更好的安排自己的工作;
管理员可进行多种方式的工作统计,包括按流水线统计、按工序统计、按员工统计等,从而清楚的了解每条流水线、每道工序、每个员工在特定的时间段内的工作情况,制订更为周密的工作计划;
具有超级修改的功能,可改变任意工件的工序和状态。
■ 返工派工管理
在工件管理中,管理员可以改变工件的工作状态和操作状态。而在返工派工管理中,管理员可以进一步管理由工件管理中改变的工件。
■ 统计报表
统计报表中有强大的统计功能。可以对流水线、工序、员工再加以时间限制,分别做出粗略或详细的统计;
统计报表可以打印、输出到EXCEL表、输出到DBF库,方便使用。
■ 著录数据管理
对著录文献字段所存放数据库中的期刊表、篇名表进行设计、维护;
■ 查询表功能
对各个数据库的表信息进行整体检索;
3.1.2 EBS管理
管理端主要包括EBS管理和数字化加工两大块。EBS管理是一个通用的管理模块,不仅可以用于数字化加工的管理,也可以用于其它系统的管理,它包含了对用户、资源、权限的管理。数字化加工管理中包括了服务器的系统配置以及流水线、操作员、工序工件、著录数据的管理等。
■ EBS管理
EBS管理是一个通用模块,在TBSDPS中主要用到的模块为:数据字典管理、用户管理、控制员工入网数、资源管理、权限管理、在线管理、用户统计、资源统计和日志统计模块;
■ 数据字典管理
对各模块使用到的字典信息进行维护、管理;
■ 用户管理
管理操作员用户的组别及用户所在服务器相关信息的各项设置。
■ 控制员工入网数
通过登录数值,控制以同一帐号密码登入的最大用户数,并强制长时间不活动超时的用户下线。
■ 资源管理
管理资源ID、名称、组别、类型以及服务器类型的基本信息;
■ 权限管理
对用户可以访问的资源和权限进行控制;
■ 在线管理
通过在线管理,强制登录用户因故出现异常退出操作员软件;
帐户信息
管理组别下的用户信息,包括帐户姓名,登陆ID,登陆IP,登陆时间,最后活动时间,最后活动类型。
实时呼叫
通过实时呼叫用户,管理用户登录信息;
强制退出
强制退出用户登录信息;
■ 用户统计
根据选定用户生成日统计、周统计、月统计、日期统计报表,并可把统计结果导出到Excel文件。
■ 资源统计
在本模块可对软件中选定的资源进行日统计、周统计、月统计、日期统计,并可把统计结果导出到Excel文件。
■ 日志统计
日志统计分为“按用户分类”、“按资源分类”和“按角色分类”三类,可对系统中选定类别下的日志进行日统计、周统计、月统计、日期统计,并可把统计结果导出到Excel文件。
3.1.3加工功能
■ 操作员界面
操作员通过账号、密码登录系统,自动获取任务,并提交完成结果等。
服务器消息处理采用队列式管理,消息的处理可以同步,也可以异步,从而使服务器运行更加可靠、稳定;
操作员软件非正常退出时的现场保护,即使没有上传工件,工件信息也不会丢失;
操作员软件的任务列表功能,使员工轻松了解自己的任务信息;
用户根据喜好来设定工具条的多种样式;
■ 扫描模块
扫描模块采用标准的Twain接口,能够支持现有的大部分扫描仪;
扫描模块支持多种文件格式,像TIFF、JPEG、GIF、BMP等文件格式;
快捷存储,灵活多变的命名规则,以及智能化的排序功能,可以最大限度的提高扫描工作的效率;
扫描模块具有插页、删页、扫描工件位置变动、排序及读取外部TIF等格式图像文件的功能;
图像处理模块采用标准的GDI接口,对系统配置要求不高,而且兼容性好。
■ 图像处理
快速而准确的自动纠偏技术大大降低了操作员的工作强度;
灵活小巧的放大镜可以随意放大页面上的任何一个部分,便于快速查看页面中重要的内容。比如用户可以在不放大原图的情况下查看页码(受屏幕限制,原图中的页码看不清);
框选能够自动适应版面大小,避免了二次排版的麻烦;
二值化工具可以方便的将灰度图转成黑白图;
手动去污和自动去污可以方便的去除页面中的污点;
图像处理模块还具备页面的旋转(90度、180度)和翻转(上下、左右),自动版芯居中,多种页面适应模式(最佳适应、等宽适应、等高适应、实际大小),以及反相等功能;
■ 版面还原
利用金信桥(TBS)模块、金信桥(TBS)模??和文通(WT)等识别引擎,对图像进行版面分析
根据版面分析结果对其进行识别并打包成pdf;
对识别结果进行横向校对、纵向校对或者块校对;
将识别结果以txt文本格式、rtf文件格式(可用Word打开)以及html文件格式输出
进行单页PDF以及多页PDF打包
可选择自动处理分析、识别、输出模式,不需人工干预;
利用OCR服务器进行远程或本地识别;
版面还原的全过程为先版面分析、再识别、然后进行校对、最后版面还原为PDF;
■ 辅助著录
可以人工输入著录信息,也可以利用OCR辅助生成著录信息;
实现局部文字识别、著录校对、字段校对、拼写检查等功能。
■ 辅助标引
辅助标引工序模块包括了分篇、标记、识别和关联二次文献数据库等功能,从而有效地减少了输入标引信息的工作量;通过词表智能标引,提高了标引信息的查全和查准,实现辅助标引工序的智能操作。
智能标引
挂接词表及词典;
管理词表,更新词表库;
■ 文字识别
对图书文字内容进行批量版面分析、文字识别、版面合成、文字输出;
可以选择使用清华文通OCR、汉王OCR软件及TBSOCR等文字识别软件;
提供横校、纵校、块校等文字校对功能。
■ OCR批处理
根据识别语种及编码方式选择相应的OCR识别引擎进行识别;
将pdf拆包成图片进行识别后,将识别结果还原打包;
生成双层PDF与文本信息:识别结果生成双层pdf和文本信息;
实现批量识别文件;
自动调度处理批量文件;
提供日志功能,可以查看每批次处理工件的完成情况。
■ 段落置标
段落置标,是将文中的内容按照段落划分,并给每个段落增加标签。
提取普通段落信息;
提取引文段落信息;
提取特殊段落信息,包括主题词、分类号、关键词、摘要、作者等特殊段落;
通过识别引擎自动提取段落信息;
■ 标题置标
通过目录提取书签信息:该方法适用于有目录的pdf,根据源文件的目录进行提取文中的书签信息,并修改;
模板匹配方式提取书签信息:该方法适用于没有目录的pdf文件,而且文章的结构比较规范,有规范的章节标题。
手工框选提取书签信息:该方法适用于无任何规律的pdf文件,通过手动框选标题,将文件的标签提取到相应的xml文件中。
■ 引文解析
手工标注引文,操作方式便利,提供多种形式的操作,降低了录入工作量,加快标注速度;
从参考文献信息中析出每条参考文献的标题信息;
利用书目数据库进行比对;
自动提取引文段落至引文编辑栏,进行校对、标注;
管理引文模板,通过模板进行引文自动提取功能;
系统通过语法检查自动过滤界定符之外的信息;
引文特殊字符编辑;
通过引文数据库自动引文比对;
■ 书签制作
可以通过OCR识别的方式制作书签,也可以通过手工录入的方式进行书签制作;
通过书签可以实现翻页跳转,方便查找。
■ 打包
自动成书模块能够将图片自动打包成PDF格式文件;
生成版面规范统一的电子图书;
■ 数字对象封装
将制作完毕的标题置标、引文解析、辅助标引等模块生成的数字对象,封装为一个整体数字对象,从而实现数据的完整。
自动处理封装:自动处理,不需人工干预;
■ 归档
对图像文件进行压缩处理;
将加工过程信息生成XML文件;
自动将图像文件和PDF文件归档到指定位置;
3.2 系统特点
??加工工艺流程方案完全由用户定制
通过完善的接口和流程分析,TBSDPS完全将它们分割开来对应形成了独立的程序,通过浏览器串接到相同的文件服务器和数据库服务器上。因此,用户可以任意确定工艺流程操作个数和顺序,实现单机资源数字化过程和机群间高效率的相互协同作业。
■ 流水线管理功能
TBSDPS资源数字化加工软件通过工序的设定,使每道工序操作简便,便于合理安排工作岗位,并行操作,极大地提高了生产效率和生产质量。工序间可以通过软件实现方便、详实、非实时的交流,实现了任务的手动申请、管理员指定分配任务,错误任务的返工、返工修改以及返工原因说明等,这些交互功能保证了整个流水线的顺畅流转。
■ 权限管理和各操作员界面的自动生成
TBSDPS通过用户账号管理来进行权限管理。各操作员的界面通过权限管理来自动生成。各操作员只能看到与自己有关的任务和未分配的任务,保证了系统数据的安全性。
■ 质量控制和员工管理功能
质量控制是为了保证和控制系统的加工质量而采取的一整套方法和措施。通过个人出错量和出错率的量化统计,系统具有对各模块的定量管理和员工工资管理,并实现与个人出错量和出错率挂钩,输出或打印某一员工时段的报表和月报表等。为完善员工的管理和提高加工质量提供了有力的保证。
■ OCR服务器
通过将各识别引擎结合在一个OCR服务器上,本地或远程调用对图像文件进行文字识别,更有利于各操作员之间的协同操作,增加识别效率及质量;
第四章 工作流程
4.1 加工任务申请与提交流程
用户登录系统,下载任务、提交加工任务的流程如下:
4.2 数据加工流程
TBSDPS数据加工流程是流水线化、可以通过后管理控制的。下图显示了一个典型的加工流水线:
第五章 典型界面
管理端软件—流水线管理界面
操作端软件—扫描工序界面
操作端软件—图像处理界面
操作端软件——OCR批处理
操作端软件—标题置标
操作端软件—引文解析1
操作端软件—引文解析2
操作端软件—引文解析自动提取
操作端软件—段落置标
操作端软件—辅助标引
操作端软件—辅助著录界面
第六章 运行环境
6.1 服务器端
软件环境:windows 2000(SP4)/2003(SP1) 服务器版
硬件配置:CPU:Intel Xeon 2.0 GHz以上,RAM:1 GB以上,硬盘:120G,网卡:100/1000M自适应
6.2 客户端
软件环境:windows 98/2000/xp/2003,IE 6.0以上
硬件配置:CPU:Intel Pentium 4 1.6 GHz以上,RAM:512 MB以上,硬盘:80G,网卡:100M
高速扫描仪:20页(A4)/分钟或40面/分钟(具有双面和彩色扫描功能)
第七章 典型用户
中国石化集团石油化工研究院
国防科技信息中心图书馆
国电信息中心信息资源部
中国中医研究院图书馆
中国航空发展研究中心
解放军医学图书馆
煤炭科学院图书馆
中国林科院图书馆
广安门医院图书馆
总参XX所
中央档案馆
沈阳601所
铁科院
抚顺石化研究院
海南三亚图书馆中国标准化研究院
北京联大台湾研究院
解放军报社
第八章 联系方式
地址:北京市海淀区中关村东路66号世纪科贸大厦B座2306室
邮编:100190
总机:(010)62670903/62670700
传真:(010)62670877
客户服务:(010)62670903
邮件支持:tbsinfo@sohu.com
公司网站:http://www.tbs.com.cn
|
|
|