一 概述
1.1 定义
数字出版是人类文化的数字化传承,它是建立在计算机技术、通讯技术、网络技术、流媒体技术、存储技术、显示技术等高新技术基础上,融合并超越了传统出版内容而发展起来的新兴出版产业。
数字出版是在出版的整个过程中,将所有的信息都以统一的二进制代码的数字化形式存储于光盘、磁盘等介质中,信息的处理与接收则借助计算机或终端设备进行。它强调内容的数字化、生产模式和运作流程的数字化、传播载体的数字化和阅读消费、学习形态的数字化。
数字出版涉及到版权、发行、支付平台和最后具体的服务模式,它不仅仅指直接在网上编辑出版内容,也不仅仅指把传统印刷版的东西数字化,又或者把传统的东西扫描到网上就叫做数字出版,真正的数字出版是依托传统的资源,用数字化这样一个工具进行立体化传播的方式。[摘自百度词条]
1.2 背景
中国出版科学研究所7月1日在京发布的《中国出版蓝皮书:2009~2010中国出版业发展报告》称,截至2009年底,我国数字出版总产值达到799.4亿元,而共建立体化数字出版大平台将成为未来我国出版业发展的趋势。
蓝皮书认为,发展方式的转变是实现科学发展的必然要求,是一项长期任务,不可能一蹴而就。由于数字出版是以创意为主导的无污染的低碳经济、绿色经济,这一转变在2010年具有迫切性和可行性。
同年,在全国新闻出版局长座谈会上提出的《关于编制新闻出版业“十二五”规划的基本思路》中提出的八大保障措施也指出:“第四,加快科技进步。认真研究数字技术、现代传播技术以及物联网技术等高新技术在新闻出版业中的利用。通过实施一批具有战略性、引导性和带动性的重大新闻出版科技研发项目,掌握一批数字出版、新媒体领域、现代传播手段的自主知识产权和核心技术。加快新闻出版行业标准化和信息化建设,加快研究制定数字出版等新兴业态标准。推行绿色出版战略,倡导低碳环保生产模式。”
1.3 需求
新闻出版总署在《新闻出版总署关于加快我国数字出版产业发展的若干意见》中指出:“加快推动传统出版单位数字化转型。加快书报刊出版单位采用新技术和现代生产方式改造传统出版流程;高度重视出版资源数字化工作,加快存量资源整理,按统一标准进行分类、存储;积极探索出版资源数字版权授权解决方案;鼓励传统出版单位开展网络出版业务;支持传统出版单位设立完全市场化的数字出版公司,尽快做大做强,成为数字出版龙头企业。” 通过以上指导意见可以发现,主要内容围绕在以下两个方面,一方面是基于新技术和现代生产方式的传统出版流程改造,另外一方面是出版资源的数字化改造、管理及利用。第一个方面涉及到各出版单位的出版理念及日常工作,想做到整齐划一的“一刀切”式改造,还存在较大难度,需要各出版单位根据实际业务流程和工作重点的不同探讨出一套真正符合本单位的改造方案,而第二个方面则是所有即将或正在进行出版资源数字化改造的出版单位的一个共同需求,为了满足这一需求,必须从全局角度入手,给出一套切实可行的解决方案。
1.4 需求分析
对于出版资源的数字化改造、管理和利用的转型过程中,如何将传统出版资源和数字技术结合?在结合的过程中,出版资源应如何进行数字化加工?加工后的出版资源如何进行管理和版权保护?如何利用数字化出版资源通过新的数字业务渠道创造出新的赢利点?这些关键问题决定着数字出版发展的最终状态,只有通过数字改造后带来新的经济增长点,最终才能形成一个具有投入产出的良性循环,从而进一步推动传统出版流程的改造。
通过对于上述内容中提出的几点需求分析得出,出版资源的数字化改造、管理和利用过程需满足如下几个特点:
1、简单易用
在出版资源改造初期,各出版单位不可能投入大量的人力、物力,只能小范围的进行试验,同时也不可能对相关人员的计算机水平做过多要求,所以就要求出版资源改造涉及到的相关软件产品要简单易用,同时还能够适应后期的大规模部署,不需要对原有改造过程进行大的调整。
2、保持读者的原有阅读习惯
对于数字出版资源,用户最关心的还是能否进行舒适的阅读,所以要求数字改造后的出版资源仍要忠于纸质出版物版面。
3、版权保护
内容作为各出版单位最核心的财富,如何解决数字化资源在利用过程当中的版权问题,采用何种措施防止内容的非授权使用是各出版单位极为关心的焦点。
4、高效的利用
随着出版资源改造规模的迅速增加,资源检索的需求越来越突出。全文检索是海量文档数据检索重要而基础的技术手段。而随着中文检索和中文分词技术的发展,现有的检索技术已经能够满足对资源高效利用的需要。
5、具有良好的投入产出比
进行数字化改造后的出版资源如果无法带来相应的回报,那么这些资源也不能称之为“资源”,也只能算作一堆“数据”而已,只有通过新的业务渠道利用技术手段将资源转化为新的经济增长点,形成一个投入产出的良性循环才能进一步推动出版资源的数字化改造进程。
二 方案概述
2.1 方案概述
本方案针对出版资源数字化改造、管理及利用过程中的诸多要素,首先从全局角度入手,进行大量的需求调研和详细分析,然后利用金信桥公司成熟、可靠的软件产品结合多年来从事资源管理积累的丰富经验,制定了本方案的整体架构。
本方案从出版资源的数字化的基础工作入手,将数字技术融入于改造与管理的各个环节,一直到最终的数字出版物营销手段和读者服务环节,形成一条完整的数字化出版资源产业链条。
同时方案中确定了实施后的整体目标,为各出版单位领导制定转型目标提供了一定的参考依据。
2.2 方案特点
本方案的目的是希望通过我公司的方案、软件研发能力、服务支持体系以及在项目管理方面积累的丰富经验,助力于国内传统出版单位的数字出版改造转型过程。
本方案结合了我们公司多年从事资源管理方面的丰富经验,全面系统地阐述了我们对出版资源数字化改造、管理及利用的实施目标、规范和技术方法,整个方案具有如下几个特点:
1、本方案全面地阐述了出版资源改造、管理和利用的实现手段,详细地说明了我公司在出版资源改造、管理、利用等各环节的实现目标、采用的规范和标准,具有良好的可实施性和适用性。
2、本方案集中了我们公司多年从事数字资源管理的成功经验和经验教训,可以有效地实现出版资源数字化过程中各环节的改造目标。
3、本方案将出版资源数字化改造过程详细地划分资源建设、资源管理、资源服务多个环节,整个改造过程可以采用循序渐进的进行,避免了由于全面铺开的改造方式与出版行业传统工作模式造成的激烈摩擦,保证了改造过程的平稳、顺利进行。
2.3 设计依据
《文化产业振兴规划》 国务院2009年颁布
《新闻出版总署关于进一步推动新闻出版产业发展的指导意见》 新出政发〔2010〕1号
《新闻出版总署关于加快我国数字出版产业发展的若干意见》 新出政发〔2010〕7号
三 方案介绍
本方案通过对出版资源数字化改造、管理及利用过程中各工作环节的详细分析后,同时进行合理的布局调整,将各工作环节划分为出版资源建设、出版资源管理、出版资源利用3个阶段,使整个数字出版过程循序渐进的展开,即可以避免由于全面铺开的改造方式与出版行业传统工作模式造成的激烈摩擦,又可以逐步深化数字出版的理念。同时每一个阶段工作都在上一阶段的工作结果上进行加工处理,增强了出版资源的可追溯性和可维护性。
3.1 出版资源建设
出版资源建设阶段主要是针对出版单位原有的纸质出版物和电子出版文件进行加工和整理,使之符合数字出版的要求。
对于纸质出版物的处理工作就是要对其进行数字化加工处理,整个处理环节将利用一个管理流程把数字化加工处理处理所必需的扫描、图像处理、版面还原、OCR批处理、标题置标、段落置标、引文解析、辅助著录、自动打包、自动归档等工序集中管理起来以流水线的方式处理,通过处理后的纸质出版物会生成忠于原始版面的双层(可选)PDF电子文件及对应全文数据库文件。
对于电子出版文件的处理工作分为文件转换、图片文件处理2个方面。
1)文件转换工作主要是针对各出版单位出版所用的大样文件批量转换为PDF格式文件,同时还可以将其他格式的电子文件转换为PDF格式文件。
2)图片文件处理工作主要是针对出版过程涉及中的图片文件或照片进行格式处理后进行标引。对于纸质图片(包括积累的传统老照片)首先进行数字化处理过程,将纸质图片转换为数字化图片,然后按照元数据处理规范进行整理、加工,对数字化图片进行标引;对于本身就是数字化的图片(包括数码相机生成的照片),可以直接对数字化的图片进行缩略图生成及元数据加工处理,对图片信息进行标引。对于数码照片可以直接提取照片的Exif信息,从而可以有效地降低了标引处理过程的劳动。
3.2 出版资源管理
出版资源管理阶段主要是针对资源建设过程生成的电子文件及对应的数据库文件进行管理。
1)对于电子文件,尤其是PDF格式文件包含了出版资源的绝大部分内容,所以对于以内容为价值核心的出版单位来说,对于PDF文件的管理成为了数字出版主要工作之一。从PDF文件的角度来讲,如何能够保护文件本身及文件内容不受到非授权使用成为了关键问题。
对于PDF文件的保护主要分为2个方面,一方面是对PDF文件内容进行保护,另一方面就是PDF文件本身进行保护。
通过TBSSITE站点搜索服务对抓取回来的内容进行分析,抓取的内容是文本文件。对于网络蜘蛛来说,抓取下来网页包括各种格式,包括html、图片、doc、pdf、多媒体、动态网页及其它格式等,通过对文件信息(包括网页所在URL、编码类型、网页内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等)的提取,并根据一定的相关度算法进行大量复杂计算,得到每一个网页针对网页内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
对于PDF文件的保护主要分为2个方面,一方面是对PDF文件内容进行保护,另一方面就是PDF文件本身进行保护。
对于PDF文件内容的保护主要是通过对内容本身增加标识信息(如水印、数字签名、电子印章等标记)和控制内容的打印、复制等操作。
对于PDF文件本身的保护则主要是给文件设置严格的访问权限,使最终用户在合理的时间、合法的范围内使用PDF文件,从而有效避免资源的扩散。
2)对于出版资源数据库的管理主要是利用自然语言理解技术与人工智能技术对数据设置合理的索引方式,使最终用户可以方便、快捷的在资源利用阶段对数字资源进行检索和利用。对于索引后的全文数据库检索方式需具有如下特点:
采用UNICODE编码,支持多国语言显示
支持64位文件系统,单表支持海量数据记录
采用先进的算法,响应速度快,实现海量数据库毫秒级、亚秒级检索
支持全文索引数据库与原数据库分离,可以独立运行使用
支持不同结构、不同类型数据库(如Oracle、SQL SERVER、DB2、Sybase等)
支持包括TEXT、HTML、RTF、OFFICE、PDF等多种格式文件的存储、索引和检索
中文按词、按字索引,字词结合智能全文检索
支持西文按词检索,支持中英文(全角/半角)混合检索
支持包括TEXT、HTML、RTF、OFFICE、PDF等多种格式文件的存储、索引和检索
具有全文检索、多值检索、范围检索、组合检索等多种检索功能
支持多种索引方式:字段索引、全文索引(字/词)
支持表达式检索,支持字段检索和全文检索的混合检索
支持跨库检索,支持多机并行检索,支持分布式检索
具有多个检索词逻辑运算(与、或、非、差、优先、相邻、异或)功能
支持渐次逼近索引、部分一致匹配、距离检索、同义词扩检等功能
能够对大型多媒体中英文全文信息库和结构化数据库进行各种检索
3.3 出版资源利用
出版资源的利用阶段对于各出版单位来讲是数字出版的最终阶段。通过前两个阶段建设、管理的数字化资源只能称之为数字产品,而相对于数字产品而言,数字资源利用平台更能够将各出版单位导向成功的商业模式。传统出版单位要想在数字出版领域有所作为,必须搭建具有一定技术门槛、拥有特色内容的数字利用平台
根据出版资源利用的方向和载体的不同,大体可以分为资源网络化出版和专题资源光盘出版两大形势。
1)中国互联网的迅猛发展,这些年来一直是惊人的现象,网民数量增速叫外界瞠目结舌。这个迟到1990年代中才得以联网的国家,到2005年时网民人数已突破1亿大关。
国务院新闻办公室今年6月初发布的《中国互联网状况》白皮书说,截至2009年底中国网民人数已达到3亿8400万,互联网普及率达到28.9%,手机网民达到2亿3300万人,政府还立下目标在未来五年使互联网的普及率达到45%。
在这样的网络时代大潮下,数字技术、网络技术在出版界得到了更加广泛的应用,并逐渐形成了一个新的出版形态---网络出版。网络出版是指具有合法出版资格的出版机构以互联网为载体和流通渠道,出版销售数字化出版物的行为。网它是一个全新的概念,很大程度上突破了传统的出版观念。在网络出版的过程中,互联网成为了出版物的载体和渠道,出版物以数字化的形式存储在各出版单位(或内容提供商)的网络服务器上,而最终用户通过计算机或者专用浏览器进行阅读。
由此可见,对于各出版社来说,传统出版物或者出版资源是否已经做了数字化的处理(出版资源建设阶段),数字化后的出版资源是否已经进行了行之有效而且较有前瞻性的管理工作(出版资源管理阶段),出版单位能否运用具有数字技术、网络技术的网络出版平台为最终用户提供优良的服务从而将网络出版平台导向一个具有良好运作的商业模式,直接影响到了各出版单位今后在网络化时代的生存和发展。
一个优秀的网络出版平台,首先要能够将各出版单位的多种数字化出版资源进行有效的存储管理。其次是能够给最终用户提供一个良好的查询浏览界面,使用户在良好的操作体验下耗费最少的时间找到所需的内容,同时要为每个用户提供一个个性化服务界面,满足用户的个性化需求。最后就是要有一个安全、规范的交易过程,使用户踏踏实实消费,使出版单位获得应得的劳动回报。
2)光盘存储是上世纪70年代初发明的高新技术,光盘本身具有存储密度高、容量大、可随机存取、保存寿命长、工作稳定可靠、轻便易携带等一系列其它记录媒体无可比拟的优点,特别适于大数据量信息的存储和交换。光盘存储技术不仅能满足信息化社会海量信息存储的需要,而且能够同时存储声音、文字、图形、图象等多种媒体的信息,从而使传统的信息存储、传输、管理和使用方式发生了根本性的变化。
而在网络化发展普及的当今社会,光盘存储在数字出版领域仍然有着较为广泛的应用。各出版单位可以将已经进行了数字化改造、管理的出版资源按照专题形式进行组织,然后生成一张可以全文检索的专题光盘出版资源。
|