1 2 3
金信桥网络公司
 
解决方案
TBS统一检索整合平台解决方案
TBS云搜索解决方案
TBS全文检索引擎系统
TBS站内检索解决方案
TBS数字档案馆解决方案
TBS图书馆数字化解决方案
TBS政府门户网站解决方案
TBS企业门户网站解决方案
TBS办公自动化(OA)系统解决方案
TBS资源数字化解决方案
TBS知识管理系统解决方案
TBS数字化出版解决方案
   
中国城市林业政策信息网
中国林业政策信息网
中国林业信息网
水产科技信息网
北京经略信息咨询公司
中国党政信息网
中国残疾康复信息网
国家林业局科技司
中国兵工学会
中国现代国际关系研究院
国家农业科学数据共享中心
交通科学数据共享网
民航科学数据共享网
法规数据网
北京印刷学院数字图书馆
国电数字图书馆
北京农学院图书馆
煤炭数字图书馆
中国化工安全网
中国畜牧信息网
 
TBS统一检索整合平台解决方案

一  概述

  自上世纪40年代,随着计算机的诞生以及20年后计算机网络的出现,人类社会发生了一次重大的变革,此次变革将人类社会从工业时代推向了信息时代,在科学、技术和生产领域都产生了巨大的变化。这次社会的进步不同以往社会变革的特点是,决定性推动力不是资本的变化,而是知识与其载体--信息。
  而此次社会变革的影响力直到上世纪90年代才在我国逐渐显现出来,后来随着我国对于信息化建设重视程度的不断提高,本世纪初各种信息化建设项目真正如雨后春笋般的涌现出来。
  随着各种信息化项目的不断上马,各种形形色色的信息被我们有意识有目的不断收集起来,从而形成了我们现在所经常谈论的知识爆炸、信息爆炸现象,信息资源存储总量逐年不断攀升。
  根据国际权威调查机构IDC最新研究报告《数字宇宙膨胀:到2010年全球信息增长预测》数据指出:“2006年全球每年制造、复制出的数字信息量共计1610亿GB,中国数字信息量为127.1亿GB ,占全球信息量的7.9%;受“富媒体”、用户创建内容和16亿网民三大因素推动,到2010年,全球数字信息量预计为9880亿GB,而中国的数字信息量预计为900.5亿多GB,占全球信息量的9.1%。由此看出,中国的信息增长速度还要高于全球,2006-2010,全球信息量增幅为6倍,而中国则高达7倍。”
  而当我们在谈论如何去存储以几何速度增长的信息的时候,却忽略了一个更加严峻的问题,那就是信息资源的利用与转化,毕竟信息存储以后,只有通过人类的思维、人类的智慧才能将信息转化为新的生产力,于是,如何有效的开发、利用信息资源,在庞大的存储信息中取其精华去其糟粕,成为了一个摆在我们面前的亟待解决的问题。

二  需求分析

  目前我们接触的信息资源可以按照两种方式加以区分,一种是按存储位置来区分,可以分为本地信息资源和网络资源。本地信息资源就是我们个人计算机中存储的文档、图片、视音频等文件,网络资源就是我们可以局域网或互联网上获取的资源。本地资源我们通过操作系统自带的搜索功能进行查询,而面对烟波浩渺的网络资源如何进行查询则成为了一个难题,目前互联网上存在着如谷歌、百度等知名搜索引擎可以协助我们进行查询检索,同时还有另外一种由内容提供商提供的搜索平台协助我们进行信息搜索,如维普、中国知网等,但是如果我们要在各种搜索平台进行信息查询时,则需要不停的登录各个搜索引擎,进行验证身份,然后再进行查询,极大的降低了使用效率。
  另外一种是按照信息资源的结构来区分,可以分为结构化信息资源和非结构化信息资源。结构化信息资源就是能够用数据或统一的结构加以表示的信息,如数据库等。非结构化信息化资源则是无法用数据或统一结构表示的,如文本、音视频、网页等。对于数据库等结构化的信息资源,我们可以利用其特定的查询语句对于数据库里面的内容进行查询,目前市面上并存着多种类型的数据库,较为知名的有SQL Server、Oracle、MySql等,但是不可能所有的信息查询人员都掌握数据库查询语言的使用方法,而对于非结构化信息资源,则只能靠人工方式对信息资源进行逐个查找,效力极为低下。
  在上述信息资源开发、利用的现状下,北京金信桥公司利用自身在信息管理和信息挖掘领域多年积累的技术经验针对目前信息资源应用的困境推出了TBS统一检索整合平台解决方案。

三  整体目标

  TBS统一检索整合平台解决方案中针对现有的信息资源种类提供了有针对性的检索引擎,将本地信息资源、网络信息资源、结构化信息资源和非结构化信息资源有机的结合在一起,通过一站式检索服务方式实现了如下目标:

  • 扩大了信息的来源渠道
  • 避免了信息孤岛的产生
  • 通过技术手段将信息提炼成为更为有用的知识或情报
  • 扩展了知识、情报的挖掘及应用手段
  • 充分开发信息价值,创造业务优势

四  方案介绍

  TBS统一检索整合平台解决方案中整合关系数据库检索引擎、全文数据库检索引擎、异构数据库整合检索引擎、全文检索、站点资源检索等多种检索引擎于一体,提供了一个统一的WEB检索平台入口。同时为满足不同层次、不同领域的用户提供了多种检索方式,从而构建一个以信息为核心,以服务为向导的信息资源统一检索整合平台。



  4.1  关系数据库检索

  关系数据库检索由TBSSEARCH关系数据库全文检索服务提供相关功能。
  TBSSEARCH关系数据库全文检索服务是对通用关系数据库进行基于文本内容检索的全文检索引擎,该搜索引擎支持64文件系统,支持Windows和Unix平台,支持国家标准GB-10830和国际标准字符代码(UNICODE),支持中文大字符集(10万汉字),能够兼容目前市面上绝大部分通用关系数据库(如SQL-Server、Oracle、MySql等)。



  本检索服务具有如下特点:
  • 支持国家标准GB-10830和国际标准字符代码(UNICODE)
  • 支持多用户并发检索,没有用户数限制
  • 全新概念和算法将结构化数据库与非结构化全文信息库完美地结合
  • 采用先进的算法,响应速度快,实现海量数据库毫秒级、亚秒级检索
  • 中文按词、按字索引,字词结合智能全文检索
  • 支持西文按词检索,支持中英文(全角/半角)混合检索
  • 内嵌汉语自动分词系统,有自学习、动态词索引功能
  • 支持禁用词典的使用,具有停用词(Stop-list)处理功能
  • 具有多个检索词逻辑运算(与、或、非、差、优先、相邻、异或)功能
  • 支持渐次逼近索引、部分一致匹配、距离检索、同义词扩检等功能
  • 能够对大型多媒体中英文全文信息库和结构化数据库进行各种检索
  • 具有全文检索、多值检索、范围检索、组合检索等多种检索功能
  • 支持多种索引方式:字段索引、全文索引(字/词)
  • 支持表达式检索,支持字段检索和全文检索的混合检索
  • 支持跨库检索,支持多机并行检索,支持分布式检索
  • 支持64位文件系统,单表支持42亿条记录
  • 建立索引过程中无需对原库内容进行导出,直接对原库内容生成索引

4.2  全文数据库检索

  全文数据库检索由TBS SERVER全文数据库检索服务提供相关功能。
  TBS SERVER全文数据库检索服务内置国内外技术领先的中英文全文检索引擎,它采用多种压缩算法、中文字词结合索引、中英文混合索引、动态多级索引等多项先进技术,它具有索引和检索速度快、空间膨胀率低、分布式动态负载均衡、多机并行检索、支持多语种等特点,可以快捷方便的对TBF全文数据库生成索引。
  本检索服务可以通过ODI开放数据库接口(Open Database Interface)技术对通用关系数据库生成索引并进行检索。


(注:TBF全文数据库是由金信桥公司自主开发的、具有独立知识产权的全文数据库。)

4.3  异构数据库整合检索

  异构数据库整合检索由MTSERVER异构数据库检索服务提供相关功能。
  元搜索引擎(Metasearch Engine),是一种调用其它独立搜索引擎的引擎,亦称“搜索引擎之母”。在这里,“元”(Meta)为“总的”、“超越”之意,元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用。相对元搜索引擎,可被利用的独立搜索引擎称为“源搜索引擎”(source Engine),或“搜索资源”(searching resources),整合、调用、控制和优化利用源搜索引擎的技术,称为“元搜索技术”(Meta-searching technique),元搜索技术是元搜索引擎的核心。
  异构数据库检索服务是以元搜索引擎为原型,将已有的B/S结构检索系统(包括搜索引擎、数据库检索系统等)作为目标资源,在其基础上构造一个通用的检索平台,允许用户选择不同的目标资源来同时进行检索,并将检索结果以统一的形式显示出来,从而达到异构资源整合检索的目的,具有跨平台、跨数据库、整合检索及异地调度等功能。



  本检索服务具有如下特点:
  • 支持不同目标资源的特定检索条件。
  • 利用Cache技术保存检索结果,提高检索访问速度,有效利用网络资源。
  • 对于目标资源的复杂检索界面,能够自动提交表单,如用户密码登陆、数据库选择、参数选择及隐含参数提取等。
  • 支持会话管理,包括会话的维持、会话的共用、过期重建,最大限度地利用有限的账号资源,支持多个元搜索引擎的用户共用一个目标资源的账号。
  • 对于采用负载均衡算法的分布式检索资源,能够自动跟踪变化的IP地址信息。
  • 支持并发检索,同时对于并发的同一个检索条件共用检索线程资源,最大程度地利用网络和系统资源。
  • 支持服务端任务信息全面监测,包括任务总数、元搜索信息、子搜索信息、下载进度等。
  • 支持检索资源页面的多种编码格式,包括GB、BIG5、UTF-8、UTF-16(Unicode)。
  • 支持通过HTTP代理访问目标资源。
  • 多线程并发处理技术,大大提高了系统的检索速度与检索效率。
  • 响应速度快,系统采用科学合理的Cache高速缓存机制,可有效缓解系统压力和网络流量压力,提高了系统性能及响应速度。
4.4  站点资源检索

  站点资源检索由TBSSITE站点搜索服务提供相关功能。
  TBSSITE站点搜索服务具有一个强大的网页收集器,一般称为“网络蜘蛛”,也有叫“网页机器人”。 网络蜘蛛即Web Spider,是一个很形象的名字。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个网页(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。
  通过站点搜索服务对抓取回来的内容进行分析,抓取的内容是文本文件。对于网络蜘蛛来说,抓取下来网页包括各种格式,包括html、图片、doc、pdf、多媒体、动态网页及其它格式等,通过对文件信息(包括网页所在URL、编码类型、网页内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等)的提取,并根据一定的相关度算法进行大量复杂计算,得到每一个网页针对网页内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。



  本检索服务具有如下特点:
  • 基于字词结合的信息处理方式。巧妙解决了中文信息的理解问题,极大地提高了搜索的准确性和查全率。
  • 支持主流的中文编码标准。包括GBK(汉字内码扩展规范)、GB2312(简体)、BIG5(繁体),并且能够在不同的编码之间转换。
  • 检索结果输出支持内容类聚、网站类聚、内容类聚+网站类聚等多种方式。支持用户选择时间范围,提高用户检索效率。
  • 智能性、可扩展的搜索技术保证最快最多的收集互联网信息。
  • 智能相关度算法。采用了基于内容和基于超链分析相结合的方法进行相关度评价,能够客观分析网页所包含的信息,从而最大限度保证了检索结果相关性。
  • 先进的快照技术,巧妙解决了搜索用户经常遇到的死链接问题。
4.5  WEB应用服务

  WEB应用服务是向用户提供一个直接操作进行检索的界面,用户的所有检索命令都通过此服务将用户输入的检索词进行分解搜索请求,并由相关检索服务在其对应的索引数据库中查找,将搜索结果按照特定格式排序后,最后将组织好的检索结果页面返回给用户。

  WEB应用服务具有如下特点:

  • 支持多种高级检索语法,使用户查询效率更高、结果更准。已支持” AND “、” NOT “、” OR “、”FILETYPE”等。
  • 支持二次检索(又称渐进检索或逼进检索)。可在上次检索结果中继续检索,逐步缩小查找范围,直至达到最小、最准确的结果集。利于用户更加方便地在海量信息中找到自己真正感兴趣的内容。
  • 相关检索词智能推荐技术。在用户第一次检索后,会提示相关的检索词,帮助用户查找更相关的结果,统计表明可以促进检索量提升10-20%。
  • 先进的网页动态摘要显示技术。可以动态摘要显示网页中含有用户查询字串的任意位置文字,使用户阅读和判断搜索结果更方便更快捷。
  • 高可配置性使得搜索服务能够满足不同用户的需求。在搜索调度、相关性评价、内容过滤、显示方式等方面均为客户提供了可配置手段,使系统具有很大的灵活性和适应性。

五、方案总结
  本方案分析了目前信息资源的存储及应用现状,并在此基础上提出了统一整合检索平台的基本需求。该平台与一般的检索平台只针对某一类型资源进行查询不同,而是集合了目前现有各种检索服务的特点,将关系数据库全文检索、全文数据库检索、异构资源检索和站点资源检索机制相结合,并将其结果以统一形式返回,从而实现一站式检索服务。该平台能够很好的满足现代大型门户信息系统中各种查询需求。系统中采用了WEB服务的方式,降低了耦合度,提高了扩展性和移植性,适合运用于各种门户系统,具有广泛的应用价值。

导航
Copyright © 1994-2018 北京金信桥信息技术有限公司
电话:010-62670903,62670700  传真:010-62670877 E-mail:tbsinfo@sohu.com
京ICP备15047523号