1 2 3
金信桥网络公司
 
解决方案
TBS统一检索整合平台解决方案
TBS云搜索解决方案
TBS全文检索引擎系统
TBS站内检索解决方案
TBS数字档案馆解决方案
TBS图书馆数字化解决方案
TBS政府门户网站解决方案
TBS企业门户网站解决方案
TBS办公自动化(OA)系统解决方案
TBS资源数字化解决方案
TBS知识管理系统解决方案
TBS数字化出版解决方案
   
中国城市林业政策信息网
中国林业政策信息网
中国林业信息网
水产科技信息网
北京经略信息咨询公司
中国党政信息网
中国残疾康复信息网
国家林业局科技司
中国兵工学会
中国现代国际关系研究院
国家农业科学数据共享中心
交通科学数据共享网
民航科学数据共享网
法规数据网
北京印刷学院数字图书馆
国电数字图书馆
北京农学院图书馆
煤炭数字图书馆
中国化工安全网
中国畜牧信息网
 
TBS云搜索解决方案

一 概述

  随着计算机和互联网技术的出现和发展,人类社会发生了一次重大的变革,而此次变革的决定性推动力—信息已经日益普及到我们的工作和生活的各个角落。
  根据国际权威调查机构IDC最新研究报告《数字宇宙膨胀:到2010年全球信息增长预测》数据指出:“2006年全球每年制造、复制出的数字信息量共计1610亿GB,中国数字信息量为127.1亿GB ,占全球信息量的7.9%;受“富媒体”、用户创建内容和16亿网民三大因素推动,到2010年,全球数字信息量预计为9880亿GB,而中国的数字信息量预计为900.5亿多GB,占全球信息量的9.1%。由此看出,中国的信息增长速度还要高于全球,2006-2010,全球信息量增幅为6倍,而中国则高达7倍。”
  而当我们赞叹一个信息化时代真正来临的同时,另外一个值得关注问题却正悄悄浮上水面,那就是信息资源的利用与转化,毕竟信息存储以后,只有通过人类的思维、人类的智慧才能将信息转化为新的生产力,于是,如何有效的发掘、利用信息资源,在浩如烟海的信息中及时发现有价值的信息而且做到取舍自如成为了现代企业一项重要的生存发展手段,而搜索引擎服务的出现恰恰满足了现代企业这一迫切需要。

二 需求分析

  目前企业的搜索引擎多采用基于全文检索技术进行设计开发,而采用任何开发语言编写的搜索引擎代码的效率都必须依赖于其运行的计算机硬件配置,如果说软件代码相当于一个人的思维,那么计算机硬件就相当于一个人的身体。虽然说按照IT界经典的摩尔定律:“集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍”,计算机硬件的性能会根据科技的发展而不断提高,可是当我们回首信息的创造速度,那样我们就会发现一个问题:计算机硬件性能的发展速度已经远远落后于信息的发展速度。
  对于全文检索技术来说,随着索引的不断膨胀和客户端并发查询的增加,有限物理存储、CPU周期、内存频率和网络带宽都给检索体验带来的巨?蟮钠烤薄?br>  很多企业为了满足日益扩展的业务需要,同时为了应对由于计算机硬件技术发展带来的性能瓶颈,开始通过大规模部署服务器构建企业信息中心的方式来开展日常工作。虽然短时间内这种大规模服务器部署的方式能够解决由于计算硬件技术带来的性能瓶颈,使企业内部的信息利用程度有一定的提高,但是随着业务的发展,对信息的日常利用操作也在急剧增长,这些在给企业带来了资源维护上的极大负担和IT管理费用飞升的同时还造成了系统压力、响应时间、运营成本、客户服务等诸多方面的问题,既不利于资源共享,又存在不少安全漏洞。
  而随着网络技术、存储技术的不断发展,一种全新的概念—“云计算(Cloud Computing)”出现在了我们面前,云计算(Cloud Computing)是分布式处理(Distributed Computing)、并行处理(Parallel Computing)和网格计算(Grid Computing)的发展,或者说是这些计算机科学概念的商业实现。
  云计算的基本原理是,通过使计算分布在大量的分布式计算机上,而非本地计算机或远程服务器中,企业数据中心的运行将更与互联网相似。这使得企业能够将资源切换到需要的应用上,根据需求访问计算机和存储系统。
  而云搜索(Search Cloud)是云计算诸多应用方式中的一种,通过云搜索方式用户只需要一台能上网的终端设备,不需关心搜索或存储发生在哪朵“云”上,一旦有需要,我们可以在任何地点用任何设备,如电脑、手机等,快速地计算和找到这些资料。
  在上述信息资源开发、利用的现状下,北京金信桥公司利用自身在信息管理和信息挖掘领域多年积累的技术经验并成功的将云计算技术融入其中,推出了TBS云搜索解决方案。

三 方案介绍

  TBS云搜索解决方案采用虚拟化的云计算平台,在有效的提高了搜索引擎效率的同时,还能够极大的节约企业信息中心硬件投入成本和系统能耗,从而也响应了国家低碳环保的号召。

3.1 部署实施


  通过上图的云搜索部署方式我们可以看出,TBS云搜索解决方案是一个利用分布式结构部署的,具有跨平台、可扩展的搜索引擎平台,可以为企业提供高性能的信息检索服务。该方案采用了分布式检索技术,通过云计算模型将企业内部的众多独立的服务器进行统一管理和调度,有效的协调了各独立服务器的计算处理能力,将原?写蟾汉傻募焖餮沽χ悄艿姆峙涞搅烁鞫懒⒎衿鳎佣诱迳咸嵘思焖餍剩岣吡似笠涤没У募焖魈逖椤?br>   在进行TBS云搜索部署时, 企业内部的中心网络服务器作为主控制节点,负责进行检索请求的负载均衡处理、调度处理和用户身份认证即可,对于复杂的索引/检索操作则交给分布在企业内部或异地的分支机构的独立服务器进行处理,且对服务器性能不做要求,可以随时无限扩展,从而实现了各独立服务器的分布式处理、并行处理。



  在TBS云搜索方案部署中,子节点服务器可以配置TBS SEARCH关系数据库全文检索服务、TBS SERVER全文数据库检索服务、MTSERVER异构数据库检索服务、TBS SITE站点搜索服务共计四种检索服务。
  TBS SERVER关系数据库全文检索服务是对通用关系数据库进行基于文本内容检索的全文检索引擎,该搜索引擎支持64文件系统,支持Windows和Unix平台,支持国家标准GB-10830和国际标准字符代码(UNICODE),支持中文大字符集(10万汉字),能够兼容目前市面上绝大部分通用关系数据库(如SQL-Server、Oracle、MySql等)。
  TBS SERVER全文数据库检索服务内置国内外技术领先的中英文全文检索引擎,它采用多种压缩算法、中文字词结合索引、中英文混合索引、动态多级索引等多项先进技术,它具有索引和检索速度快、空间膨胀率低、分布式动态负载均衡、多机并行检索、支持多语种等特点,可以快捷方便的对TBF全文数据库生成索引。
  TBS SERVER全文数据库检索服务还可以通过ODI开放数据库接口(Open Database Interface)技术对通用关系数据库生成索引并进行检索。
  MTSERVER异构数据库检索服务是以元搜索引擎为原型,将已有的B/S结构检索系统(包括搜索引擎、数据库检索系统等)作为目标资源,在其基础上构造一个通用的检索平台,允许用户选择不同的目标资源来同时进行检索,并将检索结果以统一的形式显示出来,从而达到异构资源整合检索的目的,具有跨平台、跨数据库、整合检索及异地调度等功能。
  TBSSITE站点搜索服务具有一个强大的网页收集器,一般称为“网络蜘蛛”,也有叫“网页机器人”。 网络蜘蛛即Web Spider,是一个很形象的名字。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个网页(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。
  通过TBSSITE站点搜索服务对抓取回来的内容进行分析,抓取的内容是文本文件。对于网络蜘蛛来说,抓取下来网页包括各种格式,包括html、图片、doc、pdf、多媒体、动态网页及其它格式等,通过对文件信息(包括网页所在URL、编码类型、网页内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等)的提取,并根据一定的相关度算法进行大量复杂计算,得到每一个网页针对网页内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
  以上四种服务可以根据子节点的部署规划灵活配置,各服务之间无任何依赖关系,某一服务单独部署后均可以正常完成其负责的索引/检索操作。

3.2 工作流程



  在TBS云搜索解决方案中,当用户访问中心网络的检索平台时,首先由负载均衡服务判断发布服务集群中发布服务器的忙闲程度,然后登录至访问负载较小的发布服务器。用户在登录界面中向认证服务提交相关身份信息后,通过认证服务器的认证,用户进入检索页面,系统根据用户权限不同产生包含不同可检索内容的UI。当用户在检索界面中选择检索范围并提交检索关键字后,发布服务器向调度服务器询问被检索信息的子节点存储位置,然后向子节点提交查询请求,等待子节点检索完成后向发布服务器返回检索结果。
  在子节点中,由TBSSERVER全文数据库检索服务对全文数据库进行索引,由TBS SEARCH关系数据库全文检索服务对通用关系数据库进行索引,由TBS SITE站点搜索服务对其可访问的WEB内容进行抓取并将提取的文本数据进行索引,以上工作均在子节点自动进行。当接收到中心网络的查询命令后,分别由TBSSERVER服务、TBS SEARCH服务、TBSSITE服务对其生成的索引信息进行检索,并将检索结果返回中心网络服务器。当TBS MTSERVER服务接收到中心网络的查询请求后,开始对其管理的异构站点进行统一检索,当检索完成后将检索结果返回中心网络服务器。

3.2 设计特点
  计算能力更强
  构建于云平台上的检索服务利用了多节点独立服务器的计算能力,针对不同权限用户的检索内容,提供被检索的子节点也不同,从而将多用户并发的检索压力动态的分配到了整个云平台中,从而将子节点上的计算能力叠加起来,形成了真正的云计算。
  工作效率更高
  从子节点来看,构建于云平台上的检索服务采用SEARCH SERVER FARM(检索服务器农场)方式,提供各种类型的索引/检索服务,且各SEARCH SERVER FARM之间可以协同工作,分担高并发的检索压力,实现了以往大型计算中心才能实现的功能。在SEARCH SERVER FARM中对独立服务器的硬件配置要求相对较低,降低了使用成本,却极大了提高了工作效率。
  更易于扩展
  云平台整合了各节点中独立服务器的计算能力,打破了以往各节点的信息壁垒。而且当产生了新的节点后,只需要简单配置并在中心网络注册后就可以加入云计算处理,从而实现了整个云平台的平滑扩展。

导航
Copyright © 1994-2018 北京金信桥信息技术有限公司
电话:010-62670903,62670700  传真:010-62670877 E-mail:tbsinfo@sohu.com
京ICP备15047523号