1 2 3
金信桥网络公司
 
产品介绍
资源服务产品
资源建设产品
资源管理产品
应用管理产品
网络应用产品
基础产品
工具产品
中国城市林业政策信息网
中国林业政策信息网
中国林业信息网
水产科技信息网
北京经略信息咨询公司
中国党政信息网
中国残疾康复信息网
国家林业局科技司
中国兵工学会
中国现代国际关系研究院
国家农业科学数据共享中心
交通科学数据共享网
民航科学数据共享网
法规数据网
北京印刷学院数字图书馆
国电数字图书馆
北京农学院图书馆
煤炭数字图书馆
中国化工安全网
中国畜牧信息网
 
TBS-CIS 网络资源采编软件

一 系统概述
   
    新闻媒体、政府部门、大型企事业单位纷纷通过互联网技术搭建网络信息收集平台:新闻媒体需要获取大量的互联网上新闻资料,充实新闻资料库;政府机关需要收集与自身业务相关的文献资料,提升办公与决策效率;大型企事业单位需要快速获取行业宏观环境、政策动态与竞争对手信息……    
    北京金信桥信息技术有限公司多年来致力于数字资源应用技术的研究和产品的开发,在积淀了多年的技术储备和应用实践后,推出了TBSCIS网络资源采编软件。该软件集成了网页搜索、内容智能提取与过滤、自动分类聚类、自动去重等技术,实现了对互联网信息采集、过滤、提取与批量存储的自动化与一体化,还提供了人工对信息的编辑审核功能,从而可以对网络信息进行深度挖掘,轻松获取网络资源。

二 系统结构

 2.1 系统架构


图 2.1 系统架构图

 2.2 功能架构

    TBS网络资源采编软件由以下几部分组成:

    ◇TBS元搜索引擎:主要功能是提供资源信息的检索和定位功能,方便用户在互联网上找到目标资源。
    ◇TBS资源采集器:主要功能是实现对信息进行实时监控,并把最新的网页及时采集到本地。
    ◇自动分类聚类去重:采用高效的文本分类、聚类技术,自动对采集的信息进行分类去重。
    ◇信息编辑审核模块:提供数据加工人员灵活方便的编辑校对界面,对采集的信息进行二次加工,经过审核后提交发布。
    ◇数据库服务器、SQL Server数据库服务器:提供数据存储和检索服务。
    整个系统各个模块之间的相互关系如下:

 2.3 系统软、硬件部署

    TBSCIS系统主要包括五个部分: EBS统一认证服务器、FTS文件服务器、MNG调度服务器、MSSQL 数据库服务器、TBSCIS管理端、TBSCIS操作端。
    EBS统一认证服务器、FTS文件服务器、MNG调度服务器、MS-SQL 数据库服务器可以根据实际情况部署在一台服务器上,也可以部署在不同的机器上。系统也可以挂接多个FTS文件服务器。另外,TBSCIS管理端、TBSCIS操作端可以安装在同一台个人电脑上。


图2.3 系统网络部署


三 功能及特点

    TBSCIS网络资源采编系统主要包含服务器管理端和客户操作端两部分。管理端负责流水线的建立、工序的设置、操作员的分配、基本信息设置等等。客户端负责信息搜索、信息设置、信息采集、信息分类聚类、信息入库等操作。信息采集、信息分类、信息入库操作都可以长时间自动运行。

 3.1 系统功能

 3.1.1 管理端软件
  • 系统设置

  • 设置数据库服务器、FTS服务器、MNG服务器的IP地址及端口信息,使得系统中各个服务程序能够有机的连接起来,使系统能够正常的运转。
  • 搜索引擎管理

  • 主要为客户端信息搜索部分服务。管理关键字搜索功能使用的搜索引擎的配置文件,可以添加、删除、编辑搜索引擎。
  • 流水线管理

  • 建立一条或多条工作线程(流水线),每一条流水线都包含一道或多道工序,并且可以把工序配置给不同的操作员。
  • 用户管理

  • 用户即流水线管理中提到的操作员,此处可以添加删除用户,以及对用户信息的编辑修改,还可以以用户为基础为其分配流水线等。
  • 工件管理

  • 显示采集流水线中各工序中的工件状态,便于管理员掌握各流水线加工进度。

 3.1.2 客户端软件

  • 信息定位

  • 1) 允许用户选择输入某个目标资源进行检索。
    2) 支持简单检索和复合检索两种检索方式。
    3) 支持自动检查链接的有效性。
    4) 支持不同目标资源的特定检索条件。
    5) 提供多种检索结果输出格式。
    6) 利用Cache技术保存检索结果,提高检索访问速度,有效利用网络资源。
    7) 支持并发检索,对于并发的同一个检索条件共用检索线程资源,最大程度地利用网络和系统资源。
  • 信息设置

  • 1) 支持按栏目进行设置。
    2) 支持按关键字进行设置。
    3) 允许设置采集时间间隔。
    4) 允许用户人工更改采集状态。
    5) 允许用户对采集过程的各种情况进行设置。
  • 信息采集

  • 1) 支持各种标准格式信息资源的采编,如HTML页面、文本信息、表格、图片、声音、视频等。
    2) 实现对网页与内联图片的统一采集。
    3) 支持繁体页面(BIG5码)的采编,并自动转换为标准的简体码(GB码),支持Unicode码集。
    4) 支持由程序自动生成的页面内容的采集,如由JavaScript生成的页面。
    5) 能方便抓取由数据库自动生成或者需要身份验证的网站内容。
    6) 支持单篇网页及网站历史数据的批量下载。
    7) 高效的采编技术和更新策略,采用多线程并发搜索技术,采集过程高效准确,且提供高效的更新手段,已经采编过的信息不会重复采集,更新时只获取前次采集后更新的网页。
  • 信息分类聚类(包含信息去重)

  • 1) 高效的垃圾信息过滤。系统可对网页进行内容分析和过滤,自动去除广告、版权、栏目等无用信息,精确获取目标内容主体。
    2) 智能化信息自动分类技术。采用TBS基于内容的自动分类技术,可对采集的网页进行基于内容的自动分类,不需人工干预。自动分类的准确率基本可以满足信息粗加工或大多数应用的实用要求。同时系统提供分类训练工具,允许用户自行根据自己的分类需求和数据特点设定分类结构和生成特征模板,适应不同行业的需求。
    3) 聚类技术是按照某种相似度值将一个集合划分成若干个子集,使得子集内部的元素之间有较大的相似度,而子集之间的元素的相似度值较小。对于文本聚类,就是将一个文档集合按照相似性划分成若干个类,使得每个类中的文档相似,而不同类中的元素之间不相似。聚类过程也包含三个阶段:文本预处理、文本特征提取、聚类。前两个过程和分类是相同的,在生成待聚类文本的特征向量集合之后,就可以用聚类算法对文本集进行聚类了。由于聚类依赖于文本之间的相似度,因此,计算文本之间的相似度是聚类的基础。
    4) 基于内容相似度计算的自动去重。不是利用简单的规则判断,而是利用内容的相似性进行排重判断,准确性高。
  • 信息编辑

  • 可以方便地查看已采集的各种信息,可对其进行修改和删除等操作,达到用户对采集到信息的直接控制。
  • 信息入库

  • 可以根据用户需要,经采集到的信息,自动或人工的导入SQLSever数据库(关系数据库)或TBS数据库(用于发布及检索)、或者将其另存备份。

 3.2 系统特点

 3.2.1 加工流程方案完全由用户定制

    由于采编的信息资源的来源广泛、特点各异以及不同用户的需求不一致,导致 了信息资源加工过程的复杂性。但是整个信息资源加工大致可以分为信息搜索、信息定位、信息采集、信息去重、信息分类聚类、信息编辑审核、信息入库、信息发布等工序。通过完善的接口设计和流程分析,系统提供用户任意确定工艺流程操作个数和顺序,实现单机信息资源加工和机群间高效率的协同作业。


图3.1 信息加工流程图

 3.2.2 高效的信息定位功能

    目前Internet上已经存在多个功能强大的搜索引擎,超级检索引擎已经随时将网上产生的新闻等建立了索引,可以直接为我们所用。无须再使用自己的ROBOT到网络上抓取。TBS元搜索引擎直接利用这些超级搜索引擎,可以从多个搜索引擎上获取检索信息,对结果进行合并去重处理,然后将结果返回给用户,方便用户进行资源的查找定位。

 3.2.3 先进的信息采编技术

    系统给用户提供了功能强大的可视化的采集规则的配置界面,极大的提高了用户进行规则的配置的效率、降低了对操作人员的计算机知识的要求,真正做到“傻瓜”级的配置。
    适应网站内容格式的多变性,能完整地获取需要采集的页面,遗漏少。
    能方便地将网页中的信息提取出来,如日期,标题,作者,栏目等内容;过滤网页中的无用信息。
    系统通过多线程处理技术,可以同时启动多个搜索器,快速高效地对目标站点或栏目进行信息采集。

 3.2.4 开放性好,和其他信息服务系统有机集成

    被采集到的信息可以根据用户系统环境需要,存储到TBS全文数据库、SQL Server、Oracle等数据库中去,使得其他信息服务系统可以方便地引用,从而系统和其他系统的有机集成。

四 工作流程


工作流程图

五 典型界面

图 5.1 管理端软件---流水线配置


图5.2 操作端软件---信息配置


图 5.3操作端软件---信息采集

图5.4操作端软件---信息分类

图5.5操作端软件---信息入库

六 运行环境

 6.1 服务器端
    软件环境:windows 2000(SP4)/2003(SP1) 服务器版
    硬件配置:CPU:Intel Xeon 2.0 GHz以上,RAM:1 GB以上,硬盘:120G,网卡:100/1000M自适应

 6.2 客户端
    软件环境:windows 98/2000/xp/2003,IE 6.0以上
    硬件配置:CPU:Intel Pentium 4 1.6 GHz以上,RAM:512 MB以上,硬盘:80G,网卡:100M

七 典型用户

    总参某所
    广安门中医院
    西苑医院图书馆
    中国检科院动植物疫情采集分析系统
    空军装备研究院

八 联系方式

    地址:北京市海淀区中关村东路66号世纪科贸大厦B座2306室
    邮编:100190
    总机:(010)62670903/62670700
    传真:(010)62670877
    客户服务:(010)62670903
    邮件支持:tbsinfo@sohu.com
    公司网站:http://www.tbs.com.cn

菜单
Copyright © 1994-2018 北京金信桥信息技术有限公司
电话:010-62670903,62670700  传真:010-62670877 E-mail:tbsinfo@sohu.com
京ICP备15047523号