首页 | 关于九瑞 | 在线体验 | 招贤纳士 | 联系九瑞
智能服务平台案例
资源共享平台案例
内容管理平台案例
智能搜索引擎案例
信息采集与处理平台案例
 

·大庆油田物资集团信息采集处理系统
·黑龙江人事厅舆情监控系统

  当前位置: 首页 > 软件平台 > 信息采集与处理平台
    九瑞内容采集与处理平台集成九瑞信息自动采集与处理,中文信息处理,数据挖掘,知识挖掘等核心技术,提供企业竞争情报,舆情监控,网络预警提示,专题简报,网站门户监控以及辅助决策等高级信息服务。
    平台通过信息采集系统将互联网信息,文档信息,数据库信息进行有效采集,处理,加工,挖掘分析形成情报库,舆情库,以及决策主题库对外提供信息服务。

本系统主要对平台涉及到的海量、异质、分布的各种信息资源进行采集,分为互联网采集,商业数据库采集,自建数据库采集,文档资源采集。

>> 互联网采集系统:实现对网络信息的定向采集功能,定时触发采集任务等。
>> 文档资源采集:该子系统采集来源为相关纸质印本资源和电子文档,包括正式出版物和灰色文献。
>> 商业数据库采集系统:该系统实现对相关的商业数据库的采集功能
>> 自建数据库采集系统:该子系统采集来源为机构内部已经建立的一些中小型的数据库、论文库和事实库。

对采集上来的信息进行初步处理

>> 内容去噪:系统可以自动判断网页内容的真实有效性,具备对网络噪声的过滤能力,如:导航栏、广告、
             无效链接等。
>> 网页去重:系统在采集过程中自动生成去重目录,对于已经采集过的网页,根据网页特性检查是否有变动
             如果有变动则重新采集,否则放弃采集。
>> 主题过滤:根据用户定制的模板采集相应的网页主题内容,过滤规则放弃其它网页其它无用内容。
>> 格式转换:将不同格式的数据转换成统一格式,并按元数据标准做基本标引,确保资源的一致性。
>> 数据清洗:采集的信息资源的元数据进行自动分组、校验的过程,保持文献各数据项的统一,对数据的格
             式类型进行统一性维护,以提高分析的准确性。

对初步处理数据进行深度挖掘与训练以便对外提供高级信息服务。

>> 自动摘要:提供对文本资源的自动摘要服务,既可以对单篇文档进行摘要,也可以对多篇文档进行摘要。

>> 语义分类:系统可以支持基于语义的分类,明确不同词的含义,能够通过词所在句子分析上下文的语境,
             能够处理包括多义词的语义辨识,为词加上同义词的扩展,根据词汇语义特征进行分类。
>> 自动聚类:对用户选定的文档进行自动聚类,并能做可视化揭示,以方便用户发现文献之间的联系及联系
             热度。
>> 热点发现:通过对系统资源中出现的最新、高频词语进行分析挖掘,自动发现新词、热点词等,并能够展
             示与热词相关的文档、其他主题词、以及它们时间的联系等。
>> 自动分类:采集的网页可以基于内容的自动分类,不需人工干预,自动分类准确率达到85%以上。

对平台需要的各种资源,提供灵活的客户端资源配置功能,通过该配置系统调用收割其中的相应部分对外服务。

>> 模 板 定 制:如需采集网页中特定内容的,例如只采集标题、内容、发布时间等这样特定内容的网页,
                需要定制模板。
>> 元数据管理:需要能够按照标准定义统一的元数据结构,实现元数据的录入、维护、删除等管理。通过标
               准元数据结构实现异构资源的统一分析和服务
>> 采集配置管理:采集站点维护 采集任务维护 采集策略定制
>> 分类标引维护:规定信息资源分类和编码的规则,维护该分类体系统,从而保证信息资源组织、存储及交
                 换的一致性
>> 主题标引维护:对资源进行主题标引,建立资源之间的联系,提供相关资源推荐服务,并生成主题标引参
                 数配置文件。

平台提供高级信息服务:企业竞争情报,舆情监控,网络预警提示,专题简报,网站门户监控以及辅助决策,并以门户网站和短信平台方式进行展现。

对整个平台提供管理支撑包括:系统管理,系统流程设定,用户管理,数据库维护管理等。

Copyright@2009 北京九瑞网络科技有限公司 版权所有 违法必究 京ICP备05048898号