 |
|
信息采集系统 |
 |
|
|
 |
该系统是一款用于网络信息定向采集处理的系统。它可以从互联网上采集任意网页上的信息,并根据用户的
设定从网页中分析提取出特定信息后整理并存放到指定的数据库中,同时提供个性化的信息定制及强大的全文检索能力。本系统通过简单的设置就能适用于任何行业、任何部门,具有非常好的适应用户实际情况的信息采集和处理能力。 |
|
 |
|
>> 采集站点维护
管理员可将要采集的站点或栏目URL加入到系统中,也可以对所有采集链接进行维护,包括狭义采集和广义采
集。狭义采集就是只采本网站的内容,而广义采集则是也采集非本网站相关链接的内容。管理员也可对要采集
的站点链接进行维护。
>> 采集任务维护
管理员设定采集任务的开始时间,轮训监控时间间隔等参数。
>> 采集策略定制
对于普通网站采集不需要定制特殊策略,只需系统按默认策略就可以正常采集,但对于复杂脚本语言编写的网
页和需特殊验证的其它复杂网页需要设定特殊采集策略。
>> 模板定制
如需采集网页中特定内容的,例如只采集标题、内容、发布时间等这样特定内容的网页,需要定制模板。
>> 自动采集
系统根据定制的任务和策略自去采集相关网站,并将采集内容放在缓冲池中等待下一步处理。采集系统不但
可采集文本,也可采集Word、PDF、Txt等格式文本内容,并解析这些文本内容。
>> 内容去噪
系统可以自动判断网页内容的真实有效性,具备对网络噪声的过滤能力,如:导航栏、广告、无效链接等。
>> 网页去重
系统在采集过程中自动生成去重目录,对于已经采集过的网页,根据网页特性检查是否有变动,如果有变动
则重新采集,否则放弃采集。
>> 自动分类
采集的网页可以基于内容的自动分类,不需人工干预,自动分类准确率达到85%以上。同时,提供智能分类训
练工具,允许用户根据自己的分类需求和数据特点设定分类结构和生成特征模板。
>> 主题过滤
根据用户定制的模板采集相应的网页主题内容,过滤规则放弃其它网页其它无用内容。
>> 资源评价抽取
采集系统可将网页的来源、发布时间、采集时间、文档大小、URL等信息抽取出来,并记录网页被访问的频度
访问的时间等使用信息,为进行资源评价提供数据来源。
>> 资源入库
将所有采集下来,并经过初步处理的资源加入资源库。 |
|
|