互联网非结构化信息采集系统iRIS

产品概述

iRIS是全自化模拟用户操作轨迹,根据用户的采集需求,设计采集规则,采集互联网非结构化数据的综合平台。

iRIS分为客户端、服务端、采集端,三者的作用分别如下:

1、客户端:通过用户名登录后,主要提供任务采集规则设计,任务采集监控,任务计划设置 ,任务采集数据查看、发布及下载等功能;

2、服务端:主要提供客户端进行任务采集规则、任务计划等相关参数存储;与采集端进行socket通信,自动分发采集任务,自动转移故障任务,故障任务告警,自动发现采集端;

3、采集端:主要提供采集任务接收、执行采集任务、采集数据临时缓存等。

产品定位

        Ø  销售线索数据挖掘

       Ø  互联网舆情

       Ø  行业动态与竞品情报

       Ø  任何互联网信息数据对企业内部数据分析的补充需要

产品架构

1.png

产品优势

 Ø  可视化的采集规则设计面板,所见即所得设计方式

 Ø  全面接入验证码识别平台,可自动识别95%以上的验证码类型

 Ø  支持子页面嵌套的数据采集、数据合并等功能

 Ø  支持网站页面自动登录、自动根据关键字进行检索信息

 Ø  支持网站页面列表、网页内容、图片等数据采集

 Ø  支持采集网页相似性自动排重

 Ø  支持采集任务服务器托管,自动分配采集任务       

可以在很短的时间内,轻松从各种不同的网站或者网页获取大量的规范化数据,帮助任何需要从网页获取信息的客户实现数据自动化采集,编辑,规范化,摆脱对人工搜索及收集数据的依赖,从而降低获取信息的成本,提高效率。

2.png