非结构化文本处理系统iNLP

产品概述

iNLP自然语言处理分析平台,提供了丰富的语言学和分析建模工具,用来从繁多的非结构化数据中发现提炼有用的信息并进行预测。文本经过转换后会变成结构化数据,可以提供给后续的数据挖掘引擎进行分析。主题和话题也被识别出来,形成明确的关联关系,这样就可以对数据进行聚类,划分到相关的群组中,用于后续的评分或者预测型模型。本软件平台可以解决诸如:极性分类、多主题标注、情感分析、用户画像等。

产品定位

         Ø  揭示以前未知的关联关系,加强发现处理能力

        Ø  通过自动化处理,缩短决策时间

        Ø  以一整套预测模型工具帮助您 识别趋势和把握商机

产品架构

3.png

优势特点

1、基于分布式平台的数据挖掘,提供准实时和实时挖掘的能力,大大提升了数据的时效性价值;

2、 应用先进的自然语言处理技术,使解析海量的互联网内容信息和交互信息成为可能;

3、 将海量数据挖掘的成本降低,使企业能够广泛享受数据挖掘带来的无所不在的价值。

iNLP产品是基于J2EE的B/S架构,可以构建于主流的Hadoop分布式文件系统之上,支持多层级模型的分布式数据挖掘引擎。

目前产品功能主要包含:分词标注,实体抽取 ,自动摘要,文本分类,时间转换,关键词抽取,文本相似性等各类组件。支持第三方语料补充、在线数据建模等;

产品算法包:

词典:Double-ArrayTie(双数组Trie树)

自动分词:最短路径、CRF(条件件随机场)、MMSEG正向最大匹配、逆向最大匹配、双向最大匹配、Viterbi二元分词

词性标注:HMM(隐马尔科夫模型)

实体识别:HMM(隐马尔科夫)、层叠隐马尔科夫模型

关键词提取、自动摘要:TextRank,奇异值分解SVD

依存句法分析:神经网络分类模型、最大熵模型

文本相似度:SimHash、最小编辑距离、空间向量余弦算法、最长公共子串

短语提取:互信息、左右信息熵

文本分类:K最近邻(k-Nearest Neighbor,KNN)、朴素贝叶斯模型(Naive Bayesian Model,NBM)、决策树模型(Decision Tree Model)、支持向量机SVM(Support Vector Machine)。

情感分析:基于情感词库,基于人工评价,基于极词表与人工相结合

分词标注:

4.png

实体抽取:机构

5.png

关键词云:

6.png