Nlpir Parser汉语分词系统

供应商
灵玖中科软件(北京)有限公司
认证
品牌
灵玖软件
联系电话
010-62648216
市场部专员
张先生
所在地
北京市海淀区苏州街49-3号5层11号
更新时间
2017-04-24 15:37

详细介绍

   分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段可以通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,但是在词这一层上,中文比之英文要复杂的多、困难的多。

  智能分词就要提到智能计算技术。智能计算技术涉及的学科包括物理学、数学、计算机科学、电子机械、通讯、生理学、进化理论和心理学等等。简单的说,智能计算就是让机器“能看会想,能听会讲”。要想实现这样的一个目标,首先就要让机器理解人类的语言,只有机器理解了人类的语言文字,才使得人与机器的交流成为可能。再反观我们人类的语言中,“词是小的能够独立活动的有意义的语言成分”,所以对于中文来讲,将词确定下来是理解自然语言的第一步,只有跨越了这一步,中文才能象英文那样过渡到短语划分、概念抽取以及主题分析,以至于自然语言理解,终达到智能计算的高境界,实现人类的梦想。

nlpirparser大数据智能平台汉语分词系统前身为2000年发布的ictclas词法分析系统,从2009年开始,为了和以前工作进行大的区隔,并推广nlpir自然语言处理与信息检索共享平台,调整命名为nlpir分词系统。张华平博士先后倾力打造十余年,内核升级十余次,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际sighan分词大赛综合第一名,2002年国内973评测综合第一名。全球用户突破30万,包括中国移动、华为、中搜、3721、nec、中华商务网、硅谷动力、云南日报等企业,清华大学、新疆大学、华南理工、麻省大学等机构。

nlpir parser大数据智能平台汉语分词系统主要功能介绍:

  1)中英文混合分词功能

  自动对中文英文信息进行分词与词性标注功能,涵盖了中文分词、英文分词、词性标注、未登录词识别与用户词典等功能。

  2)关键词提取功能

  采用交叉信息熵的算法自动计算关键词,包括新词与已知词。

  3)新词识别与自适应分词功能

  从较长的文本内容中,基于信息交叉熵自动发现新特征语言,并自适应测试语料的语言概率分布模型,实现自适应分词。

  4)用户专业词典功能

  可以单条导入用户词典,也可以批量导入用户词典。如可以定“举报信敏感点”,其中举报信是用户词,敏感点是用户自定义的词性标记。

  5)微博分词功能

  对博主id进行nr标示,对转发的会话进行自动分割标示,url以及email进行自动标引。

大数据搜索 语义分析 智能挖掘 中文分词

展开全文

我们的新闻
咨询 在线询价 拨打电话