NLPIR大数据平台实现中文自动语义挖掘

大数据分析 · 发表于 2019-5-17 11:58:36

　　随着中国的经济迅速发展和对外交往的日益频繁，中文在国际上的地位也逐步提高。尽管中文被认为是世界上最难学的语言之一，但近年来，世界上学中文的人还是不断增加，这些人遍布亚洲、欧洲、美洲、非洲。而学习中文的人也不单纯是学习语言、文化、历史专业的学生，许多国家学习经济、贸易、法律专业的大学生也开始学习中文，他们认为掌握中文会对就业和工作有帮助。

　　中文信息处理分为汉字信息处理与汉语信息处理两部分，具体内容包括对字、词、句、篇章的输入、存储、传输、输出、识别、转换、压缩、检索、分析、理解和生成等方面的处理技术。用计算机来处理汉语信息，就是汉语信息处理，又称中文信息处理。

　　中文信息处理是中文(包括汉语和少数民族语言)语言学和信息技术的融合，它是一门用计算机对汉语(包括口语和书面语)进行转换、传输、存贮、分析等加工的科学。中文信息处理与语言学、计算机科学、心理学、数学、控制论、信息论、声学、自动化技术等多种学科相联系，是自然语言信息处理的一个分支，需要以大量的语言知识、背景知识为依据，对中文信息的人脑处理过程进行模拟。其中，“中文”是指中国通用的所有语言种类，包括汉语及其他少数民族的语言:但一般都是指汉语。“信息”是指能通过视觉、听觉、嗅觉、味觉、触觉等器官或仪器获取，并有一定交际功能的东西，“信息”是不确定性的减少，是负熵。所谓“处理”，是指用计算机对信息进行各种加工，主要的是图像信息和语言信息的识别、模拟、分析、转换和传输。

　　目前中文信息处理能力与国际上先进水平差距还很大。例如：自动分词和词性标注，至今还未开发出一个像日语分词系统那样被广为接受的分词标注系统。从采用的方法可以看出，随着研究的不断深入，基于统计的方法已逐渐暴露自身的缺陷，统计方法不可能解决所有的问题，还是需要结合基于规则的方法，才能在精度上得以突破;

　　中文信息处理句法分析和语义分析问题;中文信息处理应用研究的问题，比如信息输入中的键盘输入和汉字识别发展已经成熟，但语音识别却很实现，困难是要适应不同人之间的语音变化以及外界的噪音干扰;中文信息处理研究分散而且存在着低层次重复、缺乏统一规范和标准的问题;现代汉语研究领域和计算机领域的隔绝状态没有出现根本性改变;汉语文和少数民族语言文字的信息处理技术与国际水平相比，还有相当大的差距。

　　北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。

　　NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块，平台提供了客户端工具，云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中，可兼容Windows，Linux， Android，Maemo5, FreeBSD等不同操作系统平台，可以供Java，Python，C，C#等各类开发语言使用。

　　随着信息技术在我国社会生活各个领域应用的深入,中文信息处理正在成为人们工作和生活中不可或缺的手段，中文信息处理将具有更加广阔的市场。这将促使中文信息处理方面的高效中文搜索引擎、实时机器翻译、大规模中文文本处理、跨平台中西文自动识别转换、泛中文语义理解、中文电子商务等技术实现重大突破。中文信息处理已成为我国信息技术研究、发展、应用和产业的基础，在互联网日益成长的今天，中文信息处理技术将会更加成熟并创新。

收藏本站

快速投稿

联系我们

广告服务

基石导航

峰会活动

基石数据

社区

NLPIR大数据平台实现中文自动语义挖掘