在中文信息处理和理解系统中,“词处理”是一个基础环节。所谓“词处理”,是指在连续的汉字字符串中识别词语, 并获取这些词语的语言学信息和统计学信息,譬如:语法属性、语 义属性、用法信息等,这些信息是系统下一步分析和理解语句的必要基础。我们把计算机获取这些必要的信息称为对词语的理解。这样,“词处理”的任务就是识别和理解语句中的词语。 中文信息处理分为汉字信息处理与汉语信息处理两部分,具体内容包括对字、词、句、篇章的输入、存储、传输、输出、识别、转换、压缩、检索、分析、理解和生成等方面的处理技术。用计算机来处理汉语信息,就是汉语信息处理,又称中文信息处理。中文信息处理包括“字处理”、“词处理”和“句处理”。 “字处理”、“词处理”分别与汉字和词汇有关。句处理的主要内容是,怎样使计算机理解自然语言(如现代汉语)的句子的意思,又怎样使计算机生成符合自然语言规则的句子。“句处理”所需要的语言知识,将是一种涉及到语音、语义、语法、语用等诸方面的综合性知识。目前。大家都深感现有的关于汉语的知识远远不能满足中文句处理的需要。单就句法方面的情况说。在中文信息处理过程中将会不断遇到我们想象不到的问题,许多问题在人看来还是比较容易解决的,但计算机解决就比较困难了。 1、首先,就切分而言,中文原本没有词的概念,没有一个统一的词的确切定义。中文构词方法的多样性特点使得分词十分困难。汉字造词可以是字,也可以是词甚至词组。造句的方式有以字造词,以词造词。如果没有语法、语义知识或语境了解的帮助就很难对有些句子进行正确切分。 2.其次,汉语迄今为止仍未有一部公认的、确切完备的并适合于计算机处理的语法规则。汉语词法的无标准性,句法的复杂性,语法的模糊性与语义的多样性,如汉语中大量存在一词多义,多词一义,词性变化,词义转借等现象,使得研究中文信息处理的学者至今仍难以对它进行完备的总结。这也为汉语分词制造了困难。 3.再次,现有的分词方法基本上都是基于统计和词典的分词方法,它们都必须在分词速度和精度之间做出选择。要提高速度,就要适当放弃精度的追求,缩减词典,减少匹配次数。而要提高切分精度,就得舍弃速度,无限扩充词典,匹配次数也会无限增加。因此,切分效率不高也是一大问题。 4.最后,基于统计的分词方法虽然能够有效地自动排除歧义,但也不能百分百的消除歧义。因为汉语由于构词语素大多是不定位语素,又有相当数量的自由语素,汉语词理解的多义性、复杂性, 再加上词与词之间没有空格隔开,没有任何区分标志,这就造成了切分中的多分字段,因而歧义现象是分词过程中不可避免的现象。 北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大 数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。 NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,Python,C,C#等各类开发语言使用。 随着信息技术在我国社会生活各个领域应用的深入,中文信息处理正在成为人们工作和生活中不可或缺的手段,中文信息处理将具有更加广阔的市场。这将促使中文信息处理方面的高效中文搜索引擎、实时机器翻译、大规模中文文本处理、跨平台中西文自动识别转换、泛中文语义理解、中文电子商务等技术实现重大突破。中文信息处理已成为我国信息技术研究、发展、应用和产业的基础,在互联网日益成长的今天,中文信息处理技术将会更加成熟并创新。
|