近年来,随着Internet 的迅猛发展以及人们利用信息技术生产和搜集数据能力的大幅度提高,大规模的网络文本库不断涌现。为了便于在海量文本库中搜寻、过滤、管理这些文本,基于人工智能技术的文本自动分类方法成为人们研究的焦点。 数据挖掘技术本身就是当前数据技术发展的新领域,文本挖掘则发展历史更短。传统的信息检索技术对于海量数据的处理并不尽如人意,文本挖掘便日益重要起来,可见文本挖掘技术是从信息抽取以及相关技术领域中慢慢演化而成的。 文本挖掘不但要处理大量的结构化和非结构化的文档数据, 而且还要处理其中复杂的语义关系, 因此, 现有的数据挖掘技术无法直接应用于其上。对于非结构化问题, 一条途径是发展全新的数据挖掘算法直接对非结构化数据进行挖掘, 由于数据非常复杂, 导致这种算法的复杂性很高; 另一条途径就是将非结构化问题结构化, 利用现有的数据挖掘技术进行挖掘, 目前的文本挖掘一般采用该途径进行。对于语义关系, 则需要集成计算语言学和自然语言处理等成果进行分析。 灵玖软件NLPIR大语义智能分析平台针对中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,先后历时十八年,服务了全球四十万家机构用户,是大时代语义智能分析的一大利器。 NLPIR大语义智能分析平台平台针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,C,C#等各类开发语言使用。 NLPIR能够全方位多角度满足应用者对大数据文本的处理需求,包括大数据完整的技术链条:网络采集、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。 目前利用文本挖掘技术的多是一些信息收集机构,这是由于在信息行业中,文本信息都起着至关重要的作用,文本挖掘技术是采取任何技术的出发点,直接影响各工作流程的质量、效率、全面性和费用-效益比,并与最终产品息息相关。 随着信息技术在我国社会生活各个领域应用的深入,中文信息处理正在成为人们工作和生活中不可或缺的手段,中文信息处理将具有更加广阔的市场。NLPIR大语义智能中文信息处理技术已成为中文信息技术研究、发展、应用和产业的提供了重要的帮助,在互联网日益成长的今天,NLPIR大语义智能中文信息处理技术将会更加成熟并创新。
|