随着计算机的快速发展,产生了大量的数据,由于这些数据具有非结构化、海量、异构、冗余等复杂性,以及由于大 数据挖掘与中文自然语言处理学科本身特有的复杂性等因素的共同影响,人们对大数据搜索结果的满意度还不是很高。因此,人们对大数据搜索与挖掘技术提出了新的、更高的要求,希望它们能更加智能化、人性化,检索速度更快。这就对大数据搜索和挖掘技术提出了新的、更高的要求。 由于关系型数据库自身结构的缘故,用其来管理大量半结构化和非结构化数据显得有些不方便。对于管理半结构化和非结构化的数据而言,采用全文检索技术是比较适宜的。全文检索包括全文索引和信息检索,前者是后者的基础。和基于结构化数据的数据库管理技术和手段不同,全文索引——如倒排索引——是指计算机程序通过扫描半结构化和非结构化文档中的每一个词,对它们建立索引并指明该词在文章中出现的次数和出现位置。当用户执行检索时,全文检索程序根据事先建立的全文索引进行检索,并将检索结果反馈给用户。经过多年的发展,全文检索从最初的字符串匹配程序已逐步演进到能对超大文本、语音、图像、多媒体等非结构化数据进行综合管理。 灵玖软件NlpirParser智能平台全文索引系统是灵玖软件联合中科院与北理工的信息检索专家,针对大数据搜索业务需求而打造的一套搜索引擎,具有专业精准、高扩展性和高通用性的特点。可支持文本、数字、日期、字符串等各种数据类型的高效索引,支持邻近搜索、负面搜索、语义关联搜索,可提供各类数据库的实时搜索服务,并支持少数民族语言。 与传统的关系型数据库相比较,灵玖软件NlpirParser智能平台全文索引系统的主要特点有: (1) 方便灵活的全文存储和管理功能; (2) 支持丰富全面的检索方式,包括布尔检索(如与、或、非等)、位置逻辑检索(同段、同句、相差几个字以及前后次序有关)等几十种检索方式,可对文中任何字、词、句进行检索,还可表示检索词间的复杂位置关系; (3) 包含的信息是原始的,库中信息基本上是未经信息加工的原始文本语料; (4) 所用检索语言的自然性,可以以自然语言进行检索; (5) 支持多种字符编码方式,如GB国标码、GBK大字符集码、BIG5繁体字码等; (6) 支持多种格式文档资料的管理和检索,包括各种格式化的文档以及HTML页面的超文本链接,自动索引格式化的文档和页面; (7) 可以采用数据和索引压缩技术以提高系统的查询效率。
|