文本检索,亦称为自然语言检索,指不对文献进行任何标引,直接通过计算机以自然语言中的语词匹配查找的系统。文本检索进行匹配的对象,可以是整个出版的文本,包括文章、报告甚整本图书,也可以是它的部分,如文摘、摘录或只是文献的题名。以整个文献正文为对象进行的匹配查找,称为全文检索。这种方式无需标引,数据库制作快,可以很快投入运行。 NLPIR文本搜索与挖掘开发平台针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。用户可以使用该软件对自己的数据进行处理。 灵玖软件NLPIRPacket文本智能全文精准检索支持文本、数字、日期、字符串等各种数据类型,多字段的高效搜索,支持AND/OR/NOT以及NEAR邻近等查询语法,支持维语、藏语、蒙语、阿拉伯、韩语等多种少数民族语言的检索。可以无缝地与现有文本处理系统与数据库系统融合。文本智能捡索的实现: 1)网页措词提取通过机器人程序定期自动遍历指定的Internet站点.以获取相关的Web页面,并存储于本地机器中.再通过“超文本结构化分析与转换程序”建立超文本数据库,并从超文本中获取各种措词,存人数据库,作为超文本数据库的检索信息. (2)查询条件的构造.由系统根据特征信息生成查询条件的结构框架,用户键人相应的措词.由系统自动生成查询条件(如SQL语句)提交给超文本检索引擎。 (3)匹配规则或检索算法.一般地.匹配包括精确匹配、模糊匹配和智能匹配3种. (4)查询结果的生成与处理.将查询结果以列表或报告的形式显示,并向用户提供电子邮件转发、打印、保存等功。 (5)逐级查询与结果复用.web检索是基于http协议,但该协议的无记忆性使得Web服务器无法区分两次检索请求之间的相互关系,同一用户的逐级检索请求被看成没有联系的两次请求在一段时间内记录用户的会话过程,根据用户的特征信息为用户建立单独的存储空间,存放两次检索的中间结果。 基于Web的逐级全文检索引擎,在将非结构化的超文本转换成结构化的数据库,并建立相应的措词索引数据库的基础上,能够实现基于主题、关键词、作者、日期、出处、自由词等多种方式的信息检索服务,并能实现条件复用,支持用户进行逐级检索,实际应用是成功的.值得指出的是,本文所提出的解决方案有较强的通用性,例如,可以应用在数字图书馆、远程教育课件资源检索以及ICP网站的资源检索与管理等应用中。
|