大数据搜索和挖掘中文分词是基础

大数据分析 · 发表于 2016-12-1 15:18:55

　　大数据是近年提出来，也是媒体宣传的一个概念。其有三个重要的特征：数据量大，结构复杂，数据更新速度很快。由于Web技术的发展，web用户产生的数据自动保存、传感器也在不断收集数据，以及移动互联网的发展，数据自动收集、存储的速度在加快，全世界的数据量在不断膨胀，数据的存储和计算超出了单个计算机(小型机和大型机)的能力，这给数据挖掘技术的实施提出了挑战(一般而言，数据挖掘的实施基于一台小型机或大型机，也可以进行并行计算)。

　　数据挖掘基于数据库理论，机器学习，人工智能，现代统计学的迅速发展的交叉学科，在很多领域中都有应用。涉及到很多的算法，源于机器学习的神经网络，决策树，也有基于统计学习理论的支持向量机，分类回归树，和关联分析的诸多算法。数据挖掘的定义是从海量的数据中发现隐含的知识和规律。

　　大数据搜索与挖掘目前应用很广泛，它在政府舆情、军事信息战、企业竞争情报、金融征信，个人社交等方面均具有广泛的应用前景。

　　用网络搜索和数据挖掘的手段来解决此事就方便许多了。现在是网络时代，例如某地要盖个楼、开家宾馆什么的，一般网上都会有消息发出来，那么就可以用技术手段，从新闻或网友发言中分析挖掘出来。地图商或交管局拿了这个数据，稍微核实一下就能够用来更新自己的数据库。

　　然而，如果要做到数据搜索精准、全面，大数据中文分词起到至关重要的作用，是大数据搜索和挖掘的基础。

　　中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文分词对于搜索引擎来说，最重要的并不是找到所有结果，因为在上百亿的网页中找到所有结果没有太多的意义，没有人能看得完，最重要的是把最相关的结果排在最前面，这也称为相关度排序。中文分词的准确与否，常常直接影响到对搜索结果的相关度排序。

　　这看似简单，其它是一个很复杂的过程，要满足应用者对大数据文本的处理需求，需要完整的技术链条包括：网络抓取、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。

　　而NLPIR是兼容目前所有主要平台，也可以被各种开发语言调用的。

　　汉语词法分析中间件能对汉语语言进行拆分处理，是中文信息处理必备的核心部件。NLPIR综合了各家所长，采用条件随机场(ConditionalRandomField,简称CRF)模型，分词准确率接近99%，另外特色功能包括：切分粒度可调整，融合20余部行业专有词典，支持用户自定义词典等。

　　NLPIR实体抽取系统采用基于角色标注算法自动识别命名实体，开发者可在此基础上搭建多样化的大数据挖掘应用。

　　NLPIR采用深度神经网络对分类体系进行了综合训练。演示平台目前训练的类别只是新闻的政治、经济、军事等。我们内置的算法支持类别自定义训练，该算法对常规文本的分类准确率较高，综合开放测试的F值接近86%。NLPIR深度文本分类，可以用于新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多方面。此外还可以实现文本过滤，能够从大量文本中快速识别和过滤出符合特殊要求的信息，可应用于品牌报道监测、敏感信息审查等领域。

收藏本站

快速投稿

联系我们

广告服务

基石导航

峰会活动

基石数据

社区

大数据搜索和挖掘中文分词是基础