搜索
查看: 1288|: 0

NLPIR助非结构化文本数据更易挖掘

[复制链接]

215

主题

13

回帖

2181

积分

金牌会员

积分
2181
发表于 2017-9-21 15:17:03 | 显示全部楼层 |阅读模式
  数据,是人类认知世界、发现问题、寻找办法的基本要素。当下,以互联网、物联网、云计算等信息技术结合而成的“大数据时代”,已然如激浪拍打海岸,为世界书写变革。可以说,大数据正深刻改变着当代人的思维、生产乃至生活方式,新一轮产业和技术革命已是箭在弦上。随着相关科学技术的不断突破,大数据与各个行业的深度融合,必将带来前所未有的社会与商业价值。
  大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产;大数据通常用来形容大量的非结构化和半结构化数据。
灵玖软件大数据语义分词.jpg
  结构化数据中最基本的数字、符号等,可以用固定的字段、长短和逻辑结构保存在数据库中,并用数据表的形式向人类展现(想一下常见的Excel表格),处理非常方便。但是互联网时代产生了大量非结构化数据,对于图片、视频、音频等内容,它们的数据量巨大却没有清晰的结构。对于图像的数据,我们只能理解为一个二维矩阵上的无数像素点。非结构化数据增长量很快,据推测将占未来10年新生数据总量的90%。而大数据技术可以通过图像识别、语音识别、自然语言分析等技术计算、分析大量非结构化数据,大大提升了数据维度。
  非结构化数据的数量远超结构化数据,蕴含巨大能量,应用前景广阔。例如,在机场等公共场合的个人身份检查,过去只能根据旅客提供的身份信息这一个主要维度去判断其身份。而人脸识别、语音识别等技术应用成熟后,大数据可以直接通过摄像快速比对审核,增加对个人身份判断的维度,进行既精确又高效的安全检查。
  NLPIR文本搜索与挖掘开发平台针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台。
  NLPIR是一套专门针对原始文本集进行处理和加工的软件,提供了中间件处理效果的可视化展示,也可以作为小规模数据的处理加工工具。用户可以使用该软件对自己的数据进行处理。
  随着大数据时代的来临,大数据也吸引了越来越多的关注。另一方面,近年来,随着语料库语言学的兴起,尤其是随着以Internet为主的大数据真实文本的出现,自然语言处理和文本挖掘技术也有了突发猛进的发展。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-11-24 12:43 , Processed in 0.148446 second(s), 28 queries .

快速回复 返回顶部 返回列表