网络无处不在,大到星系小到基因,无不在各自的网络系统中运行,在研究者看来,网络不仅是一种数据结构、一种现象、一个复杂系统,更是一整套世界观,一种对待世界的方式,透过它,不仅可以增进对自然界的了解,更能够对人类自身展开审视。 网络信息挖掘就是利用数据挖掘技术,自动地从网络文档以及服务中发现和抽取信息的过程。它涉及到多个研究领域,除了密切相关的机器学习和自然语言处理领域以外,还有数据库、信息检索、人工智能等研究领域。或者可以理解为网络信息挖掘就是Web数据的挖掘,即利用数据挖掘技术从网站收集的数据中发现潜在的模式和关联,网络信息挖掘能够将Web数据转换变成有用的洞察力和智能,从而来描述站点和访问站点的人。网络信息挖掘可用于加强网站的导航功能、客户交互的个性化以及保证网站的可靠性。 信息化的逐步深入和可获取数据爆炸性的增长,为网络挖掘的发展提供了足够的沃土,引起多个学科的关注和涉足,如社会组织学、信息管理学和计算机科学。随着大数据时代的来临,旨在快速、高效获取知识的网络挖掘将获取的巨大的发展空间,成为一门真正的科学。 LJParser网络信息挖掘系统是网络搜索、自然语言理解和文本挖掘的技术开发的基础工具集,开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中。 灵玖LJParser网络信息挖掘系统主要根据网络内容挖掘、网络结构挖掘以及网络用法挖掘三个方面进行挖掘: 1.网络内容挖掘 灵玖LJParser网络信息挖掘系统可以从网络的内容/数据/文档中发现有用的信息。通过技术可以把大量的网络信息资源直接从网上抓取、建立索引、实现检索服务,如文本、图像、音频、视频、元数据等形式的数据资源,因此网络内容挖掘是一种多媒体数据挖掘形式。 2.网络结构挖掘 灵玖LJParser网络信息挖掘系统挖掘Web潜在的链接结构模式。这种技术源于引文分析,即通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。可以用于网页归类,并且可以由此获得有关不同网页间相似度及关联度的信息,有助于用户找到相关主题的权威站点。 3.网络用法挖掘 灵玖LJParser网络信息挖掘系统通过网络用法挖掘,可以了解用户的网络行为数据所具有的意义。网络内容挖掘、网络结构挖掘的对象是网上的原始数据,而网络用法挖掘则面对的是在用户和网络交互的过程中抽取出来的第二手数据。这些数据包括:网络服务器访问记录、浏览器日志记录、注册信息等等。
|