随着当今世界互联网、移动互联网技术的高速发展,大数据也逐渐被诸多行业所应用。中国新闻出版研究院2013年发布的《2012~2013中国数字出版产业年度报告》中认为,大 数据分析与挖掘将走进数字出版,是未来出版行业的发展趋势。对于出版行业来讲,这既是挑战更是难得的机遇。 新闻出版业的大数据应用,首先要厘清概念误区,明确区分大数据和"数据大"、"统计分析"的逻辑关系;然后需要梳理新闻出版业的数据价值体系;同时需结合新闻出版业条数据、块数据同时并存、各有千秋的数据特点和规律,围绕着数据作为生产要素,重塑新闻出版数据的采集、存储、标引、计算、建模和服务体系,进而在专业出版、数字教育或者政府管理等领域做出若干大数据应用示范案例,或者在政府大数据、行业大数据和企业数据层面开展若干试点工作,这样,方可尽快推动新闻出版业应用大数据技术的进程和步伐。 灵玖软件在出版行业领域有着先进的技术和完善的解决方案,可以解决出版行业大 数据挖掘与搜索的各方面难题。灵玖软件在技术方面的优点有: 1、网站采集技术 随着WEB技术的发展,要实现快速网页的获取的目标,还必须解决很多新的WEB获取中的技术难题,这些难题突出表现为以JavaScript为代表的脚本语言所带来的信息采集的问题,主要有:动态链接生成问题、采用Ajax的问题等,针对这些新的采集难题,灵玖软件有先进的数据采集系统都可以非常有效的进行处理。 2、高效率的信息抽取技术 在数据集成方面,灵玖软件定义了一套元数据解析规则(即规定了各元数据的含义、格式等)。用户在数据抽取子系统的优化wrapper阶段,按照解析规则标示出各元数据的配置信息。由于元数据解析规则非常简单,加上提供了友好的配置界面,使得元数据的配置工作简单,从而保证了后期维护的人工代价低。同时元数据的配置信息具有很好的灵活性、很强的针对性,于是保证了数据集成子系统在线操作时的高速度、高准确率。 3、数据挖掘技术 数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。 4、信息过滤技术 我们采取:基于内容的过滤和合作过滤。基于内容的过滤主要应用有过滤广告,过滤垃圾邮件,过滤反动等;合作过滤按用户兴趣把用户分组,同组用户具有相同或相近的兴趣; 5、内容管理技术 我们采取一套专业的内容管理系统CMS,来有效解决用户网站建设与信息发布中常见的问题和需求。对网站内容管理是该软件的最大优势,它流程完善、功能丰富,可把稿件分门别类并授权给合法用户编辑管理, 6、海量数据存储技术 本系统海量数据的存储系统的设计实现符合存储网络化和存储设备智能化的趋势。体系设计上使用对象存储思想,将对象存储通过数据通路和控制通路分离,基于独立的存储设备构建分布式对象存储系统。每个存储设备具有一定的智能,能够自动管理其上的数据分布。对象存储拥有很好的性能,可扩展性,易管理性。 7、JZSearch语义搜索技术 JZSearch精准搜索引擎,具有专业精准、高扩展性和高通用性的特点。可支持文本、数字、日期、字符串等各种数据类型的高效索引,支持丰富的查询语言和查询类型,支持少数民族语言的搜索。 8、分词与实体抽取处理技术 建立中文分词库是解决以上业务需求的必要途径,而中文分词业界的词库对法律行业的分词、语法、语义等都无法进行全方位覆盖,必须首先通过自动中分词形成原始词库再引入并邀请法律行业专家进行人工干预并筛查的步骤,后期还需要通过机器学习等人工智能方式自动发现、自动报告等用于提高人工筛查效率。 目前在许多行业,大数据已得到应用并且卓有成效,而在出版业,尽管国外有的出版商已尝到了甜头,但整体来看还处于起步阶段。在国内,它还处于摸索阶段。尽管有不少人依旧在唱衰“大数据”,但更多的人相信它有利于社会的发展,是时代进步的产物。之于出版行业,详实的数据、有价值的信息能让出版社更好地了解图书市场,可以说,大数据对于出版行业的革新是前所未有的,面对这种变革,出版社唯有做好充足的准备,真正了解大数据的意义和特征,才能发挥其优势,实现社会效益和经济效益的双丰收。而大数据的合理运用,对于整个出版行业的体系重构也必将产生深远影响。
|