Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有高可靠性、高扩展性、高效性、高容错性以及低成本的优点,且由于能够在多个分布式数据集间使用MapReduce,让Hadoop能够分析比传统方式更大规模的数据。 Hadoop和大数据的优秀总所周知,但是投资者在这方面还是相当谨慎。因为大数据作为一项IT领域创新,仍具有一定的投资风险,其中不仅包括巨额昂贵的资金投入,还有创建一个创新的实体实力也非常困难。 大数据专利投资的意义在于可以使用了大数据的垂直领域将会产生丰厚的结果,并且以saas的形式交付。 传统的软件公司的数据处理建立在专有基础设施上的,但是随着开源技术的发展,以开源来统治软件基础设施领域成为了必然的趋势,这对于传统软件公司来说并不是一个好消息,因为这意味着他们的高利润产生环节被取消了。然而开源并不太适合多变的市场需求。 我们来看一个很有意思的比赛。 2006年, NETFLIX 对外宣布,他们要设立一项大赛,公开征集电影推荐系统的最佳电脑算法,第一个能把现有推荐系统的准确率提高 10% 的参赛者将获得一百万美元的奖金。这个推荐功能得以实现的核心就是预测分析。一个算法,也可能是数十个或数百个算法,对数据集子集进行 数据分析,以查看它们是否能够识别出一些与其他感兴趣的结果相关的数据元素。当预测算法被识别出来时,它们会对另一个数据集子集进行分析。以移动用户流失率为例,一家无线公司能够通过查看婚姻状况、支付模式(提前支付、按时支付还是延期支付)、使用数量等条件,评估出对这些要素的分析能否预测出用户是中止他们的合同,还是续签合同。 这一应用的扩展是算法演进,进一步提升在“机器学习”程序中的预测能力。这类机器学习方法似乎已经宣告传统BI的死亡。 但这种新的模式仍存在一些问题,比如其分析的准确性取决于人们在数据中所做的正确关联,而这是一件非常棘手的事情。你将依靠个人判断与偏见来决定查看哪些相关数据,让数据识别哪些是相关的,且更具信服力。这一问题正变得越来越麻烦。一旦你顺着这条道路走下去,并坚信“让数据告诉我应当做些什么”,本能的冲动是获取更多的数据。例如,移动公司与消费品公司达成了协议,以获取关于其他类型产品采购习惯的信息,以便能够对客户流失情况进行分析。你可能会认为,这也是一种服务,它为客户提供了与无线服务提供商续签合同的信服理由。这看上去非常不错,但也有越来越麻烦的地方:即财务与信用。多年一来,这一直是一个有关数据采集与精确性的战场。 与针对性不强的移动解决方案不同,一份不准确的信用报告将会产生现实的后果。近期市场上出现了一种新型证券承销公司,它们使用7万个数据信号和10个并行机器学习算法来评估个人贷款。这些公司发现,一些诸如是否有潜在贷款者浏览了网络内容等非传统信号,能够更好地评估出某人是否将偿还贷款。通过分析这些数据信号,放贷企业发现,一些人采用传统征信分析可能并不值得向其发放贷款,但是通过一些数据元素进行详细分析后发现,这些人实际上是具有很小风险的信贷对象。数据与信用分析的结合将是一个重要的趋势,希望机器学习和大数据领域也会如此。我们清楚地看到了一种新的洞察力,它取代了传统的低效数据筛选方法,利用机器学习的方法设别相关的模式和效果。
【了解更多商业智能行业资讯,商业智能解决方案以及商业智能软件下载请访问FineBI商业智能官网www.finebi.com】
|