世界各地企业如今都在使用云服务,实施大数据分析驱动生态系统,对于IT经理和C级高管而言,保持进步是非常重要的。跟不上发展的速度,意味着失去客户的风险。它是企业生态链最基本的法则:适应还是被吃掉。IT系统帮助企业分析存储系统收集的数据,这非常有利的。但这是说起来容易做起来难,因为建立一个新系统或改造旧系统有很多事情需要考虑。管理层要求系统运行在最佳性能以获得投资正回报。以下是大数据/Hadoop项目10大不脱轨秘诀。 弄清楚你试图解决的问题 如果你不知道你想用它做什么,就不要使用你的数据。有了这样的认识,你就可以确保公司在正确方向上。尽早规划和坚持你的计划。 定义你的业务问题 问题包括目标受众,如何做到最好,如何扩大市场范围,如何有效控制成本,以及如何以最积极的方式让客户参与和交流。这涉及不同类别的数据。发现什么问题确实存在至关重要,可以让企业理解和解决问题以进行改善。 专注最重要问题第一 这并不容易,因为所有问题从各自角度都是最重要的。划分优先级并保持专注。问题会发展会有新问题出现。 得到那些知道他们在做什么的人的帮助 你需要一个技术专家,他知道该项目的来龙去脉,以及如何解决问题的办法。如果你的技术专家不精通业务层面,找一个知道商业模式、财务状况、产品或服务,以及如何将这一切关联在一起的人。 知道你的数据分布在哪里 如果你使用数据分析指导销售,你需要着力于用户行为、产品查看、点击率和推介网站等。.如果你想简化供应链,你可以肯定需要关注原材料、供应商关键绩效指标、提单、仓储、甚至司机效率等数据。知道这些将帮助弄醒出你究竟有多少数据。 投资于了解数据 数据在哪里,哪些数据是从哪儿来的?处理这种情况最好的方法就是关注数据分析过程。此外,预期中的架构更改和计划,让系统能够处理它们。如果能在开始时就确定问题的范畴,处理起来将不太困难,花费时间较少,而不是等到系统建立起来。 存储数据 一旦你知道数据来源以及未来会有多少潜在数据,你就会知道如何存储这些数据。数据增长也许不如预期中那么多,所以你并不需要可扩展性。也许你每天收集大量的数据,基于云计算最大的可扩展性也许是要走的路。 处理数据 什么需要被分析?结构化数据,如日志文件;半结构化数据,如电子邮件或tweet数据;或非结构化数据,如卫星数据;还是上述所有类型的数据?如果你打算处理是结构化数据,那么SQL Server就是好的选择;但如果你要处理非结构化数据,或者其他类型的数据,Hadoop可能是最有效解决方案。 数据损坏和数据错误 无论是由于人为错误或Bug引起的错误,你将有坏数据。对此要有前期计划,这将避免未来为之而头痛。仔细查看重复数据删除、数据精梳和其他质量保证软件。 设计与实施 这通常是一个主要的绊脚石。需要做好人事或财务决策。例如使用Hadoop,如果训练有素人力资源备用,你就会减少相关费用支出。如果没有人具备所需要的技能,他们需要学习它。但如果甩开了他们当前的任务,进行程序员培训,或者外包不是一种选择,那么软件即服务(SaaS)可能是最好的选择。 |