淘宝明风：如何构建高性能的数据挖掘平台-数据挖掘

淘宝明风：如何构建高性能的数据挖掘平台

2013-12-18 22:48 |来自: chinakdd| 查看: 2668| 评论: 0

淘宝的数据特点

对于淘宝的数据特点，明风认为主要有以下几个方面：

一、大，淘宝每天的数据都是T级别的，怎样对这些T级别的数据做很好的分析、采集、以及在做完数据清洗后，对于比较完整的行为数据进行挖掘，这是个需要解决的难题。因为数据量大的话，很多传统算法很难直接应用，需要进行并行化的改进。并行化改进之后，数据会慢下来，如何在两者之间达到一个平衡点是非常重要的。

二、复杂，淘宝上的主体是买家、卖家和店铺，买家的行为是一个从收藏、搜索、购买、评论等，这些行为并不是按照一定的时间顺序去发生的，而是混合在一起。这些数据行为代表了消费者的购物模式，怎样从混乱的行为中找到消费者的购物模式，是一个很复杂的过程。

三、有趣，淘宝的数据很丰富，从用户的复杂行为可以看见买家很多活生生的特点，以及中国消费者的消费行为的心里，我们做过最简单的数据统计分析，能够了解中国各省女生需要买什么，男生需要买什么，这些数据能很好的反应出中国消费的一个风向标，所以说淘宝的数据是非常有意思的。

构建高性能的数据挖掘平台

随着数据挖掘业务的发展，基于传统的Hadoop下的MapReduce，速度和灵活度，已经不能满足日益复杂的挖掘算法的需求，面临多次迭代的机器学习算法，Mahout显得力不从心。如何让Hadoop这头大象插上翅膀，飞驰起来，将大数据的价值发挥到淋漓尽致？明风谈到：“基于Yarn模式的Spark，可以两者兼顾。”这并不是说淘宝要Follow业界最新的技术，是因为淘宝有实际需求的。对于淘宝数据挖掘团队而言，一个高性能的计算框架对于在上层做数据挖掘与推荐是非常重要的，另外，在Spark上可以实现很多比较复杂的机器学习算法，用MLBase机器学习算法对消费者的行为进行最准确的数据挖掘与分析，从而达到最好的推荐效果。

构建过程中需要注意的问题

无论是选择Spark还是选择其他框架，都有一些共性的东西。明风认为，“首先你需要明白搭建这个高性能系统的瓶颈在哪里，一个系统多快是取决于最慢的那一点，所以一定要把最慢的那一点提升到你需要的性能点，才能获得高性能。这一点是特别值得注意的。Spark能够在一个批量计算以及流式计算中，取得一个很好的平衡，把中间的一个点降到最低，这个是非常必要的。”

其次，明风谈到：“淘宝在做Spark过程中，由于很多东西都是很新的，所以要保持和社区良好的互动交流，将我们的改动反馈到社区里，形成一个良性循环。在淘宝，无论是Hadoop、HBase还是Spark，我们都是这样的工作模式，才能让我们的平台出在最佳的状态。”

以上便是构建高性能数据挖掘平台的重点内容，更多精彩看点，请您关注以下视频获悉：

免责声明：除非特别声明，文章均为投稿或网络转载，仅代表作者观点，与大数据中国网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。如果本文内容有侵犯你的权益，请发送信息至ab12-120@163.com，我们会及时删除

收藏分享邀请

上一篇：关于优质数据报告的三大准则 下一篇：如何唤醒用户记忆？从心理学角度看APP的用户留存率