搜索
查看: 1290|: 0

spark 系列教程(四十):RDD 编程二次排序、mapjoin

[复制链接]

42

主题

0

回帖

204

积分

中级会员

积分
204
发表于 2018-3-16 13:55:10 | 显示全部楼层 |阅读模式
1.二次排序

自定义比较类用于key


用spark rdd实现二次排序



程序结果


借助之前封装的orcutil,把结果保存为ORC格式的文件,注意输出hadoop格式时要将rdd转成pairrdd


程序运行结果


版权声明:原创作品,允许转载,转载时务必以超链接的形式表明出处和作者信息。否则将追究法律责任。来自海牛部落-青牛,http://hainiubl.com

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-12-22 20:52 , Processed in 0.053880 second(s), 24 queries .

快速回复 返回顶部 返回列表