写点什么

大数据 0815 作业

用户头像
朱磊
关注
发布于: 2 小时前

作业一,使用 RDD API 实现带词频的倒排索引


代码见https://gitee.com/leoIamOk/geek-university-bigdata-training-camp/blob/master/assignment_0815/src/main/java/InvertedIndex.java


代码说明,main 方法的第一个参数为放置所有文档的目录路径


作业二,Distcp 的 spark 实现


代码见https://gitee.com/leoIamOk/geek-university-bigdata-training-camp/blob/master/assignment_0815/src/main/java/SparkDistCP.java


代码说明,main 方法的第一个参数为源端目录路径,第二个参数为目标端目录路径,第三个参数为是否忽略失败选项,第四个参数为最大并发任务数,


本地测试过程


作业二的源端目录

作业二的目标端目录


发布于: 2 小时前阅读数: 2
用户头像

朱磊

关注

还未添加个人签名 2017.12.06 加入

还未添加个人简介

评论

发布
暂无评论
大数据0815作业