大数据 0815 作业
作业一,使用 RDD API 实现带词频的倒排索引
代码说明,main 方法的第一个参数为放置所有文档的目录路径
作业二,Distcp 的 spark 实现
代码说明,main 方法的第一个参数为源端目录路径,第二个参数为目标端目录路径,第三个参数为是否忽略失败选项,第四个参数为最大并发任务数,
本地测试过程
作业二的源端目录
作业二的目标端目录
版权声明: 本文为 InfoQ 作者【朱磊】的原创文章。
原文链接:【http://xie.infoq.cn/article/8b2f55633261680f4851f893b】。未经作者许可,禁止转载。
评论