week 13 学习总结
把相同的key发送到同一个服务器上,这个操作叫shuffle。以前总以为是打乱充分配的意思,不知道有聚合相同key的操作。
spark操作是lazy的,如果transformation之后没有action,transformation不会执行,如果transformation内实现了有副作用的操作,那些操作不会执行。
scala闭包引用的对象会被序列化再发送到executor,如果想统计每个executor的执行结果,得使用accumulator对象,否则执行时修改的被引用的对象在executor上的副本,driver上无法读取到修改。
评论