写点什么

著名的 Java 并发编程大师都这么说了,你还不知道伪共享么!

发布于: 2021 年 02 月 20 日
著名的Java并发编程大师都这么说了,你还不知道伪共享么!

记得关注我【看点代码再上班】,订阅更多好文!

全文共计 2163 字 18 图,预计阅读时间 13 分钟


大家好,我是 tin,这是我的第 7 篇原创文章

图拍摄于深圳桃园南山图书馆,年前某阳光明媚的周六,看到挂满的灯笼,觉得甚是喜庆。文章较长,先上一个目录:上个全文目录:


  • 二、CPU 缓存架构

  • 三、CPU 缓存行

  • 四、伪共享

  • 五、结语


一、Doug lea


在微博上看到这么一句话,挺有意思的。

Doug Lea 是谁?为什么这么说?估计还真挺多人不认识他吧。


Doug Lea,中文名为道格·利。java.util.concurrent 并发包的作者。说他是这个世界上对 Java 影响力最大的一个人,一点也不为过。因为两次 Java 历史上的大变革,他都间接或直接的扮演了举足轻重的角色。2004 年所推出的 Tiger。Tiger 广纳了 15 项 JSRs 的语法及标准,其中一项便是 JSR-166。JSR-166 是来自于 Doug 编写的 util.concurrent 包,主要是关于 J.U.C 的技术规范。


上文摘抄自百度百科:

JSRs(Java Specification Requests),表示 Java 规范请求,由 JCP 成员向委员会提交的 Java 发展议案,经过一系列流程后,如果通过最终会体现在未来的 Java 中。


JCP 全称 Java Community Process ,翻译中文即是:Java 社区进程。JCP 成立于 1998 年,官网地址https://www.jcp.org,由社会各界 Java 组成的社区,主要规划和领导 Java 的发展。


二、CPU 缓存架构


国内另一位大神,dubbo 的创作者,曾经在他的 ppt 写过这样的一页

或许有人已经猜到这 ppt 作者是谁的,有兴趣可自行了解(需要完整 ppt 也可联系我!)。ppt 描述的背后原理就是伪共享问题。


说起伪共享,还得从 cpu 的缓存架构说起。

CPU 缓存可以分为一级缓存,二级缓存,三级缓存,每一级缓存中所储存的全部数据都是下一级缓存的一部分。当 CPU 要读取一个数据时,首先从一级缓存中查找,如果没有找到再从二级缓存中查找,如果还是没有就从三级缓存或内存中查找。一般来说,每级缓存的命中率大概都在 80%左右,也就是说全部数据量的 80%都可以在一级缓存中找到,只剩下 20%的总数据量才需要从二级缓存、三级缓存或内存中读取。


越靠近 CPU 的缓存越快也越小。所以 L1 缓存很小但很快,紧接着 L2 大一些,也会慢一些,L3 更慢,最后到主存,主存保存着程序运行的所有数据,由所有 CPU 核共享。


三、CPU 缓存行


CPU 缓存由缓存行组成,缓存行长度为 64 字节,可以这么认为,缓存行是缓存更新的基本单位。缓存每次更新都从主内存中加载连续的 64 个字节。试想,如果在内存中有两个紧邻的 long 型变量 a 和 b,当 a 加载到缓存时,b 也可以一起被加载到缓存,下一次如果访问 b 则可以直接从缓存读取,这对读取的效率提升是非常大的。

但是,正因为缓存都以缓存行为基本单位处理,如果 cpu core1 修改 a 变量,core1 上包含 a 变量的缓存行将失效,同时其他 core 上包含 a 变量的缓存行也将失效。此时,如果 core2 要访问和 a 在同一缓存行上的 b 变量,会被告知缓存行失效,这时只能到主内存重新加载 b 变量。


在《Java 并发编程的艺术》一书中,第二章第 11 页如是说:

Doug lea 在 jdk7 的并发包里面新增一个队列集合类 LinkedTransferQueue,它在使用 volatie 变量时,用一种追加字节的方式来优化队列出队和入队的性能。


四、伪共享


缓存以缓存行为基本单位,当线程修改互相独立的变量时,如果这些变量在同一缓存行中,那么就会互相变量缓存值得有效性,从而影响访问性能,这就是伪共享。


看一个单元测试源码:

package com.tin.example.falls.sharing;import org.springframework.util.StopWatch;/** * title: AutoIncrement * <p> * description: 多线程环境下,long变量自增 * * @author tin @看点代码再上班 on 2021/2/17 下午1:28 */public class AutoIncrement { public static void main(String[] args) throws InterruptedException { StopWatch stopWatch = new StopWatch("@看点代码再上班"); stopWatch.start(); System.out.println("====== start to iterate ======"); autoIncrement(new LongNumber()); stopWatch.stop(); System.out.println("cost " + stopWatch.getTotalTimeMillis() + "ms"); } private static void autoIncrement(LongNumber longNumber) throws InterruptedException { Thread t1 = new Thread(() -> { for (int i = 0; i < 100000000; i++) { longNumber.n1++; } }); Thread t2 = new Thread(() -> { for (int i = 0; i < 100000000; i++) { longNumber.n2++; } }); t1.start(); t2.start(); t1.join(); t2.join(); } static class LongNumber {//        @sun.misc.Contended volatile long n1; volatile long n2; }}
复制代码

当我启用两个线程,分别自增 1 亿次 n1 和 n2 时,耗时大约 3000+ms

当我在 n1 字段加上注解 @sun.misc.Contended,重新跑程序,耗时变为 800+ms

@sun.misc.Contended 注解在 Java 8 后新增,其用来进行缓存行填充。它可以用于类级别的修饰,同时也可以用于字段级别的修饰,当应用于字段级别时,被注释的字段将和其他字段隔离开来,会被加载在独立的缓存行上。


@sun.misc.Contended 注解和上文 ppt 中提及的追加字节效果是等同的(注解要生效需在启动参数上加-XX:-RestrictContended)。除了加注解,如果在 n1 和 n2 中间增加 16 个对象引用也同样起到作用(一个对象引用 4 个字节)。


我们要看一个对象所占的字节数大小怎么看?分享一个好东西,引用下面的包依赖:

 <dependency> <groupId>org.openjdk.jol</groupId> <artifactId>jol-core</artifactId> <version>0.9</version> </dependency>
复制代码

代码中显式打印对象即可:

ClassLayout.parseInstance(obj).toPrintable()
复制代码

可以看到打印出来的结果:


五、结语


我是 tin,一个在努力让自己变得更优秀的普通攻城狮。自己阅历有限、学识浅薄,如有发现文章不妥之处,非常欢迎加我提出,我一定细心推敲加以修改。


看到这里请安排个点赞再走吧,坚持原创不容易,你的正反馈是我坚持输出的最强大动力,谢谢啦!


别忘了关注我哦!⏬⏬⏬


发布于: 2021 年 02 月 20 日阅读数: 52
用户头像

我是tin,公众号:看点代码再上班。 2018.11.13 加入

我是tin,专职后端开发,在这里分享Java相关知识、我的工作经验和工作思考。坚持原创,持续原创,欢迎关注公众号【看点代码再上班】

评论

发布
暂无评论
著名的Java并发编程大师都这么说了,你还不知道伪共享么!