聊聊 JDK19 特性之虚拟线程 | 京东云技术团队
1.前言
在读《深入理解 JVM 虚拟机》这本书前两章的时候整理了 JDK 从 1.0 到最新版本发展史,其中记录了 JDK 这么多年来演进过程中的一些趣闻及引人注目的一些特性,在调研 JDK19 新增特性的时候了解到了虚拟线程这个概念,于是对虚拟线程进行学习整理内容如下。
2.虚拟线程介绍?
虚拟线程(Virtual Threads)就犹如名字一样,并非传统意义上的 JAVA 线程。传统意义上的 JAVA 线程(以下称为平台线程)跟操作系统的内核线程是一一映射的关系(如图 1 所示)。而对于平台线程的创建和销毁所带来的开销是非常大的,所以 JAVA 采用线程池的方式来维护平台线程而避免线程的反复创建和销毁。
然而平台线程也会占用内存、CPU 资源,往往在 CPU 和网络连接成为系统瓶颈前,平台线程首当其冲的会成为系统瓶颈。在单台服务器硬件资源确定的情况下,平台线程的数量同样也会因为硬件资源而受到限制,也成为单台服务器吞吐量提升的主要障碍。
图 1 平台线程和系统线程映射关系
谈回虚拟线程,虚拟线程则是由 JDK 而非操作系统提供的一种线程轻量级实现,它相较于平台线程而言具有以下特性:
不依赖于平台线程的数量;
不会增加额外的上下文切换开销;
不会在代码的整个生命周期中阻塞系统线程;
整个虚拟线程的维护是通过 JVM 进行管理,作为普通的 JAVA 对象存放在 RAM 中。
那么意味着若干的虚拟线程可以在同一个系统线程上运行应用程序的代码(如图 2 所示),只有在虚拟线程执行的时候才会消耗系统线程,在等待和休眠时不会阻塞系统线程。
图 2 虚拟线程和平台线程映射关系
相较于平台线程而言,虚拟线程是一种非常廉价和丰富的线程,可以说虚拟线程的数量是一种近乎于无限多的线程,它对硬件的利用率接近于最好,在相同硬件配置服务器的情况下,虚拟线程比使用平台线程具备更高的并发性,从而提升整个应用程序的吞吐量。如果说平台线程和系统线程调度为 1:1 的方式,虚拟线程则采用 M:N 的调度方式,其中大量的虚拟线程 M 在较少的系统线程 N 上运行。
3.虚拟线程如何被 JVM 调度呢?
图 3 JVM 调度虚拟线程流程图
先创建一个虚拟线程,此时 JVM 会将虚拟线程装载在平台线程上,平台线程则会去绑定一个系统线程。
JVM 会使用调度程序去使用调度线程执行虚拟线程中的任务。
任务执行完成之后清空上下文变量,将调度线程返还至调度程序等待处理下一个任务。
4.虚拟线程的目标、非目标?
目标:
为 java.lang.Thread 增加一种额外的实现,即虚拟线程,它能做到在几个 G 的 JVM 堆上创建几百万个活动的虚拟线程(这在现在的 JDK 中几乎不可能实现),并且表现出和现在的线程几乎一样的行为。
对虚拟线程问题定位也可以通过已经存在的 JDK 工具,尽可能保持和现在的线程相似的方式。
在 Java 中,经典线程是 java.lang.Thread 类的实例。后面我们也将它们称为平台线程。
非目标:
虚拟线程不是为了改变现在这种操作系统级别的线程的实现。
虚拟线程不是为了自动将已经存在的线程构造方法自动转为虚拟线程。
虚拟线程不是为了改变 JMM。
虚拟线程不是为了增加一种新的内部线程通信机制。
除了并行流之外,虚拟线程也不是为了提供一种新的数据并行结构。
5.如何创建虚拟线程?
使用 Thread.startVirtualThread()
此方法创建一个新的虚拟线程来执行给定的 Runnable 任务。
使用 Thread.Builder
如果我们想在创建线程后显式启动它,我们可以使用 Thread.ofVirtual() 返回一个 VirtualThreadBuilder 实例。它的 start() 方法启动一个虚拟线程。这里的 Thread.ofVirtual().start(runnable) 等价于 Thread.startVirtualThread(runnable)。
我们可以使用 Thread.Builder 引用来创建和启动多个线程。
类似的 APIThread.ofPlatform()也可用于创建平台线程。
使用 Executors.newVirtualThreadPerTaskExecutor()
此方法为每个任务创建一个新的虚拟线程。 Executor 创建的线程数是无限的。
6.平台线程和虚拟线程的区别?
图 4 虚拟线程生命周期
虚拟线程始终是守护线程。 Thread.setDaemon(false) 方法不能将虚拟线程更改为非守护线程。
请注意,当所有启动的非守护线程都终止时,JVM 终止。这意味着 JVM 在退出之前不会等待虚拟线程完成。
虚拟线程始终具有正常优先级,并且即使使用 setPriority(n)方法,也无法更改优先级。在虚拟线程上使用此方法无效。
虚拟线程不是线程组的活动成员。在虚拟线程上调用时,Thread.getThreadGroup()返回一个名为 VirtualThreads 的占位符线程组。
虚拟线程不支持 stop()、suspend()或 resume()方法。
这些方法在虚拟线程上调用时会引发 UnsupportedOperationException。
虚拟线程由 JVM 调度,JVM 将 VT 分配给平台线程的动作称为挂载(mount),取消分配的动作称为卸载(unmount),线程状态如下
7.实例场景分析平台线程和虚拟线程的性能:
任务说明:在控制台中打印一条消息之前等待 1 秒,现在使用 Runnable 创建 10000 个线程,用虚拟线程和平台线程执行它们,来比较两者的性能。我们将使用 Duration.between()api 来测量执行所有任务的经过时间。
首先,我们使用一个包含 100 个平台线程的池。这样,Executor 一次可以运行 100 个任务,其他任务需要等待。由于我们有 10,000 个任务,因此完成执行的总时间约为 100 秒。
输出
接下来,我们将 Executors.newFixedThreadPool(100)替换为 Executors.newVirtualThreadPerTaskExecutor()。这将在虚拟线程而不是平台线程中执行所有任务。
输出
请注意虚拟线程的超快性能将执行时间从 100 秒减少到 1.5 秒,而 Runnable 代码没有任何变化。 其他实际场景:https://zhuanlan.zhihu.com/p/604507117?utm_id=0
8.使用虚拟线程需要注意什么?
不要建虚拟线程池
Java 线程池旨在避免创建新操作系统线程的开销,因为创建它们是一项昂贵的操作。但是创建虚拟线程并不昂贵,因此永远不需要将它们池化。建议每次需要时创建一个新的虚拟线程。 请注意,使用虚拟线程后,我们的应用程序可能能够处理数百万个线程,但其他系统或平台一次只能处理几个请求。例如,我们可以只有几个数据库连接或与其他服务器的网络连接。 在这些情况下,也不要使用线程池。相反,使用信号量来确保只有指定数量的线程正在访问该资源。
避免使用线程局部变量 (ThreadLocal)
虚拟线程支持线程局部行为的方式与平台线程相同,但由于虚拟线程可以创建数百万个,因此只有在仔细考虑后才能使用线程局部变量。 例如,如果我们在应用程序中扩展一百万个虚拟线程,那么将有一百万个 ThreadLocal 实例以及它们所引用的数据。如此大量的实例会给内存带来很大的负担,应该避免。
使用 ReentrantLock 而不是同步块
有两种特定场景,虚拟线程可以阻塞平台线程(称为 OS 线程的固定)。 1、当它在同步块或同步方法内执行代码时 2、当它执行本地方法或外部函数时 这种同步块不会使应用程序出错,但它会限制应用程序的可扩展性,类似于平台线程。 如果一个方法使用非常频繁并且它使用同步块,则考虑将其替换为 ReentrantLock 机制。
9.结论
长期以来,传统的 Java 线程一直很好用。随着微服务领域对可扩展性和高吞吐量的需求不断增长,虚拟线程将被证明是 Java 历史上的一个里程碑特性。使用虚拟线程,一个程序可以用少量的物理内存和计算资源处理数百万个线程,这是传统平台线程无法做到的。当与结构化并发相结合时,它还将导致编写更好的程序。
作者:京东科技 宋慧超
来源:京东云开发者社区 转载请注明来源
版权声明: 本文为 InfoQ 作者【京东科技开发者】的原创文章。
原文链接:【http://xie.infoq.cn/article/02e5a22c5a4e6632c81248794】。文章转载请联系作者。
评论