【项目场景】请求数据时测试环境比生产环境多花了 1 秒是怎么回事?
威哥,第一次给你发消息就是求教一个问题呢,近期我在优化系统查询的时候,在测试环境优化达标,但是发布到生产后,发现从客户端发起请求到接收响应,多花了 1 秒(测试环境的库数据量和生产一致)。测试环境的库在内网,服务器的库是阿里云的 RDS 杭州节点。我们的服务器机房在成都,使用系统群体也绝大部分在成都区域。 经过在服务器上的抓包,一个 mysql 的 request 和 response,相差了 500 毫秒,一个列表查询来回就是 1 秒左右。 脚本在 RDS 上运行也只是需要 100ms 以下。故怀疑这中间的几百毫秒都浪费在了网络传输的开销上,我通过普罗米修斯看到,我们机房的带宽也并没有拉大。 我的建议是把数据库迁移到内网来或者成都区域的 RDS 上。请教威哥,还有更好的办法吗?在不迁移数据库的情况下(数据库较大)。感谢威哥花宝贵的时间查看这条消息,威哥空了帮忙看看呢。
这是一位粉丝(谢同学)给 V 哥的留言,感谢长时间对 V 哥的关注,给你几点优化建议去试试,看能否解决:
在不迁移数据库的情况下,你可以考虑以下几种优化策略:
1. 数据库连接优化
连接池设置:确保你使用了合适的数据库连接池(如 HikariCP 或 DBCP),并调整其配置(例如连接池大小、连接超时、最大空闲连接等)。如果连接池配置不当,可能导致频繁的连接建立和释放,进而增加延迟。
持久连接:对于频繁访问数据库的服务,可以尝试增加数据库连接的持久性,减少每次请求时的建立连接的时间。
数据库连接优化对于提高系统的性能和减少延迟至关重要。针对所提到的场景(测试和生产环境的延迟差异,数据库在阿里云 RDS 杭州节点,服务器在成都),V 哥想从几个方面给出详细的优化策略和具体操作步骤,在不迁移数据库的情况下实现更好的连接优化。
1. 数据库连接池优化
使用数据库连接池可以有效减少连接的创建和销毁开销,特别是在高并发的情况下,数据库连接池能够复用连接,减少每次请求时的连接建立时间。常用的数据库连接池有 HikariCP、DBCP 和 C3P0,其中 HikariCP 是性能最优的连接池之一。
步骤:
选择合适的连接池
推荐使用 HikariCP,因为它性能高效且配置简单。
如果你使用的是 Spring 框架,可以通过 Spring Boot 内置的 HikariCP 连接池来简化配置。
配置数据库连接池这里以 Spring Boot 和 HikariCP 为例,具体配置步骤如下:
在
application.properties
或application.yml
配置文件中配置 HikariCP
注释说明:
maximum-pool-size
: 控制连接池的最大连接数。minimum-idle
: 控制连接池中最小的空闲连接数。connection-timeout
: 连接池中获取连接时的最大等待时间。validation-timeout
: 连接验证超时的时间。
动态调整连接池参数
根据实际负载动态调整连接池的参数,避免连接池过大或过小导致性能瓶颈或资源浪费。
使用监控工具(如 Prometheus 或 阿里云 CloudMonitor)来实时监控数据库连接池的状态,并根据实时情况调整连接池的参数。
优化连接池的创建和销毁过程
避免频繁创建和销毁数据库连接,连接池应尽量保持一定的活跃连接数。频繁的连接和销毁会增加数据库的压力。
设置合理的连接池大小,既能满足高并发需求,又不会浪费资源。
2. 数据库连接配置优化
确保数据库连接的配置是最佳的,以减少连接时的延迟和错误。
步骤:
连接使用内网而非公网
如果你的应用服务器和数据库都在阿里云上,应该尽可能使用阿里云内网连接,而非公网连接。
内网连接的延迟远低于公网连接,且更加稳定。
配置连接 URL 使用内网 IP 地址:
这样,应用和数据库之间的连接不需要通过公网,减少了网络传输的延迟。
数据库连接池的连接验证
在高负载下,数据库可能会在连接空闲一段时间后关闭,因此需要启用连接验证,以确保每次获取连接时,连接是可用的。
在 HikariCP 中可以通过配置
connection-test-query
来定期验证连接:
启用连接重试机制
在出现连接丢失或网络不稳定时,可以启用连接重试机制,确保在一定时间内自动重试连接。
使用长连接(如果有需要)
如果你的应用场景是需要频繁访问数据库的应用,可以考虑使用数据库连接的长连接,减少每次请求时的连接建立和销毁开销。
3. 数据库查询优化
虽然你提到测试环境和生产环境的数据量一致,但仍然需要确保数据库查询本身的效率。优化数据库查询可以减少数据库访问时间,从而缩短整体响应时间。
步骤:
使用数据库索引
确保查询所涉及的字段已经加上了索引,特别是那些经常作为查询条件的字段。
使用
EXPLAIN
来查看查询的执行计划,确保没有使用全表扫描(Full Table Scan)。
避免 N+1 查询问题
如果你的查询涉及到多表连接或多次查询同一数据,应该尽量避免 N+1 查询问题。可以通过适当的 SQL 联接(JOIN)或批量查询来避免。
查询分页优化
对于分页查询,确保使用
LIMIT
和OFFSET
优化分页查询性能,避免查询过多数据。大数据量的分页查询建议使用基于 ID 或时间的范围查询(而非
OFFSET
)。使用查询缓存
如果某些查询非常频繁且结果不经常变化,可以使用 Redis 或 Memcached 来缓存查询结果,避免每次都访问数据库。
4. 数据库连接池与查询优化结合
在使用连接池的同时,保证每次获取连接后的查询是高效的,避免在每次查询时都建立新的连接或浪费时间在不必要的查询上。
定期分析数据库的慢查询日志,识别性能瓶颈并进行针对性的优化。
以上小结一下
选择并配置合适的数据库连接池(如 HikariCP)。
优化数据库连接的配置,确保使用内网连接,并启用连接验证。
优化数据库查询,确保查询执行计划高效,避免 N+1 查询,使用缓存减少频繁查询。
动态调整连接池参数,并监控数据库连接池的运行状态。
通过这些优化策略,你能够显著减少请求和响应之间的延迟,提高系统的响应速度和稳定性。
2. 网络优化
加速网络连接:你提到普罗米修斯监控了带宽使用情况,可以检查一下是否存在网络瓶颈。例如,是否存在网络跳数较多、延迟较高的路由问题,或者是阿里云和你们机房之间的链路本身不够稳定。
CDN 加速:虽然 CDN 通常用于静态资源加速,但一些服务也支持数据库请求的优化(如通过加速特定类型的 HTTP 请求等)。可以考虑使用阿里云的 Cloud Link(云链路加速)来优化跨地域的连接。
TCP 优化:在数据库和应用服务器之间的连接中,使用 TCP 协议时可以调整 TCP 窗口大小、重传策略等,来减少网络延迟。
网络优化策略的具体实现操作步骤
网络优化是提升应用性能、降低延迟的重要手段。针对你提到的跨地域访问延迟问题(测试环境和生产环境的数据库在不同的区域),网络优化策略可以帮助减少网络传输的瓶颈和延迟。
1. 优化网络架构和通信路径
跨地域访问时,网络架构和通信路径会影响延迟,因此需要确保通信路径尽可能简洁和快速。
步骤:
使用内网通信:
确保数据库和应用服务器之间使用 内网通信,而不是通过公网进行连接。尤其在阿里云环境中,内网通信的延迟要比公网通信低得多。
通过阿里云提供的 VPC(Virtual Private Cloud)可以在内网中创建虚拟网络,从而确保数据库和应用之间的通信完全通过内网而不经过公网。
操作步骤:
登录阿里云控制台,进入 VPC 管理控制台。
创建 VPC(虚拟专有网络),并为应用服务器和数据库服务器分配内网 IP。
配置 VPC 的路由规则,确保应用和数据库实例在同一内网中,避免跨地域访问。
使用数据库内网地址而非公网地址进行连接。
优化区域选择:
如果你的应用服务器和数据库分别位于阿里云不同的区域(例如应用服务器在成都,数据库在杭州),可能会有较高的网络延迟。为了减少这种跨区域的延迟,可以考虑将数据库和应用服务器部署在同一区域,或者使用阿里云的跨区域加速服务。
阿里云的跨区域加速(例如 CloudLink)可以优化区域间的网络通信,降低网络延迟。
操作步骤:
评估不同区域之间的延迟。你可以通过阿里云提供的 Ping 或 Traceroute 工具来测试网络延迟。
在选择数据库或应用服务器部署时,优先考虑将它们部署在同一数据中心或同一地区。
使用阿里云 CloudLink 或类似的跨区域加速服务。
网络路由优化:
网络延迟不仅仅与物理距离有关,还和路由路径有关。通过使用 专线(Direct Connect)和 VPC Peering,可以优化数据流的路由,避免经过不必要的中转节点,减少延迟。
操作步骤:
配置 Direct Connect:阿里云提供专线连接服务,可以通过专线优化你的数据传输路径,避免普通的互联网传输路径带来的延迟。
配置 VPC Peering:如果你的应用和数据库分别位于不同的 VPC,可以通过 VPC Peering 连接不同的 VPC,减少跨 VPC 的路由延迟。
2. 调整网络协议和 TCP 参数
网络传输性能不仅取决于物理连接,还取决于传输协议的效率。特别是使用 TCP/IP 协议时,适当的参数调优可以显著提升网络性能。
步骤:
优化 TCP/IP 配置:
TCP 窗口大小:在高带宽高延迟的网络环境下,TCP 窗口大小对网络传输效率影响较大。可以通过调整操作系统的 TCP 窗口大小来提高网络吞吐量。
TCP 重传与超时设置:降低 TCP 连接重传的超时时间,有助于减少网络不稳定时的传输延迟。
操作步骤:
修改操作系统的 TCP 参数:
Linux:编辑
/etc/sysctl.conf
文件,设置以下参数:(Windows 使用 netsh 命令来调整 TCP 缓冲区大小。)
启用 TCP 快速打开(TCP Fast Open):
TCP 快速打开允许在三次握手期间开始发送数据,减少了连接建立的时间。特别适合低延迟、高吞吐量的网络应用。
操作步骤:
在 Linux 系统中启用 TCP 快速打开:
使用 Keep-Alive 机制:
TCP Keep-Alive 可以保持连接的活跃,避免频繁的连接建立和销毁。在高延迟或跨地域的环境中,使用 Keep-Alive 可以减少连接建立的延迟。
操作步骤:
在应用程序中启用 TCP Keep-Alive 机制,确保在长时间没有数据传输时,连接依然保持活跃。
Java 中可以通过设置连接池来开启 TCP Keep-Alive:
3. 使用内容分发网络 (CDN) 优化
尽管 CDN 主要用于加速静态资源的加载,但一些高级 CDN 服务还可以对网络请求进行优化,特别是跨地域访问时。
步骤:
配置 CDN 加速跨地域请求:
使用 阿里云 CDN 或 Cloudflare CDN,可以加速跨地域请求的响应速度。即使是非静态资源,也可以通过 CDN 提供加速服务。
操作步骤:
在阿里云控制台创建并配置 CDN 加速服务,将需要加速的 HTTP 请求(例如 API 请求)通过 CDN 转发。
配置缓存策略,确保常用的数据能够被 CDN 缓存,避免每次都需要从源服务器获取。
优化 CDN 缓存规则:
对于动态请求,可以配置缓存较短时间,或者配置为缓存频繁请求的数据。例如,API 请求返回的数据可以设置缓存策略,以避免重复请求。
4. 增加带宽和网络监控
带宽不足会成为网络延迟的瓶颈,因此监控带宽使用情况并合理增加带宽,能够有效提升网络性能。
步骤:
监控带宽使用:
使用 阿里云的 CloudMonitor 或 Prometheus 监控带宽的使用情况。通过监控可以清晰看到网络流量的瓶颈。
增加带宽:
根据监控结果,如果带宽已经达到上限,可以考虑增加带宽。阿里云提供了灵活的带宽扩展选项,可以根据需求动态调整带宽。
以上小结一下
通过优化网络架构、调整网络协议、使用 CDN 加速以及增加带宽,可以有效地减少网络延迟,提升系统响应速度:
优化网络架构,使用内网连接和跨区域加速服务。
调整 TCP 参数,启用 TCP 快速打开和 Keep-Alive 机制。
配置 CDN 加速和缓存策略,优化跨地域请求。
监控带宽使用,确保带宽充足。
3. 数据库查询优化
查询性能分析:即使测试环境的数据库查询表现良好,但在生产环境中,由于数据量或查询频繁,查询的执行计划可能有所不同。你可以使用 MySQL 的
EXPLAIN
来查看查询的执行计划,并确保没有全表扫描等低效操作。根据执行计划,你可以增加索引,或优化 SQL 语句。查询缓存:确保你的查询有适当的缓存策略,使用 Redis 等缓存服务来存储频繁查询的数据,减少直接访问数据库的次数。你可以对常用的列表查询进行缓存,定时更新缓存,避免每次都需要从数据库读取。
4. 异步化处理
异步查询:如果是列表查询等非实时要求非常高的请求,可以考虑将请求改为异步处理,客户端可以在后台继续处理其他操作,查询结果可以在后台完成并通过消息队列推送给客户端。这样不会阻塞客户端的主线程,也能提高用户体验。
消息队列:如果你的查询是批量查询或者是依赖多个数据库查询的结果,可以通过消息队列(如 Kafka、RabbitMQ)异步处理,从而减少直接的同步等待时间。
5. 数据库内网通信
RDS 内网连接:尽量保证应用服务器与数据库之间使用阿里云内网通信而非公网通信。如果你的应用和数据库都在阿里云上,使用内网连接而不是公网连接会减少网络延迟,降低跨地域访问的延迟。
5. 数据库内网通信策略的具体实现操作步骤
在云环境中,尤其是使用阿里云 RDS 等云数据库服务时,尽量保证应用服务器与数据库之间使用内网通信,而非公网通信,可以显著减少网络延迟并提高通信效率。以下是关于如何配置和优化数据库内网通信的具体操作步骤。
1. 确保应用服务器和数据库在同一内网
首先要确保你的应用服务器和数据库都部署在同一个阿里云 VPC(虚拟私有云)内,这样才能确保内网通信而不是公网通信。
步骤:
检查应用服务器和数据库是否在同一 VPC 中:
登录到 阿里云控制台,选择 ECS 或 RDS 服务,查看应用服务器和数据库实例所在的 VPC。
确保它们处于相同的 VPC 或者已经建立了 VPC 之间的互通。
创建 VPC 并将资源部署到 VPC 中:
如果还没有 VPC,可以在 阿里云控制台 中创建一个新的 VPC,并确保将应用服务器和数据库都部署到该 VPC 中。
确认数据库实例是否启用了内网访问:
在 阿里云 RDS 控制台 中,确认数据库实例启用了内网访问。大多数 RDS 实例默认提供内网和公网的双重访问方式。
操作步骤:
打开 RDS 控制台 → 选择目标数据库实例 → 配置访问方式为 内网。
2. 使用 VPC 内网 IP 地址连接数据库
一旦确保应用服务器和数据库都在同一 VPC 内,可以使用内网 IP 地址来连接数据库,从而减少公网通信带来的延迟和带宽开销。
步骤:
获取数据库实例的内网 IP 地址:
登录到 阿里云 RDS 控制台,选择你的数据库实例。
找到 内网连接信息,记录下数据库的内网 IP 地址和端口号。
在应用服务器中配置数据库连接:
修改应用中的数据库连接配置,确保连接使用数据库的内网 IP 地址而非公网 IP 地址。例如:
确保应用服务器的网络可以访问 RDS 的内网 IP 地址。如果应用服务器和数据库实例在不同的子网内,确保它们之间的网络路由没有问题。
3. 使用专有网络(VPC)中的私有链接
为了增强安全性和减少跨区域访问的延迟,阿里云支持通过 专有网络(VPC)私有链接 将 RDS 实例暴露给同一个 VPC 中的其他服务,确保数据通信在专有网络内完成。
步骤:
创建专有网络链接:
登录到 阿里云控制台 → 选择 VPC → 选择 私有链接。
创建新的私有连接,将 RDS 实例作为服务提供者,其他 ECS 实例可以通过私有链接访问该 RDS 实例。
配置专有网络访问:
在应用服务器中,使用私有链接提供的 DNS 域名或者内网 IP 地址连接到 RDS 实例。
确保数据库实例的安全组规则允许内网访问,并且在连接字符串中使用私有 DNS 进行访问。
4. 配置安全组和网络 ACL
确保内网通信不受安全组或网络 ACL(访问控制列表)等网络安全配置的阻止。安全组配置允许控制内网通信的流量。
步骤:
检查并配置安全组:
登录到 阿里云控制台,选择 ECS 和 RDS 实例所在的安全组。
确保应用服务器和数据库实例的安全组规则允许彼此之间的网络通信。通常需要确保应用服务器的安全组允许向数据库实例的内网 IP 地址和端口发起连接请求。
示例:允许应用服务器向 RDS 数据库实例发送 MySQL 请求(默认端口 3306):
来源 IP:应用服务器的内网 IP 或安全组
目标端口:3306
协议:TCP
检查并配置网络 ACL:
如果使用了 VPC 网络 ACL,请确保它允许应用服务器和数据库实例之间的流量通过。网络 ACL 可以在 VPC 控制台中设置。
5. 确保数据库和应用的带宽和延迟优化
虽然数据库和应用在同一内网中,确保它们之间的带宽和延迟仍然至关重要。对带宽和网络延迟进行优化可以进一步提升数据库通信性能。
步骤:
选择适当的实例规格:
根据应用的负载要求,选择合适的数据库实例规格和网络带宽。在阿里云 RDS 控制台中,可以根据性能需求调整数据库的规格(如 I/O 性能和带宽):
如果数据库的读写压力较大,可以考虑使用高性能的 SSD 存储。
对于大规模的并发查询,选择较高规格的实例以提供更大的网络带宽。
优化 RDS 网络配置:
对于 RDS 实例,选择 Enhanced Networking(增强型网络) 或 专用网络带宽,以提高数据库的吞吐量和降低延迟。
操作步骤:
在 阿里云 RDS 控制台 中,选择 网络和安全,启用增强型网络并调整带宽配置。
6. 避免使用公网访问数据库
如果数据库和应用服务器之间的通信通过公网进行,可能会带来额外的延迟和带宽消耗。为了最大化内网通信的性能,确保所有的数据库连接都通过内网进行。
步骤:
确保数据库实例不暴露于公网:
在 阿里云 RDS 控制台 中,确保数据库实例没有开启公网 IP 或关闭公网访问功能。使用内网 IP 地址进行通信。
操作步骤:
打开 RDS 控制台 → 选择目标数据库实例 → 在 连接方式 中选择 仅内网访问。
检查应用服务器是否通过公网访问数据库:
确保应用服务器通过内网 IP 地址访问数据库,而不是使用公网 IP。如果发现应用服务器错误地使用了公网 IP 地址,可以更新配置文件,确保使用内网地址。
以上小结一下
通过确保应用服务器和数据库实例都部署在同一阿里云 VPC 内,并通过内网 IP 进行通信,可以显著减少网络延迟和带宽开销,提高跨地域访问的性能。具体操作步骤包括:
确保应用服务器和数据库实例在同一 VPC 内。
使用内网 IP 地址进行数据库连接,避免使用公网连接。
配置专有网络链接,增加网络通信的安全性和可靠性。
配置安全组和网络 ACL,确保内网通信不被阻塞。
优化带宽和延迟,选择适当的实例规格并使用增强型网络。
避免通过公网访问数据库,确保数据传输路径最优化。
通过这些策略的实施,可以有效降低网络延迟,提升数据库查询性能,并减少因跨地域网络通信带来的性能瓶颈。
6. 高并发读写分离
读写分离:如果你系统的读操作较多,可以考虑将数据库进行主从分离,将读请求指向只读的从库,减轻主库的压力,从而提升读请求的响应速度。
负载均衡:如果有多个数据库实例,可以通过负载均衡分发请求,减少单一数据库的负载和延迟。
高并发读写分离策略可以显著提高数据库的性能和可扩展性,特别是在高并发场景下。以下是实现该策略的关键步骤:
设计主从架构:将数据库分为主库(写)和从库(读),并配置负载均衡。
数据同步与一致性:配置主从数据库的数据同步,保证数据一致性。
缓存与优化:利用分布式缓存和查询优化,减少数据库的访问压力。
负载均衡与流量控制:合理分配读请求到多个从库,确保数据库负载均衡。
7. 监控与调优
深入监控:除了普罗米修斯外,可以借助阿里云的 CloudMonitor 等监控工具,结合数据库的性能指标(如 QPS、响应时间、连接数等)进行持续优化。
慢查询日志:查看阿里云 RDS 的慢查询日志,找出执行时间较长的查询,优化这些查询的 SQL 执行计划。
总结
优化数据库连接和查询效率,确保网络传输过程中没有瓶颈。这个需要持续监控和调试,直到满足项目要求为止。
使用缓存机制减少数据库访问。这条相信这位兄弟已经做了,可以再分析一下哪些数据在缓存。
改进异步处理和负载均衡,避免对数据库的单点压力。
考虑使用内网连接和跨区域加速服务来降低跨地域的网络延迟。
在多方位诊断优化后不知道能否解决谢同学的问题,小伙伴们,你们觉得还有更好的解决方案吗,可以说说你的见解,让谢同学试试,关注威哥爱编程,一起解决 BUG。
版权声明: 本文为 InfoQ 作者【威哥爱编程】的原创文章。
原文链接:【http://xie.infoq.cn/article/e07d820658965be6907335af9】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论