走近分布式缓存 Memcached
一、前言
分布式缓存出于如下考虑:首先是缓存本身的水平线性扩展问题,其次是缓存大并发下本身的性能问题,再次避免缓存的单点故障问题(多副本和副本一致性)。
分布式缓存的核心技术首先是内存本身的管理问题,包括内存的分配,管理和回收机制。其次是分布式管理和分布式算法,然后是缓存键值管理和路由。
Memcached
是一个高性能的分布式内存对象缓存系统,用于动态 Web 应用以减轻数据库负载。它通过在内存中缓存数据和对象来减少读取数据库的次数,从而提高动态、数据库驱动网站的速度。Memcached
基于一个存储键/值对的hashmap
。其守护进程(daemon
)是用 C 写的,但是客户端可以用任何语言来编写,并通过memcached
协议与守护进程通信。但是它并不提供冗余(例如,复制其hashmap
条目);当某个服务器 S 停止运行或崩溃了,所有存放在 S 上的键/值对都将丢失。
二、什么是 Memcached
许多 Web 应用程序都将数据保存到RDBMS
中,应用服务器从中读取数据并在浏览器中显示。但随着数据量的增大,访问的集中,就会出现REBMS
的负担加重,数据库响应恶化,网站显示延迟等重大影响。
Memcached
是高性能的分布式内存缓存服务器。一般的使用目的是通过缓存数据库查询结果,减少数据库的访问次数,以提高动态 Web 应用的速度、提高扩展性。如下图:
三、Memcached 作为高速运行的分布式缓存服务器特点
协议简单:memcached
的服务器客户端通信并不使用复杂的 XML 等格式,而是使用简单的基于文本的协议。
基于libevent
的事件处理:libevent
是个程序库,将Linux
的 epoll、BSD 类操作系统的kqueue
等时间处理功能封装成统一的接口。memcached
使用这个libevent
库,因此能在Linux、BSD、Solaris
等操作系统上发挥其高性能。
内置内存存储方式:为了提高性能,memcached
中保存的数据都存储在memcached
内置的内存存储空间中。由于数据仅存在于内存中,因此重启memcached
,重启操作系统会导致全部数据消失。另外,内容容量达到指定的值之后memcached
回自动删除不适用的缓存。
Memcached
不互通信的分布式:memcached
尽管是“分布式”缓存服务器,但服务器端并没有分布式功能。各个memcached
不会互相通信以共享信息。他的分布式主要是通过客户端实现的。
四、Memcached 内存管理
最新的memcached
默认情况下采用了名为Slab Allocatoion
的机制分配管理内存。在该机制出现以前,内存的分配是通过对所有记录简单地进行malloc
和free
来进行的。但是这种方式会导致内存碎片,加重操作系统内存管理器的负担。
Slab Allocator
的基本原理是按照预先规定的大小,将分配的内存分割成特定长度的块,已完全解决内存碎片问题。Slab Allocation
的原理相当简单。将分配的内存分割成各种尺寸的块(chucnk
),并把尺寸相同的块分成组(chucnk
的集合)如下图:
而且slab allocator
还有重复使用已分配内存的目的。也就是说,分配到的内存不会释放,而是重复利用。
五、Slab Allocation 主要术语
Page
:分配给Slab
的内存空间,默认是1MB
。分配给Slab
之后根据slab
的大小切分成chunk
.Chunk
: 用于缓存记录的内存空间。Slab Class
:特定大小的chunk
的组。
六、在 Slab 中缓存记录原理
Memcached
根据收到的数据的大小,选择最合适数据大小的Slab
(图 2) memcached
中保存着slab
内空闲chunk
列表,根据该列表选择chunk
,然后将数据缓存于其中。
七、Memcached 在数据删除方面有效利用资源
Memcached
删除数据时数据不会真正从memcached
中消失。Memcached
不会释放已分配的内存。记录超时后,客户端就无法再看见该记录(invisible
透明),其存储空间即可重复使用。
Lazy Expriationmemcached
内部不会监视记录是否过期,而是在get
时查看记录的时间戳,检查记录是否过期。这种技术称为lazy expiration
。因此memcached
不会在过期监视上耗费CPU
时间。
对于缓存存储容量满的情况下的删除需要考虑多种机制,一方面是按队列机制,一方面应该对应缓存对象本身的优先级,根据缓存对象的优先级进行对象的删除。
八、LRU:从缓存中有效删除数据的原理
Memcached
会优先使用已超时的记录空间,但即使如此,也会发生追加新纪录时空间不足的情况。此时就要使用名为Least Recently Used
(LRU
)机制来分配空间。这就是删除最少使用的记录的机制。因此当memcached
的内存空间不足时(无法从slab class
)获取到新空间时,就从最近未使用的记录中搜索,并将空间分配给新的记录。
九、Memcached 分布式
Memcached
虽然称为“分布式“缓存服务器,但服务器端并没有“分布式”的功能。Memcached
的分布式完全是有客户端实现的。现在我们就看一下memcached
是怎么实现分布式缓存的。
例如下面假设memcached
服务器有 node1~node3 三台,应用程序要保存键名为“tokyo”“kanagawa”“chiba”“saitama”“gunma” 的数据。
首先向memcached
中添加“tokyo”。将“tokyo”传给客户端程序库后,客户端实现的算法就会根据“键”来决定保存数据的memcached
服务器。服务器选定后,即命令它保存“tokyo”及其值。
同样,“kanagawa”“chiba”“saitama”“gunma”都是先选择服务器再保存。
接下来获取保存的数据。获取时也要将要获取的键“tokyo”传递给函数库。函数库通过与数据保存时相同的算法,根据“键”选择服务器。使用的算法相同,就能选中与保存时相同的服务器,然后发送 get 命令。只要数据没有因为某些原因被删除,就能获得保存的值。
这样,将不同的键保存到不同的服务器上,就实现了memcached
的分布式。 memcached
服务器增多后,键就会分散,即使一台memcached
服务器发生故障无法连接,也不会影响其他的缓存,系统依然能继续运行。
十、Redis
这两年 Redis
火得可以,Redis
也常常被当作Memcached
的挑战者被提到桌面上来。关于Redis
与Memcached
的比较更是比比皆是。然而,Redis
真的在功能、性能以及内存使用效率上都超越了Memcached
吗?
没有必要过于关注性能,因为二者的性能都已经足够高了。由于Redis
只使用单核,而Memcached
可以使用多核,所以二者比较起来,平均每一个核上,Redis
在存储小数据时比Memcached
性能更高。而在100k
以上的数据中,Memcached
性能要高于Redis
。虽然Redis
最近也在存储大数据的性能上进行优化,但是比起Memcached
,还是稍有逊色。说了这么多,结论是,无论你使用哪一个,每秒处理请求的次数都不会成为瓶颈。
在内存使用效率上,如果使用简单的key-value
存储,Memcached
的内存利用率更高。而如果Redis
采用hash
结构来做key-value
存储,由于其组合式的压缩,其内存利用率会高于Memcached
。当然,这和你的应用场景和数据特性有关。
如果你对数据持久化和数据同步有所要求,那么推荐你选择Redis
。因为这两个特性Memcached
都不具备。即使你只是希望在升级或者重启系统后缓存数据不会丢失,选择Redis
也是明智的。
当然,最后还得说到你的具体应用需求。Redis
相比Memcached
来说,拥有更多的数据结构,并支持更丰富的数据操作。通常在Memcached
里,你需要将数据拿到客户端来进行类似的修改再 set 回去。这大大增加了网络 IO 的次数和数据体积。在Redis
中,这些复杂的操作通常和一般的GET/SET
一样高效。所以,如果你需要缓存能够支持更复杂的结构和操作,那么 Redis 会是不错的选择。
十一、参考网址
版权声明: 本文为 InfoQ 作者【No Silver Bullet】的原创文章。
原文链接:【http://xie.infoq.cn/article/c599c89471ff80bf7eaf3492c】。文章转载请联系作者。
评论