PB级数据持久化缓存系统——lest

本文根据徐海峰2018年5月12日在【第九届中国数据库技术大会】上的演讲内容整理而成。

创新互联建站10多年成都定制网页设计服务;为您提供网站建设,网站制作,网页设计及高端网站定制服务,成都定制网页设计及推广,对成都纱窗等多个方面拥有多年的网站营销经验的网站建设公司。

讲师介绍：

PB级数据持久化缓存系统——lest

徐海峰，花名：大嘴。10年互联网经验。现任阅文集团首席架构师、技术专家。主要负责阅文集团内容中心分布式系统的架构与实现、海量数据的分布式存储与分布式计算。兼负责公司的专利、技术等开源布道。曾任ctrip国际机票计价引擎架构师、5173分布式存储与计算架构师等工作。多年来一直专心致力于网站的分布式架构、海量数据存储与计算等中间件的研究与实现，并形成有成型的技术认知与理论体系。对大型网站的架构与分布式系统有丰富的实战经验。

内容摘要：

通常的缓存系统(典型如memcahed)普遍都将数据内存化，而不支持持久化。纵使后来的redis解决了数据无法持久化的“硬伤”，但通常缓存系统的持久化功能是否启用也一直是一个让人很纠结的问题。之所以纠结主要是几个原因：1. 缓存系统启用持久化后性能明显下降;2. 数据开启了持久化，但机器down机恢复后依然无法使用或者数据无法自动更新到最新版本;3. 主存依然是内存，所以数据大小需受制于内存，依然无法存储比内存大的数据，故持久化仅仅是备份;4. 设计的时候没考虑持久化，启用持久化后使用非常别扭;而我们的lest从设计开始就解决了这些问题，并且还带来了更多很有意思、也很有实用价值的技术，比如私有的通讯与存储协议、全程无锁的多线程模型等等。

正文演讲：

今天主要是想和大家分享我们现在用的持久化缓存—lest，说是缓存，但因为是持久化，所以我个人认为称作存储系统可能更好一些，它确实是KV结构，并且包含了String、List、Map等等。目前已上线使用，支持1PB到2PB的数据。

讲到缓存，在大家的印象中缓存像什么?其实缓存和神药有很多的相同之处，首先它们都是为了解决“行不行”的问题，使用之后99%作用明显，1%无作用，而且是立马见效，通常会在几分钟或者几小时失效，而且都是走的“治标治本”的路子，多级缓存，从客户端到数据库。

除此之外，二者的出发点都是为了稳定、快速和持久，通常用户都是不管三七二十一，先用了再说，且还会产生心理依赖，领导对于其效果也会比较满意，自己也感觉从苦逼码农晋升到了金光闪闪的框架师。

PB级数据持久化缓存系统——lest

虽然现实生活中我们很难拒绝使用缓存，但是缓存用多了也会出现很多问题，尤其是当数据量大和机器多了以后，各种问题就会接踵而至。例如现在的缓存基本都是内存式的，一断电数据就没有了，恢复起来也是相当困难。

做了主备之后，你会发现备机其实没有什么用，主机宕了，切到备机上，很多数据都是不同步的，想要同步还需要时间。前两天，我们还讨论，主备好像没什么用，还是多主比较好用。

最关键的问题就是很难管理。缓存用了之后就扔不了，只敢加量，不敢减量。缓存服务器越来越多，可能从一台变成了两台、四台、八台……不仅管理成本越来越高，写代码也变得很复杂，因为很多缓存系统都会为了速度快而设在客户端，所以，每增加一个机器，所有的客户端都要配置，可能有的做得好的团队会有配置系统自动完成，但要是做的不好的团队，就需要重新发布一下程序，如果要是个新手，很可能还会给你写成个死的。

PB级数据持久化缓存系统——lest

所以，归根结底还是要强身健体的，为了杜绝这些情况，我们实现了Lest。

首先就是缓存同步，可以做到扩容时无感知;第二，主机宕机了也能很容易的起来，备机可能需要稍微顶一下，但主机必须很快起来，因为我们的访问基本上一天七、八亿次，如果主机宕掉打到数据库上，缓存穿透的话，那就基本上完了。所以我们采用了上述四个策略来解决了这个问题。

我们的缓存内容是String、List和Map。这其中List和Map的存储比较难做，因为其包含有结构的数据。例如，如果要在List中查询从第二个到第十个的数据，Redis很容易就做到了，但如果是全内存，存储在磁盘上就比较困难。

所以，我们自己做了一些设计来实现，上图中就是我们的总体架构图。右上是Tracker，类似于很多大厂都在做的缓存代理层，接下来是存储机器，操作机器会分段，如256段、128段等等，数据会分配到不同的段上去。通讯和存储的实现，我们用了自己设计的协议。

PB级数据持久化缓存系统——lest

负载均衡，其实是老生常谈了，缓存的一个最大特点就是key要自定义。业务自定义因为要存储到磁盘上，因此很难做类似元数据管理的工作。我们选择的方式是Hash，不过使用Hash比较麻烦的地方是，如果机器增加的话，Hash值也会发生变化。所以，我们在增加机器的时候会有一个小窍门，以2*数字的方式去增加，比如一台变两台，两条边四台，四台变八台。这种方式同步量是最少的，50%，假设你是一台变三台，那么动的数据就是66.7%。如果大家是使用Hash，我建议大家用2*数字的扩容方式会比较好。

数据存储下来之后，我们就需要同步，我们有组的标签，同组之内可以数据同步，相互备份，它是没有Slave的，全部都是主。这里会牵扯到版本问题，我们后面会讲到。

PB级数据持久化缓存系统——lest

负载均衡的算法就是二次Hash到加权二次Hash的演变，刚开始的时候，我们使用两次Hash去做，第一次Hash得到段，第二次Hash得到是哪台机器，但其实ID生成器生成的ID因为业务的关系并不均衡，这导致缓存的存储量大小很偏，可能出现一台机器中有20%，另一台则有80%。

这种情况也很好处理，加权就可以了，相当于一致性Hash，每台机器都有一个类似7%这样的素数百分数加权。为什么选择素数呢?这是因为对素数Hash会比较均匀。

PB级数据持久化缓存系统——lest

我们在磁盘上做了一个256×256的文件夹，在磁盘层面就把一些文件打乱。我们知道磁盘对小文件其实是比较可怕的，因为使用SSD，我们现在的成本还是比较高，之后我们会考虑使用磁盘，会加类似B树这样子的东西。

目前，因为考虑到有很多小文件，选用了SSD，从而避免掉了磁盘会遇到的一些问题。如果是1亿KB的数据，经过Hash放到一个文件夹中大概也只有几百KB，不会超过3000KB，这个压力还是可以接受的。

PB级数据持久化缓存系统——lest

上图是数据存储的模型，最前面是Head，头部加了很多元数据。比如整个是一个string，那么黄色的部分是客户端存下来的真正内容，len表示长度，Version表示版本，我们整套都是用C来写的，因此性能大概会提升十倍以上。并且我们还做了一个保证单调递增的ID生成器，它的算法其实就是一个时间向量算法的衍生，解决了版本控制的问题，换句话说就是哪个数字最大，肯定就是最后的版本。Reserved代表类型，这里存的可能是string、list或者是map。同时为了未来的扩展，我们还会有一个预留出来的地方。

其实List和Map与String差不多，大家看图即可，就不再一一介绍了。

PB级数据持久化缓存系统——lest