CAP理论 (分布式系统下的) 通俗理解

小半 • 2023年2月6日下午5:22 • 技术随笔 • 阅读 270

CAP 理论是针对分布式数据库而言的，它是指在一个分布式系统中，一致性（Consistency, C）、可用性（Availability, A）、分区容错性（Partition Tolerance, P）三者不可兼得。

一致性（C）

一致性是指“all nodes see the same data at the same time”，即更新操作成功后，所有节点在同一时间的数据完全一致。

一致性可以分为客户端和服务端两个不同的视角：

一致性是在并发读写时才会出现的问题，因此在理解一致性的问题时，一定要注意结合考虑并发读写的场景。

可用性（A）

可用性是指“reads and writes always succeed”，即用户访问数据时，系统是否能在正常响应时间返回结果。

好的可用性主要是指系统能够很好地为用户服务，不出现用户操作失败或者访问超时等用户体验不好的情况。在通常情况下，可用性与分布式数据冗余、负载均衡等有着很大的关联。

分区容忍性(Partition Tolerance，简称P)只有两个可选参数：不容忍和容忍。

C、A、P三者最多得二，因为是分布式系统，所以P必须满足，所以CA不可能同时满足。

比如两台机器A，B存放着一样的数据，满足P（分区容忍）。

如果要满足一致性，假如多个请求同时访问一个数据，其中一个请求修改了A中的数据data，此时有请求访问机器B，那么必然要通过信息传输将A机器中的data同步到机器B，这样就不是完全的可用性（访问B的时延为0）。

如果满足时延为0（可用性），那么返回的data一定不是最新的data。

所以一般会根据不同的场景做折中。比如要求你在一定时延内返回正确的数据。

CAP 理论认为分布式系统只能兼顾其中的两个特性，即出现 CA、CP、AP 三种情况，如图所示。

CA without P

如果不要求 Partition Tolerance，即不允许分区，则强一致性和可用性是可以保证的。其实分区是始终存在的问题，因此 CA 的分布式系统更多的是允许分区后各子系统依然保持 CA。

CP without A

如果不要求可用性，相当于每个请求都需要在各服务器之间强一致，而分区容错性会导致同步时间无限延长，如此 CP 也是可以保证的。很多传统的数据库分布式事务都属于这种模式。

AP without C

如果要可用性高并允许分区，则需放弃一致性。一旦分区发生，节点之间可能会失去联系，为了实现高可用，每个节点只能用本地数据提供服务，而这样会导致全局数据的不一致性。

参考博文

文章由极客之音整理，本文链接：https://www.bmabk.com/index.php/post/92844.html