分布式架构理论知识之CAP理论

系列文章目录

提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加
分布式架构理论知识之CAP理论

提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档

文章目录

系列文章目录
前言
一、CAP理论的由来？
- 分布式环境下面临的问题
- 由来
二、什么是CAP理论
三、一致性和可用性的矛盾
四、一致性和可用性如何选择
总结

前言

提示：这里可以添加本文要记录的大概内容：

在当今的分布式系统领域，CAP 理论是一个广为人知且至关重要的概念。它帮助我们理解了在设计和构建分布式系统时需要做出的权衡。这个理论由 Eric Brewer 在 2000 年提出，它指出了分布式系统中的三个核心属性：一致性（Consistency）、可用性（Availability）和分区容错性（Partition Tolerance）。一致性确保了所有节点在同一时间看到相同的数据状态，可用性保证了系统在任何时候都能正常工作并返回正确的结果，而分区容错性则是指系统能够在网络分区或节点故障的情况下继续运行。根据 CAP 理论，你只能同时满足这三个属性中的两个。
在这篇博客中，我们将深入探讨 CAP 理论的内涵，以及它在实际的分布式系统设计中所扮演的角色。我们将分析不同的 CAP 组合，以及它们各自的优缺点和适用场景。同时，我们也将探讨如何在实际情况下做出明智的权衡决策。

提示：以下是本篇文章正文内容，下面案例可供参考

一、CAP理论的由来？

分布式环境下面临的问题

数据一致性：在分布式系统中，数据可能分布在多个节点上。如何确保各个节点上的数据保持一致性是一个重要的问题。常见的一致性模型包括强一致性、弱一致性和最终一致性等。
容错性：分布式系统中的节点可能会出现故障或网络中断。为了保证系统的可靠性，需要采取容错机制来处理节点故障，例如副本机制、数据备份和恢复等。
网络延迟和分区：在分布式系统中，节点之间通过网络进行通信，因此网络延迟可能会影响系统的性能。此外，网络分区可能导致某些节点无法与其他节点通信，这可能会影响系统的可用性。
并发控制：在分布式系统中，多个节点可能同时对同一数据进行操作。为了确保数据的完整性和一致性，需要采取并发控制机制，例如锁机制、事务管理等。

由来

CAP 理论是在“数据一致性 VS 可用性”的争论中产生的。CAP 的作者 Eric Brewer 在90年代的时候就开始研究基于集群的跨区域系统（实质上是早期的云计算），对于这类系统而言，系统可用性是首要目标，因此他们采用了缓存或者事后更新的方式来优化系统的可用性。尽管这些方法提升了系统的可用性，但是牺牲了系统数据一致性。
因此，Brewer 在90年代提出了 BASE 理论（基本可用、软状态、最终一致性），这在当时还不怎么被接受。因为大家还是比较看重 ACID 的优点，不愿意放弃强一致性。因此，Brewer 提出了 CAP 理论，目的就是为了开阔分布式系统的设计空间，通过“三选二”的公式，解放思想，不要只抓着一致性不放。

二、什么是CAP理论

Consistency（一致性），Availability （可用性），Partition tolerance （分区容错性），它们的第一个字母分别是 C、A、P。这三个指标不可能同时做到。这个结论就叫做 CAP 定理。

分区容错性（Partition Tolerance）：大多数分布式系统都分布在多个子网络。每个子网络就叫做一个区。分区容错的意思是，区间通信可能失败。比如，一台服务器放在中国，另一台服务器放在美国，这就是两个区，它们之间可能无法通信。分区容错无法避免，因此可以认为 CAP 的 P 总是成立。CAP 定理告诉我们，剩下的 C 和 A 无法同时做到。
一致性（Consistency）：所有的节点都能看到相同的数据状态，也就是说，当一个更新操作完成后，所有的节点都能立即看到这个更新。举例来说，某条记录是 v0，用户向 G1 发起一个写操作，将其改为 v1。接下来，用户的读操作就会得到 v1。这就叫一致性。问题是，用户有可能向 G2 发起读操作，由于 G2 的值没有发生变化，因此返回的是 v0。G1 和 G2 读操作的结果不一致，这就不满足一致性了。为了让 G2 也能变为 v1，就要在 G1 写操作的时候，让 G1 向 G2 发送一条消息，要求 G2 也改成 v1。这样的话，用户向 G2 发起读操作，也能得到 v1。
可用性（Availability）：系统在任何时候都能正常工作并返回正确的结果，即使在某些节点出现故障或网络中断的情况下。也就是说，只要收到用户的请求，服务器就必须给出回应。用户可以选择向 G1 或 G2 发起读操作。不管是哪台服务器，只要收到请求，就必须告诉用户，到底是 v0 还是 v1，否则就不满足可用性。

三、一致性和可用性的矛盾

在分布式系统中，一致性和可用性之间存在着矛盾。这是因为在某些情况下，为了保证一致性，系统可能需要暂停服务以等待所有节点达成一致，从而降低了可用性。例如，考虑一个分布式数据库系统，其中有两个节点 A 和 B。如果一个用户向节点 A 发送了一个更新操作，而节点 B 还没有收到这个更新，那么在节点 B 上查询数据时，就可能会得到旧的数据，这就违反了一致性。