概述

什么是TCC事务

TCC是Try、Confirm、Cancel三个词语的缩写，TCC要求每个分支事务实现三个操作：预处理Try、确认Confirm、撤销Cancel。Try操作做业务检查及资源预留，Confirm做业务确认操作，Cancel实现一个与Try相反的操作即回滚操作。TM首先发起所有的分支事务的try操作，任何一个分支事务的try操作执行失败，TM将会发起所有分支事务的Cancel操作，若try操作全部成功，TM将会发起所有分支事务的Confirm操作，其中Confirm/Cancel操作若执行失败，TM会进行重试。

TCC分为三个阶段：

Try阶段是做业务检查（一致性）及资源预留（隔离），此阶段仅是一个初步操作，它和后续的Confirm一起才能真正构成一个完整的业务逻辑。
Confirm阶段是做确认提交，Try阶段所有分支事务执行成功后开始执行Confirm。通常情况下，采用TCC则认为Confirm阶段是不会出错的。即：只有Try成功，Confirm一定成功。若Confirm阶段真的出错了，需引入重试机制或人工处理。
Cancel阶段是在业务执行错误需要回滚的状态下执行分支事务的业务取消，预留资源释放。通常情况下，采用TCC则认为Cancel阶段也是一定成功的。若Cancel阶段真的出错了，需引入重试机制或人工处理。
TM事务管理
TM事务管理器可以实现为独立的服务，也可以让全局事务发起方充当TM的角色，TM独立出来是为了成为公用组件，是为了考虑系统结构和软件复用。
TM在发起全局事务时生成全局事务记录，全局事务ID贯穿整个分布式事务调用链条，用来记录事务上下文，追踪和记录状态，由于Confirm和Cancel失败需进行重试，因此需要实现为幂等，幂等性是指同一个操作无论请求多少次，其结果都相同。

TCC解决方案

目前市面上的TCC框架众多比如下面这几种：
（以下数据采集日为2019年07月11日）
tcc-transaction：https://github.com/changmingxie/tcc-transaction
Hmily：https://github.com/dromara/hmily
ByteTCC：https://github.com/liuyangming/ByteTC
EasyTransaction：https://github.com/QNJR-GROUP/EasyTransaction
上一节所讲的Seata也支持TCC，但Seata的TCC模式配置相对复杂。我们的目标是理解TCC的原理以及事务协调运作的过程，因此更倾向于轻量级易于理解的框架，因此最终确定了Hmily。
Hmily是一个高性能分布式事务TCC开源框架。基于Java语言来开发（JDK1.8），支持Dubbo，Spring Cloud等RPC框架进行分布式事务。它目前支持以下特性：

支持嵌套事务（Nested transaction support）。
采用disruptor框架进行事务日志的异步读写，与RPC框架的性能毫无差别。
支持SpringBoot-starter项目启动，使用简单。
RPC框架支持：dubbo，motan，springCloud。
本地事务存储支持：redis，mongodb，zookeeper，file，mysql。
事务日志序列化支持：java，hessian，kryo，protostuff。
采用Aspect AOP切面思想与Spring无缝集成，天然支持集群。
RPC事务恢复，超时异常恢复等。
Hmily利用AOP对参与分布式事务的本地方法与远程方法进行拦截处理，通过多方拦截，事务参与者能透明的调用到另一方的Try、Confirm、Cancel方法；传递事务上下文；并记录事务日志，酌情进行补偿，重试等。
Hmily不需要事务协调服务，但需要提供一个数据库（mysql/mongodb/zookeeper/redis/file）来进行日志存储。
Hmily实现的TCC服务与普通的服务一样，只需要暴露一个接口，也就是它的Try业务。Confirm/cancel业务逻辑，只是因为全局事务提交/回滚的需要才提供的，因此Confirm/Cancel业务只需要被Hmily TCC事务框架发现即可。不需要被调用它的其他业务服务所感知。
官网介绍：https://dromara.org/website/zh-cn/docs/hmily/index.html

TCC需要注意三种异常处理分别是空回滚、幂等、悬挂

空回滚

在没有调用TCC资源Try方法的情况下，调用了二阶段的Cancel方法，Cancel方法需要识别出这是一个空回滚，然后直接返回成功。
出现原因是当一个分支事务所在服务宕机或网络异常，分支事务调用记录为失败，这个时候其实是没有执行try阶段，当故障恢复后的，分布式事务进行回滚则会调用二阶段的Cancel方法，从而形成空回滚。
解决思路关键就是要识别出这个空回滚。思路很简单就是需要知道一阶段是否执行，如果执行了，那就是正常回滚；如果没执行，那就是空回滚。前面已经说过TM在发起全局事务时生成全局事务记录，全局事务ID贯穿整个分布式调用链路。再额外增加一张分支事务记录表，其中有全局事务ID和分支事务ID，第一阶段Try方法会插入一条记录，表示一阶段执行了。Cancel接口里读取该记录，如果该记录存在，则正常回滚；如果该记录不存在，则是空回滚。

幂等

通过前面介绍已经了解到，为了保证TCC二阶段提交重试机制不会引发数据不一致，要求TCC的二阶段Try、Confirm和Cancel接口保证幂等，这样不会重复使用或者释放资源。如果幂等控制没有做好，很有可能导致数据不一致等严重问题。
解决思路在上述“分支事务记录”中增加执行状态，每次执行前都查询该状态。

悬挂

悬挂就是对于一个分布式事务，其二阶段Cancel接口比Try接口先执行。
出现原因是在RPC调用分支事务try时，先注册分支事务，在执行RPC调用，如果此时RPC调用的网络发生拥堵，通常RPC调用是有超时时间的，RPC超时以后，TM就通知RM回滚该事务，可能回滚完成后，RPC请求才到达参与者真正执行，而一个Try方法预留的业务资源，只有该分支事务才能使用，该分布式事务第一阶段预留的业务资源再也没有人能够处理了，对于这种情况，我们就称为悬挂，即业务资源预留后没法继续处理。
解决思维是如果二阶段执行完成，那一阶段就不能再继续执行。在执行一阶段事务时判断在该全局事务下，“分支事务记录”表中是否已经有二阶段事务记录，如果有则不执行try。

示例

场景

场景为A转账30元给B，A和B账户在不同的服务。

方案1

账户A

try:
    检查余额是否够30元
    扣减30元
confirm:
    空
cancle:
    增加30元

账户B

try:
    增加30元
confirm:
    空
cancel:
    减少30元

方案1说明

账户A，这里的余额就是所谓的业务资源，按照前面提到的原则，在第一阶段需要检查并预留业务资源，因此，我们在扣钱TCC资源的Try接口里先检测A账户余额是否足够，如果足够则扣除30元。Confirm接口表示证书提交，由于业务资源已经在Try接口里扣掉了，那么在第二阶段的Confirm接口里可以什么都不用做。Cancel接口的执行表示整个事务回滚，账户A回滚则需要把Try接口里扣除的30元还给账户。
账户B，在第一阶段Try接口里实现给账户B加钱，Cancel接口的执行表示整个事务回滚，账户B回滚则需要把Try接口里加的30元再减去。

方案1的问题分析

如果账户A的try没有执行在cancel则就多加了30元。
由于try，cancel，confirm都是由单独的线程去调用，且会出现重复调用，所以需要实现幂等。
账号B在try中增加30元，当try执行完成后可能会其被其他线程给消费了。
如果账户B的try没有执行在cancel则就多减了30元。

问题解决

账户A的cancel方法需要判断try方法是否执行，正常执行try后方可执行cancel。也就是做空回滚判断。
try，cancel，confirm方法都需要实现幂等。
账户B在try方法中不允许更新账户金额，在confirm中更新账户金额。
账户B的cancel方法需要判断try方法是否执行，正常try后方可执行cancel。

优化方案

账户A：

try:
    try幂等检验
    try悬挂处理
    检查余额是否够30元
    扣减30元
confirm:
    空
cancel:
    cancel幂等校验
    cancel空回滚处理
    增加可用余额

账户B:

try:
   空
confirm:
   confirm幂等校验
   正式增加30元
cancel:
   空

Hmily实现TCC事务

业务说明

本实例通过Hmily实现TCC分布式事务，模拟两个账户的转账交易过程。
两个账户分别在不同的银行（张三在bank1、李四在bank2），bank1、bank2是两个微服务，交易过程是，张三给李四转账指定金额。
上述交易步骤，要么一起成功，要么一起失败，必须是一个整体的事务。

参考

分布式事务教程

文章由极客之音整理，本文链接：https://www.bmabk.com/index.php/post/100069.html

分布式事务解决方案之TCC

概述