TiFlash 6.0 on K8s 扩容与新特性实践

作者：数据小黑，Senior Architect，TiDB Fans。

概述

TiFlash 的升级与扩缩容已经有很多同学实践了，随着 TiDB 的普及，这方面也不适合连篇累牍的描述，但是在这次测试 6.0 on K8s 的过程中也确实遇到了一些坎坷。本文首先讲解 TiFlash 6.0 on K8s 扩容的注意事项，然后描述在新扩容的机器上的一些新特性实践。此次发布的分区表动态裁剪等特性都在 6.1 GA 了，且 6.1 是 LTS 版本，生产环境建议直接升级 6.1 使用。

TiFlash 6.0 on K8s 扩容

我们有多个 TiDB 环境，一个实验性 TiDB 环境在 K8s 上，一个开发 TiDB 环境用的虚拟机部署的，给研发的同学提供支撑，一个是生产环境。开发环境为了保持研发同学的一致性体验，暂时不升级 6.0，使用实验性 TiDB 环境进行测试。实验性 TiDB 环境已经升级为 6.0，但是没有部署 TiFlash，TiDB on K8s 的升级暂不描述。

扩容 TiFlash 6.0 on K8s

按照官方文档描述，在 tc 中增加 TiFlash 的配置：

kubectl edit tc basic -n TiDB-cluster

在 spec.timezone: UTC 之前增加 TiFlash 配置：

  TiFlash:
    baseImage: uhub.service.ucloud.cn/pingcap/TiFlash
    maxFailoverCount: 3
    replicas: 3
    storageClaims:
    - resources:
        requests:
          storage: 10Gi

其中，需要注意的是 TiFlash 的存储设置稍有不同，要配置成如下形式：

    storageClaims:
    - resources:
        requests:
          storage: 10Gi

如此配置是因为 TiFlash 支持挂载多个 pv，如果要为 TiFlash 配置多个 PV，可以在 TiFlash.storageClaims 下面配置多项，每一项可以分别配置 storage request 和 storageClassName，例如：

  TiFlash:
    baseImage: pingcap/TiFlash
    maxFailoverCount: 0
    replicas: 1
    storageClaims:
    - resources:
        requests:
          storage: 100Gi
      storageClassName: local-storage
    - resources:
        requests:
          storage: 100Gi
      storageClassName: local-storage

core dump 设置过大错误

保存当前配置后，等待 pod 部署，此时会发现 TiFlash 起不来，日志报错如下：

Poco::Exception. Code: 1000, e.code()= 0, e.displayText() = Exception: Cannot set max size of core file to 1073741824, e.what() = Exception

从 Rancher 的 console 上看，如下图：

在社区求助获取大神的指点后，翻阅源码发现问题：

struct rlimit rlim;
        if (getrlimit(RLIMIT_CORE, &rlim))
            throw Poco::Exception("Cannot getrlimit");
        /// 1 GiB by default. If more - it writes to disk too long.
        rlim.rlim_cur = config().getUInt64("core_dump.size_limit", 1024 * 1024 * 1024);

        if (setrlimit(RLIMIT_CORE, &rlim))
        {std::string message = "Cannot set max size of core file to" + std::to_string(rlim.rlim_cur);
#if !defined(ADDRESS_SANITIZER) && !defined(THREAD_SANITIZER) && !defined(MEMORY_SANITIZER) && !defined(SANITIZER)
            throw Poco::Exception(message);
#else
            /// It doesn't work under address/thread sanitizer. http://lists.llvm.org/pipermail/llvm-bugs/2013-April/027880.html
            std::cerr << message << std::endl;
#endif
        }

简单说明就是 TiFlash 启动时，需要设置 core dump 的大小为 1G，经过一些调试，获取容器启动时默认的限制为：

[root@host ~]# ulimit -c
1024

由于超过了系统限制所以报错且无法启动。此时需要在 /etc/systemd/system/docker.service.d/ 中增加： limit-core.conf 内容：

[Service]
LimitCORE=infinity

然后执行如下命令：

systemctl daemon-reload
systemctl restart docker.service

默认配置格式错误

上述操作重启后，发现上述错误已经没有了，但是在日志中出现了新的错误： TiFlash:

[2022/05/16 07:53:23.808 +00:00] [INFO] [mod.rs:118] ["encryption: none of key dictionary and file dictionary are found."]
[2022/05/16 07:53:23.808 +00:00] [INFO] [mod.rs:479] ["encryption is disabled."]
[2022/05/16 07:53:23.808 +00:00] [INFO] [server.rs:231] ["set raft-store proxy helper"]
[2022/05/16 07:53:23.808 +00:00] [INFO] [server.rs:231] ["wait for engine-store server to start"]
[2022/05/16 07:53:24.009 +00:00] [INFO] [server.rs:231] ["engine-store server is not running, make proxy exit"]

errorlog:

[2022/05/16 07:53:07.000 +00:00] [ERROR] [StorageConfigParser.cpp:73] ["Application:The configuration \"storage.raft.dir\"should be an array of strings. Please check your configuration file."] [thread_id=1]
[2022/05/16 07:53:07.100 +00:00] [ERROR] [<unknown>] ["Application:DB::Exception: The configuration \"storage.raft.dir\"should be an array of strings. Please check your configuration file."] [thread_id=1]

推断是 configmap 中的 storage.raft.dir 配置有问题，执行：

kubectl edit tc basic -n TiDB-cluster

修改 TiFlash 的配置如下：

  TiFlash:
    baseImage: uhub.service.ucloud.cn/pingcap/TiFlash
    config:
      config: |
        [storage]
          [storage.main]
            dir = ["/data0/db"]
          [storage.raft]
            dir = ["/data0/kvstore"]
    maxFailoverCount: 3
    replicas: 3
    storageClaims:
    - resources:
        requests:
          storage: 10Gi

增加 config，其中注意：

两次嵌套 config
storage 下面如果有配置，需要全部在配置中指定，在实践中常常漏掉 storage.main 配置，要注意检查。

等待 pod 重新部署之后，TiFlash 成功启动。查看实例，已经部署成功：

TiFlash 6.0 新特性解读

6.0 版本下 TiFlash 新增特性如下：

新增按库构建 TiFlash 副本功能。用户仅需使用一条 SQL 即可对某一个数据库中所有的表添加 TiFlash 副本，极大地节约了运维成本。使用文档
TiFlash MPP 引擎支持分区表的动态裁剪模式。使用文档在该模式下，TiDB 也可以使用 TiFlash MPP 引擎读取和计算分区表的数据，从而大大提升分区表的查询性能。
TiFlash 新增支持 zstd 压缩算法。使用文档新增 profiles.default.dt_compression_method 和 profiles.default.dt_compression_level 两个参数，用户可根据对性能和容量的平衡，选择不同的压缩算法。
TiFlash 默认开启支持所有 I/O 的校验 (Checksum)。使用文档此项功能曾作为实验特性在 v5.4 释出。除增强了数据的正确性安全性外，对用户使用不产生明显的直接影响。
TiFlash 引入异步 gRPC 和 Min-TSO 调度机制，更好的管理线程使用，防止线程数过高导致的系统崩溃。使用文档

其中，按库构建 TiFlash 副本，TiFlash MPP 引擎支持分区表正好符合了作者的需求，此文中做一些评测，加入数据和效果展示，方便各位评估。

新增按库构建 TiFlash 副本功能

按库构建的方便之处

我们设置数据层次如下所示：其实从明细层开始，就已经是 TiFlash 比较喜欢的宽表了，对于明细、汇总、萃取层的数据我们期望都用 TiDB 体系替代，所以这三层中的表都希望有 TiFlash 副本。

操作实践

测试环境描述

构建一个测试库，库中有 23 张表，其中最大的表有 3 千万数据，为非分区表，另外还有一张分区表，180 万数据，7 张空表，没有数据。

执行按库构建 TiFlash 副本

ALTER DATABASE TESTDB SET TiFlash REPLICA 1;

脚本交互过程长达 30 秒，时间并不短，通过执行脚本：

SELECT * FROM INFORMATION_SCHEMA.TIFLASH_REPLICA WHERE TABLE_SCHEMA = 'TESTDB';

看看副本同步情况：

所有的表都已经创建了 TiFlash 副本，包括空表，部分大表已经开始同步，目前空表和部分小表的 AVAILABLE 和 PROGRESS 都为 0，等待同步完成之后，再查看状态：

全部的表都建立了 TiFlash 副本。

此时新建一张表：

CREATE TABLE ADCM_P2 LIKE ADCM_P;

再次通过：

SELECT * FROM INFORMATION_SCHEMA.TIFLASH_REPLICA WHERE TABLE_SCHEMA = 'TESTDB';

查询， TiFlash 表增加了一张，数量为 24 张，新建的表也创建了 TiFlash 副本。官方文档提示如下：

按库构建 TiFlash 副本命令实际是为用户执行一系列 DDL 操作，对资源要求比较高。如果在执行过程中出现中断，已经执行成功的操作不会回退，未执行的操作不会继续执行。
从按库构建 TiFlash 副本命令执行开始到该库中所有表都已同步完成之前，不建议执行和该库相关的 TiFlash 副本数量设置或其他 DDL 操作，否则最终状态可能非预期。非预期场景包括：
- 先设置 TiFlash 副本数量为 2，在库中所有的表都同步完成前，再设置 TiFlash 副本数量为 1，不能保证最终所有表的 TiFlash 副本数量都为 1 或都为 2。
- 在命令执行到结束期间，如果在该库下创建表，则可能会对这些新增表创建 TiFlash 副本。
- 在命令执行到结束期间，如果为该库下的表添加索引，则该命令可能陷入等待，直到添加索引完成。
按库构建 TiFlash 副本命令会跳过系统表、视图、临时表以及包含了 TiFlash 不支持字符集的表。

在实际操作过程中，要考虑以上提示信息。其中在按库构建 TiFlash 副本命令执行到结束期间，如果在目标库下创建表，则可能会对这些新增表创建 TiFlash 副本，存在不确定性；全部同步执行之后，再创建表，则确定会为这些新增表创建 TiFlash 副本。

TiFlash MPP 引擎支持分区表的动态裁剪模式

支持分区表的方便之处

我们的很多事实表都会分区，分区在表的使用中会使用动态分区裁剪缩小数据扫描范围，有效的提高查询效率。在 5.4.0 版本中，分区表无法应用 MPP 计算，只是在 TiFlash 完成下推的算子之后，把数据汇总到 TiDB 中进行计算，因为这种计算方式还引起了一些问题，参考：TiDB server 的 oom 问题优化探索。

操作实践

操作环境介绍

设计一个实验用分区表 cust_partiton，一个非分区表 cust，一个维度表 info, 执行如下查询：

-- 非分区表
select
    `info`.`code` as `c0`,
    sum(`cust`.`sn`) as `m0`,
    sum(`cust`.`cbn`) as `m2`
from
    `cust` as `cust`,
    `info` as `info`
where
    `info`.`code` = '88888888'
and
    `cust`.`id` = `info`.`id`
group by
    `info`.`code`;
-- 分区表
select
    `info`.`code` as `c0`,
    sum(`cust`.`sn`) as `m0`,
    sum(`cust`.`cbn`) as `m2`
from
    `cust_partiton` as `cust`,
    `info` as `info`
where
    `info`.`code` = '88888888'
and
    `cust`.`id` = `info`.`id`
group by
    `info`.`code`;

按照如下顺序执行：

非分区表查询
默认参数分区表查询
开启动态剪裁分区表查询

实验结果如下：

非分区表查询

执行计划：

id                                            |estRows  |task             
----------------------------------------------+---------+-----------------
Projection_9                                  |1.00     |root             
└─TableReader_52                              |1.00     |root             
  └─ExchangeSender_51                         |1.00     |batchCop[TiFlash]
    └─Projection_47                           |1.00     |batchCop[TiFlash]
      └─HashAgg_48                            |1.00     |batchCop[TiFlash]
        └─ExchangeReceiver_50                 |1.00     |batchCop[TiFlash]
          └─ExchangeSender_49                 |1.00     |batchCop[TiFlash]
            └─HashAgg_14                      |1.00     |batchCop[TiFlash]
              └─Projection_46                 |137289.74|batchCop[TiFlash]
                └─HashJoin_40                 |137289.74|batchCop[TiFlash]
                  ├─ExchangeReceiver_25(Build)|6436.00  |batchCop[TiFlash]
                  │ └─ExchangeSender_24       |6436.00  |batchCop[TiFlash]
                  │   └─Selection_23          |6436.00  |batchCop[TiFlash]
                  │     └─TableFullScan_22    |6436.00  |batchCop[TiFlash]
                  └─TableFullScan_26(Probe)   |180388.00|batchCop[TiFlash]   

执行时间：54ms

默认参数分区表查询

执行计划如下（因分区太多，部分执行计划被折叠）：

id                              |estRows  |task        
--------------------------------+---------+------------
Projection_51                   |1.00     |root        
└─HashAgg_54                    |1.00     |root        
  └─Projection_60               |7242.04  |root        
    └─HashJoin_63               |7242.04  |root        
      ├─TableReader_72(Build)   |6436.00  |root        
      │ └─Selection_71          |6436.00  |cop[TiFlash]
      │   └─TableFullScan_70    |6436.00  |cop[TiFlash]
      └─PartitionUnion_75(Probe)|200388.00|root        
        ├─TableReader_80        |10000.00 |root        
        │ └─TableFullScan_79    |10000.00 |cop[TiFlash]        
....................................
        ├─TableReader_232       |6480.00  |root        
        │ └─TableFullScan_231   |6480.00  |cop[TiFlash]
        └─TableReader_236       |10000.00 |root        
          └─TableFullScan_235   |10000.00 |cop[TiFlash]

执行时间：146ms

开启动态剪裁分区表查询

开启动态剪裁模式，执行如下 SQL：

set @@session.TiDB_partition_prune_mode = 'dynamic';

执行计划如下：

id                                            |estRows |task             
----------------------------------------------+--------+-----------------
Projection_9                                  |1.00    |root             
└─TableReader_52                              |1.00    |root             
  └─ExchangeSender_51                         |1.00    |batchCop[TiFlash]
    └─Projection_47                           |1.00    |batchCop[TiFlash]
      └─HashAgg_48                            |1.00    |batchCop[TiFlash]
        └─ExchangeReceiver_50                 |1.00    |batchCop[TiFlash]
          └─ExchangeSender_49                 |1.00    |batchCop[TiFlash]
            └─HashAgg_14                      |1.00    |batchCop[TiFlash]
              └─Projection_46                 |8045.00 |batchCop[TiFlash]
                └─HashJoin_40                 |8045.00 |batchCop[TiFlash]
                  ├─ExchangeReceiver_25(Build)|6436.00 |batchCop[TiFlash]
                  │ └─ExchangeSender_24       |6436.00 |batchCop[TiFlash]
                  │   └─Selection_23          |6436.00 |batchCop[TiFlash]
                  │     └─TableFullScan_22    |6436.00 |batchCop[TiFlash]
                  └─TableFullScan_26(Probe)   |10000.00|batchCop[TiFlash]

执行时间：53ms

总结

可以看到非分区表的执行计划中出现了 ExchangeSender 和 ExchangeReceiver，说明是走了 MPP 模式了，执行时间为 53ms。分区表默认参数执行计划中，没有出现 ExchangeSender 和 ExchangeReceiver，只是出现了 cop[TiFlash]，说明走了 TiFlash 扫描，但是没走 MPP 模式执行时间为 146ms，修改为动态裁剪模式之后，执行计划与非分区表比较相似，因为在动态裁剪模式下，每个算子都支持直接访问多个分区，PartitionUnion 消失了，所以执行计划更简洁。在我的测试用例中，因为数据量和分区数量的关系，当增加 where 条件，减少分区扫描范围时没有获得执行效率上的明显提升，在此不做描述了。

展望

作者截稿时，6.1 LTS 版本已经发布，TiDB 具备更成熟的 HTAP 与容灾能力，加入多项云原生数据库所需的基础特性，对我关注的分区表处理也更加成熟，包括修复了以前提的很多个关于分区剪裁方面的 issue，相信 TiDB 作为 HTAP 已经有了更宽广的适应场景，希望将来的一天 TiDB 可以作为全场景、开箱即用的数据库产品创造辉煌。

TiFlash 6.0 on K8s 扩容与新特性实践

概述​

TiFlash 6.0 on K8s 扩容​

扩容 TiFlash 6.0 on K8s​

core dump 设置过大错误​

默认配置格式错误​

TiFlash 6.0 新特性解读​

新增按库构建 TiFlash 副本功能​

按库构建的方便之处​

操作实践​

测试环境描述​

执行按库构建 TiFlash 副本​

TiFlash MPP 引擎支持分区表的动态裁剪模式​

支持分区表的方便之处​

操作实践​

操作环境介绍​

非分区表查询​

默认参数分区表查询​

开启动态剪裁分区表查询​

总结​

展望​

概述

TiFlash 6.0 on K8s 扩容

扩容 TiFlash 6.0 on K8s

core dump 设置过大错误

默认配置格式错误

TiFlash 6.0 新特性解读

新增按库构建 TiFlash 副本功能

按库构建的方便之处

操作实践

测试环境描述

执行按库构建 TiFlash 副本

TiFlash MPP 引擎支持分区表的动态裁剪模式

支持分区表的方便之处

操作实践

操作环境介绍

非分区表查询

默认参数分区表查询

开启动态剪裁分区表查询

总结

展望