Please enable Javascript to view the contents

Kubernetes 平台管理软件压力测试方案

 ·  ☕ 3 分钟

Kubernetes 平台管理软件运行在 Kubernetes ,用于管理运行在 Kubernetes 上的资源对象。

1. 测试思路

测试在一定负载一定集群规模下,平台软件的管理能力,而不是 Kubernetes 的管理能力。平台软件的管理能力主要体现在能通过 UI 对负载、PV 进行增删改查,在 UI 上能够直接查看负载的监控和日志。

明确测试内容和目的非常重要。测试对象不是 Kubernetes 。Kubernetes 相关的测试,社区会给出更好的答案。这里需要测试的是平台软件对 Kubernetes 资源对象的管理能力。

2. 测试组合

根据 Kubernetes 社区的建议:

  • 节点数不超过 5000
  • Pod 总数不超过 150000
  • 容器总数不超过 300000
  • 每个节点的 pod 数量不超过 100

所有的测试内容,需要在相关组件的推荐配置下进行。既然上游有推荐,那么下游遵循就可以,有问题再提交给上游。

2.1 负载率

使用较多的一组序列是 50%、90%、99% 。也就是将 Kubernetes 集群的负载水位控制在 50%、90%、99% ,然后再对相关指标进行测试。

负载类型也是一个需要思考的地方。被社区广泛使用、认可的负载是最佳的选择,但是在压力测试方面,还没有达成测试负载共识,认可某一个负载的测试结果。

这里主要推荐使用的是 Kubernetes 社区提供的 examples :

这些负载基本能够覆盖常用的类型,而且与同类产品也更容易进行对比。

2.2 节点数量

根据 Kubernetes 官方提供的大集群最佳实践,将集群规模分为六等:

节点数\负载率50%90%99%
5 (n1-standard-1)
10 (n1-standard-2)
100 (n1-standard-4)
250 (n1-standard-8)
500 (n1-standard-16)
多于 500 (n1-standard-32)

在 Google Cloud 中可以查询到机器具体配置如下:

机器名称vCPU内存(GB)是否 SSD
n1-standard-113.75
n1-standard-227.50
n1-standard-4415
n1-standard-8830
n1-standard-161660
n1-standard-3232120

2.3 Etcd 配置

对于大规模 Kubernetes 集群,Etcd 的配置显得十分重要。因为全部节点的 Kubelet 都需要连接 Etcd ,节点增加会对 Etcd 产生最直接的压力。

根据 Etcd 社区的推荐配置,根据节点数,配置 Etcd 即可。

节点数数据大小vCPUs内存 (GB)Max concurrent IOPSDisk bandwidth (MB/s)
50no more than 100 MB28360056.25
250no more than 500 MB416600093.75
1000no more than 1 GB8328000125
3000more than 1 GB166416,000250

Etcd 的节点数量维持在 3、5、7 个即可,不是越多越好,节点多写数据慢。具体可以参考: Etcd、Etcdctl 应用实践

2.4 测试设备和费用

进行大规模 Kubernetes 集群压力测试,资金开销肯定不会少。

如果有足够的物理机资源,可以使用物理机安装 IaaS 软件,基于 VM 进行测试。通常 IaaS 云厂商的 2 个 vCPU 对应一个物理 CPU ,而内存是 1:1 进行售卖。在虚拟化的过程中,需要保证物理资源具有一定冗余,否则测试结果可能不具备参考意义。

如果没有足够的物理机,那么只能够借助于云服务器了。使用 Terraform 等编排工具,是一个不错的选择,可以用于快速创建资源。测试完成之后,又可以快速销毁,能够减少部分资金开销。可以参考: 如何使用 Terraform Provider 提供 Iac 级别的应用

3. 测试输出

  • 能够管理 Node 的最大数量
  • 能够管理 Workload 的最大数量
  • 能够管理 PV 的最大数量
  • 能够承受的最大日志量(频次、大小,与 Node 数量相关)
  • 能够承受的最大的监控量(与 Node 数量相关)
  • 各个梯度下的推荐配置
  • 各个梯度下的管理能力
  • 各个梯度负载下,平台管理软件的容错恢复能力(HA)

4. 测试维度

4.1 功能点

  • UI 页面
  • 查询负载
  • 管理负载/PV
  • 查询/检索日志
  • 查看监控
  • …(核心功能)

4.2 观察指标

  • 呈现(是否能打开相关功能)
  • 速度 (2 秒以内,超过 10 秒算失败)
  • 准确度(操作是否正常,返回数据是否正常)
  • 高可用(HA)

5. 参考


微信公众号
作者
微信公众号