容器
容器部署 ClickHouse
· ☕ 1 分钟
1. ClickHouse 单节点 配置环境变量 1 2 3 4 5 6 7 8 export CONTAINER_CLI=nerdctl export IMAGE=clickhouse/clickhouse-server:24 export CLICKHOUSE_INSTANCE_NAME=clickhouse export CH_DATA=/data/ops/clickhouse/$CLICKHOUSE_INSTANCE_NAME mkdir -p $CH_DATA/data $CH_DATA/log export CLICKHOUSE_PORT=9000 export CLICKHOUSE_USER=default export CLICKHOUSE_PASSWORD=xxxxxx 启动服务 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 $CONTAINER_CLI run -d \ --name $CLICKHOUSE_INSTANCE_NAME \ --restart always \ --network host \ --ulimit memlock=-1 \ --ulimit stack=67108864 \ --ulimit nofile=1048576:1048576 \ --memory-swappiness=0 \ --cap-add=SYS_NICE \ --cap-add=SYS_RESOURCE \ -v $CH_DATA/data:/var/lib/clickhouse \ -v $CH_DATA/log:/var/log/clickhouse-server \ -e CLICKHOUSE_USER=$CLICKHOUSE_USER \ -e CLICKHOUSE_PASSWORD=$CLICKHOUSE_PASSWORD \ -e CLICKHOUSE_PORT=$CLICKHOUSE_PORT \ $IMAGE 测试连接 1 $CONTAINER_CLI exec -it $CLICKHOUSE_INSTANCE_NAME clickhouse-client --host 127.0.0.1 --port $CLICKHOUSE_PORT 打印交付结

容器化部署 Redis
· ☕ 1 分钟
1. Redis 主从模式 配置环境变量 1 2 3 4 5 6 7 8 9 10 11 12 13 14 export CONTAINER_CLI=nerdctl export IMAGE=redis:7 export REDIS_INSTANCE_NAME=redis-instance export REDIS_MASTER_INSTANCE_NAME="${REDIS_INSTANCE_NAME}-master" export REDIS_REPLICA_INSTANCE_NAME="${REDIS_INSTANCE_NAME}-replica" export REDIS_PASSWORD=xxxxxx export REDIS_MASTER_PORT=6379 export REDIS_MASTER_IP=10.0.0.1 export REDIS_REPLICA_PORT=6380 export REDIS_DATA=/data/ops/redis/$REDIS_INSTANCE_NAME mkdir -p $REDIS_DATA/data $REDIS_DATA/log 启动主节点 1 2 3 4 5 6 7 8 9 10 11 $CONTAINER_CLI run -d \ --name $REDIS_MASTER_INSTANCE_NAME \ --restart always \ --network host \ --ulimit memlock=-1 \ --ulimit stack=67108864 \ --ulimit nofile=1048576:1048576 \ --memory-swappiness=0 \ -v $REDIS_DATA/data:/data \ -v $REDIS_DATA/log:/var/log/redis \ $IMAGE redis-server --port $REDIS_MASTER_PORT --requirepass $REDIS_PASSWORD 应该可以这样的日志: 1 Ready to accept connections tcp 启动

容器化部署多节点 FoundationDB 及运维
· ☕ 3 分钟
1. 生成集群ID 1 cat /dev/urandom | tr -dc 'a-zA-Z0-9' | fold -w 16 | head -n 1 下面以 CLUSTER_ID=fKbIga9RHP79OIx1 为例 2. 第一个节点上 清理旧数据 1 2 3 $CONTAINER_CLI rm -f $FDB_INSTANCE_NAME mv $FDB_DIR $FDB_DIR.$(date +%Y%m%d%H%M%S).bak mkdir -p $FDB_DIR 配置环境变量 1 2 3 4 5 6 7 8 9 export CONTAINER_CLI=nerdctl export IMAGE=foundationdb/foundationdb:7.1.26 export CLUSTER_ID=fKbIga9RHP79OIx1 export FDB_INSTANCE_NAME=fdb_server export FDB_CLUSTER_FIRST_IP=$(hostname -I | awk '{print $1}') export FDB_PORT=4500 export FDB_DIR=/data/ops/fdb/$FDB_INSTANCE_NAME 创建 cluster 文件 1 2 3 mkdir -p $FDB_DIR echo "${FDB_INSTANCE_NAME}:${CLUSTER_ID}@${FDB_CLUSTER_FIRST_IP}:4500" > $FDB_DIR/fdb.cluster cat $FDB_DIR/fdb.cluster 启动服务器节点 1 2 3 4 5 6 7 8

使用 PyTorch 在 MNIST 数据集训练模型
· ☕ 3 分钟
1. 创建训练脚本 创建训练脚本 mnist.py,内容如下: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93

常用 AI 基础镜像及启动命令
· ☕ 2 分钟
1. 镜像 Tag 标识的含义 base/cuda: 包括 CUDA 运行时 runtime: 在 base 的基础上,新增了 CUDA math 库和 NCCL、cuDNN 运行时 devel: 在 runtime 的基础上,新增了头文件和用于构建 CUDA 镜像的开发工具,对于多阶段构建特别有用 cuddn: 在上面基础上,新增了 cuDNN 神经网络加速库 py3: Python 3 环境 2. CUDA 镜像 镜像 AMD64 镜像大小 ARM64 镜