陈少文的网站

使用 Fluid 对接 OBS 存储及性能测试

📅 2024年10月22日 · ☕ 1 分钟

1. Jindo 挂载 OBS 配置环境变量 1 2 3 4 export ENDPOINT=obs.cn-north-4.myhuaweicloud.com export BUCKET= export AK= export SK= 创建凭证 1 2 3 4 5 6 7 8 9 10 kubectl apply -f - <<EOF apiVersion: v1 kind: Secret metadata: name: myobssecret type: Opaque stringData: fs.obs.accessKeyId: ${AK} fs.obs.accessKeySecret: ${SK} EOF 创建 Dataset 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 kubectl apply -f - <<EOF apiVersion: data.fluid.io/v1alpha1 kind: Dataset metadata: name: myobs-jindo spec: mounts: - mountPoint: obs://${BUCKET}/test2/ options: fs.obs.endpoint: ${ENDPOINT} encryptOptions: - name: fs.obs.accessKeyId valueFrom: secretKeyRef: name: myobssecret key: fs.obs.accessKeyId - name: fs.obs.accessKeySecret valueFrom: secretKeyRef: name:

使用 Iceberg 和 Spark 在 Kubernetes 上处理数据

📅 2024年09月12日 · ☕ 10 分钟

1. 数据处理架构主要分为四层：处理能力层，Spark on Kubernetes 提供流式的数据处理能力数据管理层，Iceberg 提供 ACID、table 等数据集访问操作能力存储层，Hive MetaStore 管理 Iceberg 表元数据，Postgresql 作为 Hive MetaStore 存储后端，S3 作为数据存储后端资

GPU 主机如何开启 GDS

📅 2024年09月11日 · ☕ 5 分钟

1. 什么是 GDS（GPUDirectStorage） GDS 允许 RDMA 网卡直接访问 GPU 内存，有助于增加 GPU 应用读写文件的 IO 带宽，减少 IO 时延，并降低其 CPU 负载。客户端在开启 GDS 特性后，文件将以 O_DIRECT 方式打开，客户端不会再缓存文件数据。应用层读写文件时，客户端通过 nvidia-fs.ko 将

什么是 Token

📅 2024年09月10日 · ☕ 2 分钟

Token 是一个与数据紧密相关的单位，可以用来度量训练模型所需的语料量，还可以用来度量推理时的输入和输出长度。 1. token 是什么 Token 可以是一个完整的单词、子词，甚至是一个字符。在语言模型中，文本被拆分为若干个 token，模型逐一处理这些 token 来生成预测或生成新文

什么是 FLOPs

📅 2024年09月09日 · ☕ 1 分钟

1. 关于 FLOPs FLOPs（Floating Point Operations Per Second）指的是每秒执行的浮点数运算次数。具体地说：一次浮点加法：如 a + b，被计为一次浮点运算。一次浮点乘法：如 a * b，也被计为一次浮点运算。其他基本浮点运算：如除法和平方根，也可以被计为一次浮