如何预热 Juicefs 数据
· ☕ 1 分钟
1. 关于 JuiceFS 的缓存 在主机上,预热的缓存是直接放在主机上的。 在集群中,分为两级缓存: Worker,提供集群级别共享的缓存 Fuse,提供仅当前节点级别的缓存 2. 使用 JuiceFS 客户端预热数据 指定目录 1 juicefs warmup /mnt/jfs/dataset-1 批量指定目录 1 juicefs warmup -f warm.txt 其中 warm.txt 为预热目录列表,每行一个目

高频 IO 的 POD 并不适合设置 Limit
· ☕ 2 分钟
1. 现象 基于 Kubernetes 的 Elasticsearch 频繁重启,导致服务几乎不可用。 在导入数据过程中,Pod 的内存使用持续增长 Pod 内存使用接近 Limit 之后,继续导入就会触发 Pod 异常退出,错误日志 ERROR: Elasticsearch exited unexpectedly Pod 内存使用率并不会下降,而是维持在 Limit 附近,不久又异常退出 Elasticsearch Pod 内存限制在 64GB,而 JVM 内

部署基于内存存储的 Elasticsearch - 一亿+条数据,全文检索 100ms 响应
· ☕ 6 分钟
1. 在主机上挂载内存存储目录 创建目录用于挂载 1 mkdir /mnt/memory_storage 挂载 tmpfs 文件系统 1 mount -t tmpfs -o size=800G tmpfs /mnt/memory_storage 存储空间会按需使用,也就是使用 100G 存储时才会占用 100G 内存。主机节点上有 2T 内存,这里分配 800G 内存用于存储 Elasticsearch 数据。 提前创建好目录 1 2 3 mkdir /mnt/memory_storage/elasticsearch-data-es-jfs-prod-es-default-0 mkdir /mnt/memory_storage/elasticsearch-data-es-jfs-prod-es-default-1 mkdir /mnt/memory_storage/elasticsearch-data-es-jfs-prod-es-default-2 如果没有提前创建好目录,并

模型研发周期中的数据存储
· ☕ 3 分钟
1. 基于对象存储的数据交付 如上图,在模型研发过程中,主要涉及三个子平台,分别是: 数据平台 数据平台主要负责数据相关的管理,比如: 数据接入、数据处理,最终生成训练所需的数据。 数据平台将原始数据存储到对象存储中,在处理时,从对象存储中获取数据,进行

各种存储对比
· ☕ 2 分钟
本文数据由 GPT 生成,请注意真实性 1. 存储的分层与互联 2. 各种存储类型 存储类型 带宽 容量 响应延时 单位存储成本 存储原理 适用场景 CPU L1 Cache 256-512GB/s 32-64KB/核心 <1ns 约$2000/MB SRAM CPU 核心最近层缓存 CPU L2 Cache 64-256GB/s 256KB-2MB/核心组 2-5ns 约$1000/MB 部分 S