学习 – 陈少文的网站

AI 应用开发技术栈

📅 2025年01月12日 · ☕ 4 分钟

Embedding 模型 Embedding 模式将高维度的数据映射到低维度的空间，这样有利于数据的处理和分析。文本模型这里有一个排行榜，https://huggingface.co/spaces/mteb/leaderboard 在上面的排行榜中，会给出模型的评分，模型的参数量

在 Kubernetes 部署 Jumpserver 跳板机

📅 2025年01月09日 · ☕ 3 分钟

1. 部署 Jumpserver 需要提前准备好 StorageClass，用于存储 Jumpserver 的数据。除了下面提到的数据库，各个组件 jms-core、jms-web、jms-koko、jms-lion、jms-chen 都需要一个 PV 存储。 1.1 部署 MySQL 参考 https://github.com/shaowenchen/ops-hub/blob/main/database/mysql8.yaml ，部署 MySQL。需要调整

常见的几种网络拓扑结构

📅 2024年11月06日 · ☕ 3 分钟

1. Fat-Tree 1985 年麻省理工学院的 Charles E. Leiserson 发明了 Fat-Tree 胖树网络。如下图，胖树网络是一颗二叉树，从更节点到叶子节点带宽逐步增加。 2008 年 8 月，加州大学圣地亚哥分校的一组计算机科学家发表了一个可扩展的网络架构设计，该设计采用受胖树拓扑启发的拓扑结构，实现了比以前的分

使用 Iceberg 和 Spark 在 Kubernetes 上处理数据

📅 2024年09月12日 · ☕ 10 分钟

1. 数据处理架构主要分为四层：处理能力层，Spark on Kubernetes 提供流式的数据处理能力数据管理层，Iceberg 提供 ACID、table 等数据集访问操作能力存储层，Hive MetaStore 管理 Iceberg 表元数据，Postgresql 作为 Hive MetaStore 存储后端，S3 作为数据存储后端资

什么是 Token

📅 2024年09月10日 · ☕ 2 分钟

Token 是一个与数据紧密相关的单位，可以用来度量训练模型所需的语料量，还可以用来度量推理时的输入和输出长度。 1. token 是什么 Token 可以是一个完整的单词、子词，甚至是一个字符。在语言模型中，文本被拆分为若干个 token，模型逐一处理这些 token 来生成预测或生成新文