Please enable Javascript to view the contents

AI 相关论文

 ·  ☕ 2 分钟
  • 【2025-07-04】Intrinsic Fingerprint of LLMs: Continue Training is NOT All You Need to Steal A Model!

点击查看

论文提出了一种基于注意力参数矩阵(Q/K/V/O)层间标准差分布模式的鲁棒指纹识别方法,用于检测大型语言模型(LLM)的血缘关系(如是否通过继续训练/微调/升级再造衍生自另一模型),并声称该方法揭示了华为 Pangu Pro MoE 模型可能未经授权地衍生自 Qwen-2.5 14B 模型。

  • 【2025-01-22】DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

点击查看

论文提出了 DeepSeek-R1 系列模型,通过纯强化学习(RL) 激励大语言模型的推理能力:DeepSeek-R1-Zero,直接在基础模型上应用 RL(无需监督微调),自主涌现反思、长链推理等能力,数学竞赛(AIME)准确率从 15.6% 提升至 71%;DeepSeek-R1,引入冷启动数据与多阶段训练(RL + SFT),解决语言混合等问题,推理性能媲美 OpenAI-o1-1217(AIME 79.8%);蒸馏小模型,将 R1 推理能力迁移至 Qwen/Llama 系列(1.5B–70B),其中 7B 模型超越 GPT-4o,32B 模型接近 o1-mini。
开源模型与数据,推动高效推理模型发展。

  • 【2024-05-07】DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

点击查看

论文介绍了 DeepSeek-V2,一个通过创新的 MLA(多头潜注意力) 和 DeepSeekMoE(细粒度混合专家)架构 实现 高性能、经济训练(节省 42.5%成本)与高效推理(KV 缓存减少 93.3%,吞吐量提升 5.76 倍) 的 最强开源 MoE 大语言模型(2360 亿总参数,单 token 激活 210 亿参数,支持 128K 上下文)。

  • 【2017-06-12】Attention Is All You Need

点击查看

论文提出了完全基于注意力机制的 Transformer 架构,摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN),在机器翻译任务上实现了更优效果、更高并行性和更短训练时间,刷新了 WMT 2014 英德/英法翻译的 SOTA 结果(BLEU 28.4/41.8)。


微信公众号
作者
微信公众号