Please enable Javascript to view the contents

AI 相关论文

 ·  ☕ 3 分钟

2025

Intrinsic Fingerprint of LLMs

[发布日期: 07-04] 点击查看

论文提出了一种基于注意力参数矩阵(Q/K/V/O)层间标准差分布模式的鲁棒指纹识别方法,用于检测大型语言模型(LLM)的血缘关系(如是否通过继续训练/微调/升级再造衍生自另一模型),并声称该方法揭示了华为 Pangu Pro MoE 模型可能未经授权地衍生自 Qwen-2.5 14B 模型。

DeepSeek-R1

[发布日期: 01-22] 点击查看

论文提出了 DeepSeek-R1 系列模型,通过纯强化学习(RL) 激励大语言模型的推理能力:DeepSeek-R1-Zero,直接在基础模型上应用 RL(无需监督微调),自主涌现反思、长链推理等能力,数学竞赛(AIME)准确率从 15.6% 提升至 71%;DeepSeek-R1,引入冷启动数据与多阶段训练(RL + SFT),解决语言混合等问题,推理性能媲美 OpenAI-o1-1217(AIME 79.8%);蒸馏小模型,将 R1 推理能力迁移至 Qwen/Llama 系列(1.5B–70B),其中 7B 模型超越 GPT-4o,32B 模型接近 o1-mini。开源模型与数据,推动高效推理模型发展。

2024

DeepSeek-V2

[发布日期: 05-07] 点击查看

论文介绍了 DeepSeek-V2,一个通过创新的 MLA(多头潜注意力) 和 DeepSeekMoE(细粒度混合专家)架构 实现 高性能、经济训练(节省 42.5%成本)与高效推理(KV 缓存减少 93.3%,吞吐量提升 5.76 倍) 的 最强开源 MoE 大语言模型(2360 亿总参数,单 token 激活 210 亿参数,支持 128K 上下文)。

DeepSeek-VL

[发布日期: 03-08] 点击查看

DeepSeek-VL 是开源视觉-语言大模型(1.3B/7B),专注真实场景应用。创新点包括:数据构建,整合网页截图、PDF、图表等真实多模态数据,基于用户场景分类构建指令微调数据集;混合视觉编码器,融合 SigLIP(语义)与 SAM-B(细节),以 576 token 处理 1024×1024 高分辨率图像;训练策略,提出"模态预热"技术,动态调整语言与多模态数据比例(最终 7:3),解决多模态训练中的语言能力退化问题。最终效果:在 MMB/SEED 等 8 项多模态基准超越同规模模型,语言能力接近纯文本模型(如 HellaSwag 68.4 vs 68.5)。

2021

Latent Diffusion Models

[发布日期: 12-20] 点击查看

论文提出了潜在扩散模型(LDM),通过在预训练自编码器的低维潜在空间中训练扩散模型,显著降低了高分辨率图像合成的计算成本。关键创新点包括:空间压缩与语义保留,利用自编码器分离感知压缩和生成学习,避免像素级扩散的高开销;交叉注意力条件机制,引入多模态(如文本、布局)控制图像生成,支持文本到图像等任务;高效高分辨率合成,在 ImageNet、CelebA-HQ 等数据集上取得 SOTA 效果(如 FID=5.11),同时训练速度提升 2.7 倍以上,推理效率显著提高;通用性,适用于修复、超分辨率、布局生成等任务,并开源模型。

2017

Attention Is All You Need

[发布日期: 06-12] 点击查看

论文提出了完全基于注意力机制的 Transformer 架构,摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN),在机器翻译任务上实现了更优效果、更高并行性和更短训练时间,刷新了 WMT 2014 英德/英法翻译的 SOTA 结果(BLEU 28.4/41.8)。

2015

Deep Residual Learning for Image Recognition

[发布日期: 12-10] 点击查看

论文提出了深度残差学习框架(ResNet),通过引入带恒等映射的捷径连接(Shortcut Connections),解决了深度神经网络训练中的退化问题(Degradation Problem)(即网络加深后训练误差反而增大),使训练超过 100 层的神经网络成为可能,其 152 层残差网络以 3.57% Top-5 错误率赢得 ILSVRC 2015 图像分类冠军,并在检测、分割等任务上显著提升性能。


微信公众号
作者
微信公众号