Argon 复刻 DeepSeek-V4 训练流程, 全开源 全公开 可复现 可续训 全开源

数据集、DeepSeek 128K tokenizer训练代码模型权重 —— 整条 520M 预训练链路完全开源,可审计、可复现、可继续训练。

在 Hugging Face 查看 查看架构
OPEN DATAOPEN CODEOPEN WEIGHTSDeepSeek-V4 复刻Engram MemoryMTP HeadMuon × AdamW全链路开源
01 — 为什么是 Argon

复刻 DeepSeek-V4 训练流程,并把整条链路完全开源。

不只是放出权重 —— 原始语料、统一 JSONL、tokenizer 切分、ctx4096 pack、训练代码、配置到最终 checkpoint,全部公开、透明、可复现,任何人都能从头复跑或继续训练。

0M
总参数量
0B
训练 tokens
0
vocab size
0
上下文长度
02 — 怎么搭起来的

没有银弹,只有一层层拼出来的结构。

/ 01

架构

24 层 dense Transformer 主干,叠加可学习的 Engram 记忆与辅助预测头。

  • 24 层 · hidden 1024 · 16 heads
  • FFN hidden 2560 · ctx 4096
  • RMSNorm · RoPE · tied embedding
  • clamped SwiGLU 激活
  • Engram 注入第 2、12 层
  • MTP 多 token 预测头
  • MHC 模块
/ 02

Tokenizer + 数据

DeepSeek 风格 128K tokenizer,区分 raw 与 canonical token。

  • 主 LM loss 用 raw token
  • Engram lookup 用 canonical token
  • packed 数据约 72G
  • 中文教育 / 数学 / 科学
  • 书籍 / 百科 / 长文
  • 英文教育 + 技术文档
  • Ultra-FineWeb 中英高分子集
/ 03

训练组件

实验 Muon/AdamW 混合优化器与多套训练技巧。

  • backbone/MTP: AdamW→Muon
  • embedding/norm/bias: AdamW
  • Engram memory: Adam
  • cosine scheduler
  • warmup 3M tokens
  • Muon switch @ 5M tokens
  • grad clip 1.0
03 — 训练结果

4 张 RTX PRO 6000,42,589 步,83.7 亿 tokens。

// LOSS CURVE · 200-step rolling mean

train → 3.1081 main LM → 2.7964 MTP → 3.1173

有效 batch 196,608 tokens/step,常规吞吐约 111K tokens/s,bf16 全程多卡训练。

  • 硬件4 × NVIDIA RTX PRO 6000 Blackwell Server Edition
  • 精度bf16 · world size 4 · ctx 4096
  • finalstep 42,589 · train loss 3.1081
  • lossmain LM 2.7964 · MTP 3.1173
  • ckptcheckpoint_step_42589.pt
0
final step
0
final train loss
0K t/s
训练吞吐
0M
Engram 参数
+
+

全链路开源 Argon

权重、切分训练数据、训练代码、tokenizer 资产与完整配置 —— 全部公开,一个可从头复现、可继续训练的研究型 checkpoint。

前往 Hugging Face