01 — 为什么是 Argon
复刻 DeepSeek-V4 训练流程,并把整条链路完全开源。
不只是放出权重 —— 原始语料、统一 JSONL、tokenizer 切分、ctx4096 pack、训练代码、配置到最终 checkpoint,全部公开、透明、可复现,任何人都能从头复跑或继续训练。
0M
总参数量
0B
训练 tokens
0
vocab size
0
上下文长度
02 — 怎么搭起来的
没有银弹,只有一层层拼出来的结构。
/ 01
架构
24 层 dense Transformer 主干,叠加可学习的 Engram 记忆与辅助预测头。
- 24 层 · hidden 1024 · 16 heads
- FFN hidden 2560 · ctx 4096
- RMSNorm · RoPE · tied embedding
- clamped SwiGLU 激活
- Engram 注入第 2、12 层
- MTP 多 token 预测头
- MHC 模块
/ 02
Tokenizer + 数据
DeepSeek 风格 128K tokenizer,区分 raw 与 canonical token。
- 主 LM loss 用 raw token
- Engram lookup 用 canonical token
- packed 数据约 72G
- 中文教育 / 数学 / 科学
- 书籍 / 百科 / 长文
- 英文教育 + 技术文档
- Ultra-FineWeb 中英高分子集
/ 03
训练组件
实验 Muon/AdamW 混合优化器与多套训练技巧。
- backbone/MTP: AdamW→Muon
- embedding/norm/bias: AdamW
- Engram memory: Adam
- cosine scheduler
- warmup 3M tokens
- Muon switch @ 5M tokens
- grad clip 1.0
03 — 训练结果
4 张 RTX PRO 6000,42,589 步,83.7 亿 tokens。
// LOSS CURVE · 200-step rolling mean
train → 3.1081
main LM → 2.7964
MTP → 3.1173
有效 batch 196,608 tokens/step,常规吞吐约 111K tokens/s,bf16 全程多卡训练。
- 硬件4 × NVIDIA RTX PRO 6000 Blackwell Server Edition
- 精度bf16 · world size 4 · ctx 4096
- finalstep 42,589 · train loss 3.1081
- lossmain LM 2.7964 · MTP 3.1173
- ckptcheckpoint_step_42589.pt
0
final step
0
final train loss
0K t/s
训练吞吐
0M
Engram 参数
+
+
全链路开源 Argon
权重、切分训练数据、训练代码、tokenizer 资产与完整配置 —— 全部公开,一个可从头复现、可继续训练的研究型 checkpoint。
前往 Hugging Face