Argon 复刻 DeepSeek-V4 训练流程, 全开源全公开可复现可续训全开源。

从数据集、DeepSeek 128K tokenizer、训练代码到模型权重 —— 整条 520M 预训练链路完全开源,可审计、可复现、可继续训练。

在 Hugging Face 查看查看架构

OPEN DATA✦OPEN CODE✦OPEN WEIGHTS✦DeepSeek-V4 复刻✦Engram Memory✦MTP Head✦Muon × AdamW✦全链路开源✦

01 — 为什么是 Argon

复刻 DeepSeek-V4 训练流程,并把整条链路完全开源。

不只是放出权重 —— 原始语料、统一 JSONL、tokenizer 切分、ctx4096 pack、训练代码、配置到最终 checkpoint,全部公开、透明、可复现,任何人都能从头复跑或继续训练。

0M

总参数量

0B

训练 tokens

0

vocab size

0

上下文长度

02 — 怎么搭起来的

没有银弹,只有一层层拼出来的结构。

/ 01

架构

24 层 dense Transformer 主干,叠加可学习的 Engram 记忆与辅助预测头。

24 层 · hidden 1024 · 16 heads
FFN hidden 2560 · ctx 4096
RMSNorm · RoPE · tied embedding
clamped SwiGLU 激活
Engram 注入第 2、12 层
MTP 多 token 预测头
MHC 模块

/ 02

Tokenizer + 数据

DeepSeek 风格 128K tokenizer,区分 raw 与 canonical token。

主 LM loss 用 raw token
Engram lookup 用 canonical token
packed 数据约 72G
中文教育 / 数学 / 科学
书籍 / 百科 / 长文
英文教育 + 技术文档
Ultra-FineWeb 中英高分子集

/ 03

训练组件

实验 Muon/AdamW 混合优化器与多套训练技巧。

backbone/MTP: AdamW→Muon
embedding/norm/bias: AdamW
Engram memory: Adam
cosine scheduler
warmup 3M tokens
Muon switch @ 5M tokens
grad clip 1.0

03 — 训练结果

4 张 RTX PRO 6000,42,589 步,83.7 亿 tokens。

// LOSS CURVE · 200-step rolling mean

train → 3.1081 main LM → 2.7964 MTP → 3.1173

有效 batch 196,608 tokens/step,常规吞吐约 111K tokens/s,bf16 全程多卡训练。

硬件4 × NVIDIA RTX PRO 6000 Blackwell Server Edition
精度bf16 · world size 4 · ctx 4096
finalstep 42,589 · train loss 3.1081
lossmain LM 2.7964 · MTP 3.1173
ckptcheckpoint_step_42589.pt

0

final step

0

final train loss

0K t/s

训练吞吐

0M

Engram 参数

+

+

全链路开源 Argon

权重、切分训练数据、训练代码、tokenizer 资产与完整配置 —— 全部公开,一个可从头复现、可继续训练的研究型 checkpoint。

前往 Hugging Face