AMF3 / AFM 3 Core Advanced

权重数据流:从 NAND 到 active model

粗粒度 routing 把 I/O 从每个 token 摊到每个请求或生成阶段:全量权重在 flash,DRAM 只承载当前激活的专家切片。

输入面

用户请求

文本 / 图像 / 音频任务进入 Foundation Models runtime。

控制面

IFP Router

轻量 dense block 读取 prompt,选择本轮需要的专家集合。

索引面

Expert Manifest

layer_id + expert_id + offset + length + quant metadata。

存储面

NAND Flash

全量 20B 权重常驻;DRAM 不保存完整模型。

搬运面

Async Weight Loader

大块连续读、prefetch、diff loading、dequant/tile layout。

运行面

Unified DRAM Active Model

shared experts + routed experts 拼成 1-4B active slice。

计算面

ANE / GPU / AMX

decode loop 主要从 DRAM 读权重;KV cache 留在运行态。

输出面

Token / Snapshot Stream

开发者看到的是输出 streaming,不是可控的权重 streaming。

prompt-level routing
expert mask
offset / chunk plan
selected expert blobs
large aligned reads
reuse for many tokens
generated chunks
periodic reselect Router 重新评估阶段变化

长生成里如果任务阶段变化,runtime 只搬运 expert delta,不重载整块模型。

运行时内存分层

Resident router / attention / shared experts / KV cache
Active routed experts: 1-4B params
Cold inactive experts: full 20B package in NAND

线型

控制流:选择、索引、routing mask

权重流:NAND 到 DRAM 的 expert blob

输出流:token / snapshot streaming

结论

核心默认值

不要把全量 20B 放 DRAM;只把本请求激活的 1-4B 装进去。

为什么不是标准 MoE

NAND-to-DRAM 带宽不支持每 token 换 expert,所以按 prompt/阶段选择。

最大瓶颈

小随机读的 latency-to-first-byte;工程目标是减少 I/O 量并提高连续块吞吐。

来源与置信度

官方架构事实来自 Apple Machine Learning Research: Third Generation Foundation Models [HIGH];底层 flash 读取策略参考 Apple: LLM in a Flash [MED for AFM3 directness]。