AMF3 / AFM 3 Core Advanced

权重数据流：从 NAND 到 active model

粗粒度 routing 把 I/O 从每个 token 摊到每个请求或生成阶段：全量权重在 flash，DRAM 只承载当前激活的专家切片。

输入面

用户请求

文本 / 图像 / 音频任务进入 Foundation Models runtime。

控制面

IFP Router

轻量 dense block 读取 prompt，选择本轮需要的专家集合。

索引面

Expert Manifest

layer_id + expert_id + offset + length + quant metadata。

存储面

NAND Flash

全量 20B 权重常驻；DRAM 不保存完整模型。

搬运面

Async Weight Loader

大块连续读、prefetch、diff loading、dequant/tile layout。

运行面

Unified DRAM Active Model

shared experts + routed experts 拼成 1-4B active slice。

计算面

ANE / GPU / AMX

decode loop 主要从 DRAM 读权重；KV cache 留在运行态。

输出面

Token / Snapshot Stream

开发者看到的是输出 streaming，不是可控的权重 streaming。

prompt-level routing

expert mask

offset / chunk plan

selected expert blobs

large aligned reads

reuse for many tokens

generated chunks

periodic reselect Router 重新评估阶段变化

长生成里如果任务阶段变化，runtime 只搬运 expert delta，不重载整块模型。

运行时内存分层

Resident router / attention / shared experts / KV cache

Active routed experts: 1-4B params

Cold inactive experts: full 20B package in NAND

线型

控制流：选择、索引、routing mask

权重流：NAND 到 DRAM 的 expert blob

输出流：token / snapshot streaming

结论

核心默认值

不要把全量 20B 放 DRAM；只把本请求激活的 1-4B 装进去。

为什么不是标准 MoE

NAND-to-DRAM 带宽不支持每 token 换 expert，所以按 prompt/阶段选择。

最大瓶颈

小随机读的 latency-to-first-byte；工程目标是减少 I/O 量并提高连续块吞吐。

来源与置信度

官方架构事实来自 Apple Machine Learning Research: Third Generation Foundation Models [HIGH]；底层 flash 读取策略参考 Apple: LLM in a Flash [MED for AFM3 directness]。