用户请求
文本 / 图像 / 音频任务进入 Foundation Models runtime。
AMF3 / AFM 3 Core Advanced
粗粒度 routing 把 I/O 从每个 token 摊到每个请求或生成阶段:全量权重在 flash,DRAM 只承载当前激活的专家切片。
文本 / 图像 / 音频任务进入 Foundation Models runtime。
轻量 dense block 读取 prompt,选择本轮需要的专家集合。
layer_id + expert_id + offset + length + quant metadata。
全量 20B 权重常驻;DRAM 不保存完整模型。
大块连续读、prefetch、diff loading、dequant/tile layout。
shared experts + routed experts 拼成 1-4B active slice。
decode loop 主要从 DRAM 读权重;KV cache 留在运行态。
开发者看到的是输出 streaming,不是可控的权重 streaming。
长生成里如果任务阶段变化,runtime 只搬运 expert delta,不重载整块模型。
控制流:选择、索引、routing mask
权重流:NAND 到 DRAM 的 expert blob
输出流:token / snapshot streaming
不要把全量 20B 放 DRAM;只把本请求激活的 1-4B 装进去。
NAND-to-DRAM 带宽不支持每 token 换 expert,所以按 prompt/阶段选择。
小随机读的 latency-to-first-byte;工程目标是减少 I/O 量并提高连续块吞吐。
官方架构事实来自 Apple Machine Learning Research: Third Generation Foundation Models [HIGH];底层 flash 读取策略参考 Apple: LLM in a Flash [MED for AFM3 directness]。