在这个阶段,瓶颈不只来自算力峰值,更来自显存带宽、KV Cache 局部性、数据移动能耗和系统调度效率。通用 GPU 系统适合大量并行计算,但在长上下文解码、小批量智能体请求和持续交互型负载中,经常会遇到显存带宽与利用率问题。
架构目标
J200 的方向是用高带宽内存架构提升 Token 输出效率:把内存更靠近推理逻辑,通过 3D 堆叠、短路径数据移动、NoC 与内存控制器协同,减少 KV Cache 访问成本。
16.2 TB/s目标显存带宽
40-43GB四层高带宽内存方向
40 NPU1GHz 级推理核心
PCIe 6.0 x16系统互连
为什么高带宽重要
长上下文推理会持续读取和更新 KV cache;agent 与代码生成场景又倾向于小批量、高频次、长序列输出。此时,单纯增加通用算力并不一定转化为更高 TPS。更关键的是让数据以更短路径、更低能耗、更高 locality 到达推理逻辑。
从 J100 到 J200
J100 是已验证的系统,用于观察真实部署负载中的调度、KV Cache、带宽、延迟和成本。J200 会把这些系统经验反馈到未来芯片架构中,形成从软件系统到芯片方向的闭环。
最终目标不是追求单一峰值指标,而是提升生产推理真正关心的三个指标:更低 $/Token、更低 J/Token、更高 Token/机柜。