高性能推理基础设施

高带宽推理, 释放智能产能

君子务本聚焦长上下文、AI Agent、代码生成和私有化 AI 部署,把系统调度、KV Cache、内存路径和芯片架构作为一套基础设施共同优化。

16.2 TB/sJ200 目标显存带宽 8x单 Token 成本改善目标 7x内存效率提升目标
架构方向 J200
16.2 TB/s 目标显存带宽
KV Cache 近端访问 短路径数据移动 长上下文解码

项目定位

服务中国大模型应用的高性能推理底座

从真实系统验证出发,把高带宽内存、推理调度和芯片架构放到同一套路线里,解决长上下文与智能体应用带来的吞吐、成本和延迟问题。

已验证

用真实负载验证高带宽价值

J100 已完成系统验证,用显存带宽、单 Token 成本、能耗和机柜吞吐评估推理基础设施的效率提升空间。

在研发

把系统经验反馈到 J200 架构

核心工作覆盖调度系统、KV Cache、编译器、内核、NoC 和高带宽内存架构,让软件与芯片路线同步迭代。

招募中

多地协作扩展团队

北京、武汉、长沙、深圳开放软件、系统、芯片架构、验证与物理设计方向,支撑高性能推理基础设施持续扩张。

性能指标

J100 已完成系统验证,J200 目标继续放大高 TPS 与低成本优势

围绕显存带宽、内存效率、单 Token 成本和机柜吞吐,展示高带宽推理基础设施的关键性能目标。

显存带宽目标 16.2 TB/s

J200 高带宽推理架构方向,服务长上下文解码与 KV Cache 压力。

内存容量 40-43 GB

四层堆叠高带宽内存配置方向。

推理核心 40 NPU

1GHz 级 NPU 核心目标,用于解码密集型推理。

系统互连 PCIe 6.0 x16

用于服务器节点与集群部署。

内存效率 7x

目标相对 H100 级 GPU 系统提升内存效率。

Token 成本 8x

目标相对通用 GPU 系统改善单 Token 成本。

J100 实测验证
8TB/s 显存带宽
500 TPS DeepSeek V4 Pro
百万上下文单路理论
1000 TPS DeepSeek V4 Flash
百万上下文单路理论

软硬件协同

用真实推理负载反推芯片架构优势

推理时代的瓶颈不只在算力,更在显存带宽、KV Cache 行为、数据移动和单 Token 成本。

调度系统 BatchingRoutingScheduling

用真实负载轨迹约束系统设计。

编译器 Graph loweringOperator mapping

让模型执行路径贴合 memory hierarchy。

内核 Decode kernelsData movement

针对小批量、长上下文、智能体负载优化。

内存 HBM localityKV placement

减少长距离数据搬运与重复访存。

互连 NoCDie-to-die path

把高带宽送到解码最需要的位置。

芯片 3D stackingInference logic

为持续 Token 输出优化,而不是只追求通用峰值算力。

传统 GPU 推理栈

  • 采购逻辑围绕峰值 FLOPS 展开
  • 通用 memory hierarchy 难以贴合 KV cache
  • Runtime 与硬件优化经常分离
  • 解码与 KV 行为在部署后才暴露
  • Rack economics 依赖利用率回收

君子务本高带宽推理栈

  • 持续 Token 输出与利用率作为一阶目标
  • 用 runtime trace 评估 HBM 与 KV path
  • 编译器、内核、NoC 与芯片联合调优
  • 推理与智能体负载提前塑造 J200 方向
  • 通过 J100 系统验证度量推理经济性

路线图

先在系统中验证真实负载,再把关键经验落实到芯片架构

2026

J100 系统验证与客户场景

  • 高带宽推理系统验证
  • 长上下文与智能体负载画像
  • 客户场景、机柜效率与系统调优
2027-2028

J200 自研高带宽架构

  • 4nm class logic die 方向
  • 晶圆对晶圆 / 3D 堆叠方向
  • NoC、memory controller 与 KV cache 协同设计
2029-2030

基础设施级规模化

  • 服务私有推理云与企业 AI 部署
  • 10-100 节点客户部署模型
  • 以 $/Token、J/Token、Token/机柜衡量价值

应用场景

适配关键低时延和高上下文推理任务

当模型进入生产,真正昂贵的部分往往是持续输出 Token 的带宽、能耗、延迟和稳定性。

01

百万上下文推理

服务长文档、多轮推理和大规模上下文窗口,减少 KV cache 访问压力。

02

智能体 / 代码生成

适配小批量、高频交互、持续解码的智能体与代码生成工作流。

03

实时决策

为低时延交易、实时风控和在线决策提供更稳定的输出路径。

04

企业知识问答

在私有部署、文档分析和内部知识库场景中优化吞吐与成本。

技术解读

从高带宽内存到推理系统

围绕长上下文、KV Cache、内存路径与单 Token 成本,解释 J200 架构目标和 J100 验证指标背后的系统逻辑。

架构说明

J200 高带宽推理架构方向

解释 16.2TB/s 目标带宽、40 NPU、3D 堆叠和 memory-centric architecture 的关系。

阅读说明
系统验证

J100 高带宽推理验证指标

用 8TB/s、500 / 1000 TPS 和典型低时延场景说明高带宽路径的价值。

查看指标
推理经济性

从 FLOPS 转向 Token 输出效率

推理基础设施的评价标准,正在从峰值算力转向 $/Token、J/Token 和 Token/机柜。

查看对比

合作沟通

从真实推理负载开始,评估更高带宽的系统价值