返回职位列表

LLM Runtime

博士后研究员 - LLM Runtime

负责 LLM Serving Runtime 与 KV Cache 系统，覆盖调度、batching、profiling 和原型硬件环境中的 bring-up。

北京 / 武汉 / 长沙 / 深圳博士后 LLM Runtime

职位详情

你会负责

作为 LLM Serving Runtime 与 KV Cache 能力的核心负责人，参与规划、设计和实现。
构建在线推理 runtime 关键机制，包括 request scheduling、batching、KV Cache 管理、长上下文支持和性能优化。
围绕真实工作负载推动端到端性能闭环，完善 benchmark、profiling 和性能分析方法。
与 compiler、kernel 和 silicon architecture 团队定义执行栈关键接口。
参与原型硬件环境中的 bring-up、debug 和系统迭代。
沉淀可复用的系统设计和工程实践。

我们希望你具备

计算机、电子工程、自动化、数学、计算科学或相关专业博士。
具备操作系统、并发、内存管理、分布式系统或高性能计算基础。
能够独立设计、实现、调试和 profile 复杂系统模块。
熟悉 PyTorch、CUDA、Triton、vLLM、SGLang、TensorRT-LLM 或 DeepSpeed 中至少一种。
理解 prefill / decode、KV Cache、attention、batching、长上下文和多卡部署。
具备良好的抽象能力、协作能力和 ownership。