返回职位列表
LLM Runtime
博士后研究员 - LLM Runtime
负责 LLM Serving Runtime 与 KV Cache 系统,覆盖调度、batching、profiling 和原型硬件环境中的 bring-up。
北京 / 武汉 / 长沙 / 深圳
博士后
LLM Runtime
职位详情
你会负责
- 作为 LLM Serving Runtime 与 KV Cache 能力的核心负责人,参与规划、设计和实现。
- 构建在线推理 runtime 关键机制,包括 request scheduling、batching、KV Cache 管理、长上下文支持和性能优化。
- 围绕真实工作负载推动端到端性能闭环,完善 benchmark、profiling 和性能分析方法。
- 与 compiler、kernel 和 silicon architecture 团队定义执行栈关键接口。
- 参与原型硬件环境中的 bring-up、debug 和系统迭代。
- 沉淀可复用的系统设计和工程实践。
我们希望你具备
- 计算机、电子工程、自动化、数学、计算科学或相关专业博士。
- 具备操作系统、并发、内存管理、分布式系统或高性能计算基础。
- 能够独立设计、实现、调试和 profile 复杂系统模块。
- 熟悉 PyTorch、CUDA、Triton、vLLM、SGLang、TensorRT-LLM 或 DeepSpeed 中至少一种。
- 理解 prefill / decode、KV Cache、attention、batching、长上下文和多卡部署。
- 具备良好的抽象能力、协作能力和 ownership。