返回职位列表

LLM Runtime

博士后研究员 - LLM Runtime

负责 LLM Serving Runtime 与 KV Cache 系统,覆盖调度、batching、profiling 和原型硬件环境中的 bring-up。

北京 / 武汉 / 长沙 / 深圳 博士后 LLM Runtime

职位详情

你会负责

  • 作为 LLM Serving Runtime 与 KV Cache 能力的核心负责人,参与规划、设计和实现。
  • 构建在线推理 runtime 关键机制,包括 request scheduling、batching、KV Cache 管理、长上下文支持和性能优化。
  • 围绕真实工作负载推动端到端性能闭环,完善 benchmark、profiling 和性能分析方法。
  • 与 compiler、kernel 和 silicon architecture 团队定义执行栈关键接口。
  • 参与原型硬件环境中的 bring-up、debug 和系统迭代。
  • 沉淀可复用的系统设计和工程实践。

我们希望你具备

  • 计算机、电子工程、自动化、数学、计算科学或相关专业博士。
  • 具备操作系统、并发、内存管理、分布式系统或高性能计算基础。
  • 能够独立设计、实现、调试和 profile 复杂系统模块。
  • 熟悉 PyTorch、CUDA、Triton、vLLM、SGLang、TensorRT-LLM 或 DeepSpeed 中至少一种。
  • 理解 prefill / decode、KV Cache、attention、batching、长上下文和多卡部署。
  • 具备良好的抽象能力、协作能力和 ownership。