
导语KAI Scheduler 源自 Run:ai 核心调度引擎由 NVIDIA 开源并已进入 CNCF Sandbox。此次由「Dynamia 密瓜智能」主导发起的 HAMi-core 相关集成进入 KAI Scheduler 主干为其 GPU sharing 能力补上运行时显存硬隔离。过去一年企业对 AI 基础设施的压力正在从训练大模型转向持续运行 AI 应用。当 Agent、知识库问答、多模态应用和推理服务进入企业生产系统GPU 的问题已经不只是够不够而是能不能被安全地共享。GPU sharing 可以提高利用率但如果调度器分配了显存额度容器运行时却仍然能看到完整 GPU 显存共享就还停留在协作式约束而不是生产级隔离。正是围绕这一生产问题HAMi-core 接入 KAI Scheduler 并补上运行时显存硬隔离能力。这远不是一次单点的技术适配而是「Dynamia 密瓜智能」、HAMi 开源社区与 KAI Scheduler 社区长期技术协同的结果。早在 2025 年 4 月 KubeCon CloudNativeCon Europe 2025 期间「Dynamia 密瓜智能」创始人兼 CEO 张潇、联合创始人兼 CTO 李孟轩便带领其主要发起的 HAMi 项目与 Run:ai / KAI Scheduler 社区围绕 AI 工作负载调度、GPU 共享和资源隔离展开交流。随后相关合作脉络沉淀在 KAI Scheduler 社区 PR #60「Resource isolation design」中并围绕资源隔离架构、组件边界、部署模型、API 设计、用户文档和端到端验证持续推进。从 Run:ai 被收购、KAI Scheduler 开源并进入 CNCF到 HAMi-core 集成进入主干这条时间线也解释了此次合作为什么不是一次孤立适配。这次集成的价值不只在于 HAMi-core 被 KAI Scheduler 采用更在于它把资源隔离落到了生产链路中调度完成之后如何确保每个工作负载在容器运行时真正遵守显存边界。补齐生产级 GPU 共享的关键短板显存硬隔离KAI Scheduler 是 CNCF Sandbox 项目也是 Kubernetes 原生 AI 工作负载调度器。它面向大规模 AI 集群中的训练、推理和多团队资源共享场景支持 Gang Scheduling、层级队列、公平调度、GPU 分片共享、拓扑感知和弹性工作负载等能力。简单说KAI Scheduler 解决的是企业 AI 平台如何在有限 GPU 资源下把任务排得更公平、更稳定、更少浪费。但在 GPU sharing 场景中调度能力解决的是任务放在哪里、分多少资源。KAI Scheduler 的 GPU 分片共享Fractional GPU可以让多个工作负载按比例或按显存大小共享同一张 GPU如果缺少运行时隔离任务真正跑起来后仍可能越界。也就是说调度器可以把账算清楚却不一定能在容器运行时拦住超额使用。这个差别在测试环境里不明显但到了多团队、多租户的生产平台就会变成稳定性和责任边界问题。常见风险包括工作负载可能超额使用显存引发 OOM 或影响同卡其他任务。租户之间缺乏真正的资源边界平台难以形成稳定的服务承诺。GPU 共享虽然提高了利用率但也增加了故障定位和责任划分难度。HAMi-core 的价值就在这里。它通过 CUDA 拦截库在容器级别实现 GPU 显存和算力隔离。接入后KAI Scheduler 负责完成 AI 工作负载调度HAMi-core 在运行时对显存使用边界进行强制约束。此次集成对象严格来说是 HAMi-core而不是完整 HAMi 平台。KAI Scheduler 保留自身调度能力引入 HAMi-core 提供 GPU Memory Isolation 能力。双方形成的是一种清晰、松耦合、可持续演进的技术协作关系。这种分工对企业客户尤为重要。KAI Scheduler 不需要放弃自身调度体系HAMi-core 也不需要替代调度器角色。双方围绕各自最擅长的能力形成闭环使企业在使用 GPU sharing 时既能获得更高资源利用率也能获得更清晰的隔离边界。这使 GPU sharing 从调度层面的资源分配进一步进入运行时层面的硬隔离。对企业 AI 平台来说GPU 共享才更接近可以稳定上线、持续运营的能力。对 KAI Scheduler 社区而言HAMi-core 补足了 GPU sharing 在资源隔离上的关键能力。对 HAMi 生态而言进入 KAI Scheduler 主干使其 GPU 显存硬隔离能力进入更主流的云原生 AI 调度链路后续可在更复杂的多租户场景中接受验证。对企业市场的价值降低 GPU 共享进入生产环境的风险随着训练、推理、微调和 Agent 应用进入企业生产系统GPU 集群正在变成多团队、多租户、多类型任务共同使用的基础设施。平台团队关心的不只是还有多少 GPU而是这些 GPU 能不能被稳定、公平、可追责地共享。GPU sharing 是提升资源利用率的重要方向但企业是否敢于在生产环境中大规模启用 GPU sharing取决于平台能否回答三个问题。第一平台能否限制单个任务的真实显存使用而不是只记录申请值第二某个租户或任务越界时是否会影响同卡其他任务第三平台团队能否基于这些边界形成可解释、可追责的服务承诺这次集成直接回应的是这三个问题。KAI Scheduler 解决任务如何被公平放到合适的 GPU 上HAMi-core 解决任务运行后是否真的守住显存边界。两者结合后GPU 共享不只是节省成本也更接近企业平台可长期运营的能力。对「Dynamia 密瓜智能」而言这个位置也更清楚HAMi 提供开源 GPU 虚拟化与异构算力治理底座公司围绕企业级部署、兼容适配、可观测、运维支持和商业交付推动这些能力进入真实 AI 基础设施场景。对 HAMi 生态和「Dynamia 密瓜智能」的意义从 HAMi 生态角度看HAMi-core 被 KAI Scheduler 采用是一次明确的技术路线验证。它说明 CUDA 拦截与 GPU 显存硬隔离这类底层能力已经被纳入生产级 GPU sharing 的关键链路。它带来的变化可以概括为两点。第一验证 HAMi 技术路线的生产价值GPU 显存隔离是底层能力但它直接影响企业能否安全启用 GPU sharing。KAI Scheduler 社区引入 HAMi-core 补足资源隔离能力说明 HAMi-core 在这一问题上的技术路径具备现实生产价值。第二增强「Dynamia 密瓜智能」面向企业市场的商业信任HAMi 是开源技术底座「Dynamia 密瓜智能」是企业级产品化、生产落地、生态适配与商业服务主体。此次合作把 HAMi 的开源技术影响力与「Dynamia 密瓜智能」的企业级交付价值连接起来也为企业客户评估 GPU 共享方案提供了更清晰的参考。结语GPU 共享的下一步是从能分配走向可治理当 AI 工作负载进入生产系统GPU 共享的核心问题已经不只是能不能分而是分出去之后能不能守住边界。HAMi-core 接入 KAI Scheduler把调度、共享和运行时隔离放进同一条生产链路中也释放出一个更清晰的行业信号AI 基础设施的竞争正在从单点资源效率走向面向多租户、多任务和异构算力的系统化治理能力。HAMi 是 CNCF 托管的开源项目与社区核心方向是 GPU 虚拟化与异构算力调度面向 AI 场景提升算力利用效率其目标是实现 灵活、按需、弹性、可靠 的 GPU 虚拟化并持续扩展对主流 AI 芯片生态的支持。「密瓜智能Dynamia 」专注 GPU 虚拟化与异构算力调度发起并主导 CNCF 开源项目 HAMi同时基于 HAMi 提供商业发行版、企业产品与服务帮助用户在真实业务中规模化使用相关能力官网dynamia.ai邮箱infodynamia.aiHAMi 项目地址https://github.com/project-hami/hami原文地址https://mp.weixin.qq.com/s/aJ5D5EqGWb2bd2QOlR5MPg本文作者「Dynamia密瓜智能」本文侧重介绍此次生态合作的行业背景、企业价值与战略意义。完整技术实现、安装方式、参数配置和使用方法可前往 HAMi 社区阅读技术版文档https://project-hami.io/zh/blog/hami-core-adopted-by-nvidia-kai-scheduler