京东云推出创新vGPU池化方案，助力大型模型高效训练与推理-AI大模型-发现者网

【发现者网】8月16日消息，京东云近日发布了全新的vGPU池化方案，该方案旨在为用户提供高效的GPU算力管理解决方案，以降低成本、提高资源利用率，进一步推动大型模型训练与推理任务的效率提升。

根据京东云的官方介绍，这项创新方案的最大亮点在于其能够一站式提供GPU算力池化能力，有效地应对多种AI应用需求。该方案在现有的混合多云CPU算力池化能力基础上，针对大模型训练所需的泛算力池化能力进行了进一步增强，还加强了对AI应用的调度管理能力，涵盖卡管理、节点管理、异构资源调度等。

其中，京东云表示这一方案具备四大优势。首先，在算力切分方面，该方案支持灵活的任意比例切分和动态调整机制，实现了按显卡算力和显存做细粒度切分，这意味着一张物理卡可以供多个容器使用，而性能衰减仅在2%以内。其次，在配额管理方面，用户可以根据显卡型号或标签进行灵活的配额管理，从而确保资源能够按需分配，提高了推理的稳定性和训练的性能。此外，这一方案还具备多场景适配能力，能够适配主流CUDA版本和不同的GPU芯片，同时兼容业界主流的AI训练框架，如TensorFlow和PyTorch。最后，在多节点管理方面，该方案支持节点虚拟分组和节点组指定应用使用，全面提升了大型模型训练的效率。

据发现者网了解，开发者可以根据具体的卡型号申请资源，按照算力和显存进行切分，并由控制器根据用户设定的调度策略进行动态调整。这些资源仅在训练、微调和推理任务启动时进行动态分配，在任务结束后立即释放，同时支持多任务算力隔离和任务冷启动。