GPU智算云平台是一个现代化的、基于Kubernetes的云平台,基于行业领先的灵活的基础设施及大规模的GPU 算力资源,为客户提供开放、高性能、高性价比的算力云服务,助力AI客户模型构建、训练和推理的业务全流程,以及教科研客户科研创新加速。旨在为科研工作者、工程师和创新者提供无与伦比的计算解决方案,其 速度可比传统云服务提供商快35倍,成本降低30%。
针对大模型训练场景,平台将运行环境、模型、 训练框架等打包到容器中,并通过定制化Kubernetes容器 编排工具进行容器的调度、管理和扩展,可以解决开发环 境设置以及运维和管理问题,让算法工程师能够使用统一 的环境模板进行开发,免除了初期大量的开发环境设置, 以及在新的环境中管理新的算力资源的问题,为用户提供 开箱即用的大模型训练、推理平台。 除此之外,针对大模型训练中遇到的容器进程死机、大规 模分布式训练中GPU驱动丢失、GPU硬件损坏、甚至是计 算节点宕机等难题,都做了定制化设计,为以上难题提供 了自动化调度和强大的自愈能力,实现了更高的开发和训 练效率以及整体资源利用率。