北鲲云客户案例

背景介绍

Volvo Cars在瑞典哥德堡的汽车工艺部门需要使用大量CAE仿真计算，原有的本地HPC集群的处理能力无法跟上快速的计算量增长，于是在2018年同AWS合作在AWS瑞典斯德哥尔摩Region建立了一套云上的HPC集群。

问题描述

使用成本高

该AWS HPC集群使用按量弹性计费模式，同等效率CAE运算成本约是本地HPC的2倍。

需求与成本难平衡

由于受财务部门对预算的限制，该HPC集群大小被限制在500台c5.9xlarge，面临大型计算任务时算力不足需要排队。

学习成本高

云算力的使用方式与原有Moab Workload Manager方式差异大，造成使用方学习成本过高，无法及时形成战斗力。

结果

优化设计架构

使用北鲲云私有化部署代替原有的AWS Parallel Cluster，定制化开发了对Moab的扩展，降低使用难度，具备更大的灵活性。

降低使用成本

全面使用闲置资源代替按量资源支持节点规格从仅有c5.9xlarge变为10多种，由北鲲云根据实时价格及资源水位自动在5个地域中选择。

开启弹性算力

将AWS欧洲其它4个地域也纳入集群搭建Direct Connect Gateway，将5个地域一起组成独立的VPC子网。北鲲云支持的并行计算节点数量由500变为5000，峰值算力提高十倍。

CAE/CFD部署架构

解决方案

单位运行成本降低

65%

作业排队时间趋近于

0

作业执行时间缩短

30%

背景介绍

H&M x AI 是H&M集团旗下AI科技部门，位于瑞典斯德哥尔摩，它主要为H&M提供基于人工智能的时尚零售业分析与预测。该部门各个小组间各自独立使用不同的节点来执行自己的训练作业，同时使用微软云及AWS。

问题描述

算力的需求越来越强烈

各个小组各自管理自己的计算节点，随着该部门人员的快速增长以及更多更频繁训练，对GPU及CPU算力规模需求越来越大，每3个月云上机器规模增长一倍

管理成本高昂

不同训练任务经常需要重新安装依赖包，并频繁出现版本冲突，比如Python 版本。训练任务启动前需手动评估/查看剩余资源情况，再指定作业计算资源配置，对算法工程师是一个很大的负担

解决方案

各使用一个统一的分布式平台，整合各个资源池，统一调度并分配资源，并以Docker容器的形式将训练任务打包隔离及部署 — 高级分析平台

具体方案

使用北鲲云私有化部署来统一管理AWS及AZURE上的资源

使用Kubernetes 作为作业调度管理器，全面支持docker容器

使用Kubeflow 增强K8S对机器学习类任务的支持，支持tensorflow分布式训练

全面使用闲置资源代替按量资源

使用统一Docker镜像库，存储机器学习框架镜像，如不同版本Tensorflow, Pytorch

人工智能逻辑架构

人工智能部署架构

结果

弹性扩展算力规模训练效率提升

45%

训练结束自动释放资源浪费减少

30%

单位费用降低

70%

部署安装自动化管理成本大幅降低

降低

背景介绍

Salipro Biotech AB是一家位于瑞典的新型生物科技研发公司，主要向其它制药公司提供膜蛋白稳定的平台与技术。该公司业务发展迅速，急需一个弹性的计算平台用于研发工作。

问题描述

开箱即用，无需IT专业人员运维

该新型生物科技公司绝大部分员工为医学研究人员，不打算招聘专职的IT人员维护计算集群。

灵活弹性的计算平台，在需要时能快速扩容到千级节点，在不需要时节点收缩到0，不产生费用

该公司业务同它的客户密切相关，有客户需求时需要快速启动计算集群，反之它不希望产生任何意外费用。

解决方案

使用北鲲云全托管算力平台满足用户需求，计算全部使用公有云。

跟客户之间以固定的CPU小时价格出售计算资源，按实际使用的CPU小时数计费。

在客户工作机器上安装北鲲云客户端软件，用户通过客户端GUI界面执行数据传输及作业执行操作，简单易用。

结果

简单易用

经过简单的培训，研究人员即可使用算力平台进行研究工作。

费用低

比直接使用某个云厂商的方案要便宜50%以上。

背景介绍

深圳云穹科技为多达20万跨境电商卖家提供卖家账户安全防护系统，是中国最大的跨境电商服务商，为保障客户账户安全，它需要为每个账户提供完全独立的工作站系统。

由于业务发展迅猛，原有的私有数据中心无法跟上业务的发展，它开始使用公有云作为工作站系统的解决方案。

问题描述

公有云包月计费成本太高，闲置资源不稳定威胁整体业务

该公司首先使用包月计费的模式来创建云工作站，但是成本始终居高不下，于是开始尝试使用闲置资源，但是接连发生了几次事故如阿里云东京地域全部中断，客户数据丢失，被客户索赔高额费用等威胁整体业务的情况。

非工作时间工作站闲置，资源浪费

工作站每天大约使用的时间在12小时左右，其它时间处于闲置状态，资源浪费严重。

解决方案

使用北鲲云全托管算力平台满足工作站需求，使用全部5大公有云的绝大部分地域。

北鲲云使用闲置资源创建工作站，并保障数据安全。

客户使用自定制的资源管理系统同云端算力整合API进行对接，在使用时启动工作站，在非工作时间释放工作站并停止收费。

结果

安全稳定的使用闲置资源并解决资源浪费问题

经过简单的培训，研究人员即可使用算力平台进行研究工作。

大规模工作站集群

客户在云端的工作站集群现在超过25000台，每日启停次数超过5万次，使用了5个云的近40个地域，完美的验证了北鲲云对大规模集群的管理能力。

生命科学/基因测序

影视与动漫制作

汽车CAE与CFD

某生物基因企业

1. 因本地算力不足，一键切换至北鲲云平台

2. TB级文件百倍数据传输速度爆发式上云

3. 10分钟开启1000台云主机，计算效率提升5倍

4. 自主扩展作业管理工具，执行人员节省30%工时

5. 原计划计算时间15天，实际计算时间3天，成本节省45%

某全流程高端影视特效工作室

1. 4K镜头需要8K渲染，且时间紧迫，本地渲染工作量高达1000天

2. 启用北鲲云平台混合渲染方案，启动4000台云主机

3. 通过Deadline ‘Jigsaw’将帧分割成多个小区域，智能筛选CPU及GPU进行并行渲染，效率提升200倍

4.最终将实际渲染时间缩短到3天，成本节省50%

某智能汽车企业

1. 接入北鲲云平台并扩展Abaqus等CAE应用，当天即可开始仿真计算

2. 自动执行Benchmark性能基准测试，筛选最优机型匹配，效率提高30%

3. 按照项目计算峰谷排期，通过北鲲云平台智能调度算力，5个月实现车辆小改型的分析与定性，成本节省70%