Volvo Cars在瑞典哥德堡的汽车工艺部门需要使用大量CAE仿真计算,原有的本地HPC集群的处理能力无法跟上快速的计算量增长,于是在2018年同AWS合作在AWS瑞典斯德哥尔摩Region建立了一套云上的HPC集群。
使用成本高
该AWS HPC集群使用按量弹性计费模式,同等效率CAE运算成本约是本地HPC的2倍。
需求与成本难平衡
由于受财务部门对预算的限制,该HPC集群大小被限制在500台c5.9xlarge,面临大型计算任务时算力不足需要排队。
学习成本高
云算力的使用方式与原有Moab Workload Manager方式差异大,造成使用方学习成本过高,无法及时形成战斗力。
优化设计架构
使用北鲲云私有化部署代替原有的AWS Parallel Cluster,定制化开发了对Moab的扩展,降低使用难度,具备更大的灵活性。
降低使用成本
全面使用闲置资源代替按量资源支持节点规格从仅有c5.9xlarge变为10多种,由北鲲云根据实时价格及资源水位自动在5个地域中选择。
开启弹性算力
将AWS欧洲其它4个地域也纳入集群搭建Direct Connect Gateway,将5个地域一起组成独立的VPC子网。 北鲲云支持的并行计算节点数量由500变为5000,峰值算力提高十倍。
单位运行成本降低
65%
作业排队时间趋近于
0
作业执行时间缩短
30%
H&M x AI 是H&M集团旗下AI科技部门,位于瑞典斯德哥尔摩,它主要为H&M提供基于人工智能的时尚零售业分析与预测。 该部门各个小组间各自独立使用不同的节点来执行自己的训练作业,同时使用微软云及AWS。
算力的需求越来越强烈
各个小组各自管理自己的计算节点,随着该部门人员的快速增长以及更多更频繁训练,对GPU及CPU算力规模需求越来越大,每3个月云上机器规模增长一倍
管理成本高昂
不同训练任务经常需要重新安装依赖包,并频繁出现版本冲突,比如Python 版本。训练任务启动前需手动评估/查看剩余资源情况,再指定作业计算资源配置,对算法工程师是一个很大的负担
各使用一个统一的分布式平台,整合各个资源池,统一调度并分配资源,并以Docker容器的形式将训练任务打包隔离及部署 — 高级分析平台
弹性扩展算力规模训练效率提升
45%
训练结束自动释放资源浪费减少
30%
单位费用降低
70%
部署安装自动化管理成本大幅降低
降低
Salipro Biotech AB是一家位于瑞典的新型生物科技研发公司,主要向其它制药公司提供膜蛋白稳定的平台与技术。 该公司业务发展迅速,急需一个弹性的计算平台用于研发工作。
开箱即用,无需IT专业人员运维
该新型生物科技公司绝大部分员工为医学研究人员,不打算招聘专职的IT人员维护计算集群。
灵活弹性的计算平台,在需要时能快速扩容到千级节点,在不需要时节点收缩到0,不产生费用
该公司业务同它的客户密切相关,有客户需求时需要快速启动计算集群,反之它不希望产生任何意外费用。
简单易用
经过简单的培训,研究人员即可使用算力平台进行研究工作。
费用低
比直接使用某个云厂商的方案要便宜50%以上。
深圳云穹科技为多达20万跨境电商卖家提供卖家账户安全防护系统,是中国最大的跨境电商服务商,为保障客户账户安全,它需要为每个账户提供完全独立的工作站系统。
由于业务发展迅猛,原有的私有数据中心无法跟上业务的发展,它开始使用公有云作为工作站系统的解决方案。
公有云包月计费成本太高,闲置资源不稳定威胁整体业务
该公司首先使用包月计费的模式来创建云工作站,但是成本始终居高不下,于是开始尝试使用闲置资源,但是接连发生了几次事故如阿里云东京地域全部中断,客户数据丢失,被客户索赔高额费用等威胁整体业务的情况。
非工作时间工作站闲置,资源浪费
工作站每天大约使用的时间在12小时左右,其它时间处于闲置状态,资源浪费严重。
安全稳定的使用闲置资源 并解决资源浪费问题
经过简单的培训,研究人员即可使用算力平台进行研究工作。
大规模工作站集群
客户在云端的工作站集群现在超过25000台,每日启停次数超过5万次,使用了5个云的近40个地域,完美的验证了北鲲云对大规模集群的管理能力。
某生物基因企业
1. 因本地算力不足,一键切换至北鲲云平台
2. TB级文件百倍数据传输速度爆发式上云
3. 10分钟开启1000台云主机,计算效率提升5倍
4. 自主扩展作业管理工具,执行人员节省30%工时
5. 原计划计算时间15天,实际计算时间3天,成本节省45%
某全流程高端影视特效工作室
1. 4K镜头需要8K渲染,且时间紧迫,本地渲染工作量高达1000天
2. 启用北鲲云平台混合渲染方案,启动4000台云主机
3. 通过Deadline ‘Jigsaw’将帧分割成多个小区域,智能筛选CPU及GPU进行并行渲染,效率提升200倍
4.最终将实际渲染时间缩短到3天,成本节省50%
某智能汽车企业
1. 接入北鲲云平台并扩展Abaqus等CAE应用,当天即可开始仿真计算
2. 自动执行Benchmark性能基准测试,筛选最优机型匹配,效率提高30%
3. 按照项目计算峰谷排期,通过北鲲云平台智能调度算力,5个月实现车辆小改型的分析与定性,成本节省70%