CAE/CFD
人工智能
生命科学
云工作站
更多案例
背景介绍

Volvo Cars在瑞典哥德堡的汽车工艺部门需要使用大量CAE仿真计算,原有的本地HPC集群的处理能力无法跟上快速的计算量增长,于是在2018年同AWS合作在AWS瑞典斯德哥尔摩Region建立了一套云上的HPC集群。

问题描述

使用成本高

该AWS HPC集群使用按量弹性计费模式,同等效率CAE运算成本约是本地HPC的2倍。

需求与成本难平衡

由于受财务部门对预算的限制,该HPC集群大小被限制在500台c5.9xlarge,面临大型计算任务时算力不足需要排队。

学习成本高

云算力的使用方式与原有Moab Workload Manager方式差异大,造成使用方学习成本过高,无法及时形成战斗力。

结果

优化设计架构

使用北鲲云私有化部署代替原有的AWS Parallel Cluster,定制化开发了对Moab的扩展,降低使用难度,具备更大的灵活性。

降低使用成本

全面使用闲置资源代替按量资源支持节点规格从仅有c5.9xlarge变为10多种,由北鲲云根据实时价格及资源水位自动在5个地域中选择。

开启弹性算力

将AWS欧洲其它4个地域也纳入集群搭建Direct Connect Gateway,将5个地域一起组成独立的VPC子网。 北鲲云支持的并行计算节点数量由500变为5000,峰值算力提高十倍。

CAE/CFD部署架构
解决方案

单位运行成本降低

65%

作业排队时间趋近于

0

作业执行时间缩短

30%

背景介绍

H&M x AI 是H&M集团旗下AI科技部门,位于瑞典斯德哥尔摩,它主要为H&M提供基于人工智能的时尚零售业分析与预测。 该部门各个小组间各自独立使用不同的节点来执行自己的训练作业,同时使用微软云及AWS。

问题描述

算力的需求越来越强烈

各个小组各自管理自己的计算节点,随着该部门人员的快速增长以及更多更频繁训练,对GPU及CPU算力规模需求越来越大,每3个月云上机器规模增长一倍

管理成本高昂

不同训练任务经常需要重新安装依赖包,并频繁出现版本冲突,比如Python 版本。训练任务启动前需手动评估/查看剩余资源情况,再指定作业计算资源配置,对算法工程师是一个很大的负担

解决方案

各使用一个统一的分布式平台,整合各个资源池,统一调度并分配资源,并以Docker容器的形式将训练任务打包隔离及部署 — 高级分析平台

具体方案
使用北鲲云私有化部署来统一管理AWS及AZURE上的资源
使用Kubernetes 作为作业调度管理器,全面支持docker容器
使用Kubeflow 增强K8S对机器学习类任务的支持,支持tensorflow分布式训练
全面使用闲置资源代替按量资源
使用统一Docker镜像库,存储机器学习框架镜像,如不同版本Tensorflow, Pytorch
人工智能逻辑架构
人工智能部署架构
结果

弹性扩展算力规模训练效率提升

45%

训练结束自动释放资源浪费减少

30%

单位费用降低

70%

部署安装自动化管理成本大幅降低

降低

背景介绍

Salipro Biotech AB是一家位于瑞典的新型生物科技研发公司,主要向其它制药公司提供膜蛋白稳定的平台与技术。 该公司业务发展迅速,急需一个弹性的计算平台用于研发工作。

问题描述

开箱即用,无需IT专业人员运维

该新型生物科技公司绝大部分员工为医学研究人员,不打算招聘专职的IT人员维护计算集群。

灵活弹性的计算平台,在需要时能快速扩容到千级节点,在不需要时节点收缩到0,不产生费用

该公司业务同它的客户密切相关,有客户需求时需要快速启动计算集群,反之它不希望产生任何意外费用。

解决方案
使用北鲲云全托管算力平台满足用户需求,计算全部使用公有云。
跟客户之间以固定的CPU小时价格出售计算资源,按实际使用的CPU小时数计费。
在客户工作机器上安装北鲲云客户端软件,用户通过客户端GUI界面执行数据传输及作业执行操作,简单易用。
结果

简单易用

经过简单的培训,研究人员即可使用算力平台进行研究工作。

费用低

比直接使用某个云厂商的方案要便宜50%以上。

背景介绍

深圳云穹科技为多达20万跨境电商卖家提供卖家账户安全防护系统,是中国最大的跨境电商服务商,为保障客户账户安全,它需要为每个账户提供完全独立的工作站系统。

由于业务发展迅猛,原有的私有数据中心无法跟上业务的发展,它开始使用公有云作为工作站系统的解决方案。

问题描述

公有云包月计费成本太高,闲置资源不稳定威胁整体业务

该公司首先使用包月计费的模式来创建云工作站,但是成本始终居高不下,于是开始尝试使用闲置资源,但是接连发生了几次事故如阿里云东京地域全部中断,客户数据丢失,被客户索赔高额费用等威胁整体业务的情况。

非工作时间工作站闲置,资源浪费

工作站每天大约使用的时间在12小时左右,其它时间处于闲置状态,资源浪费严重。

解决方案
使用北鲲云全托管算力平台满足工作站需求, 使用全部5大公有云的绝大部分地域。
北鲲云使用闲置资源创建工作站,并保障数据安全。
客户使用自定制的资源管理系统同云端算力整合API进行对接,在使用时启动工作站,在非工作时间释放工作站并停止收费。
结果

安全稳定的使用闲置资源 并解决资源浪费问题

经过简单的培训,研究人员即可使用算力平台进行研究工作。

大规模工作站集群

客户在云端的工作站集群现在超过25000台,每日启停次数超过5万次,使用了5个云的近40个地域,完美的验证了北鲲云对大规模集群的管理能力。

生命科学/基因测序
影视与动漫制作
汽车CAE与CFD

某生物基因企业

1. 因本地算力不足,一键切换至北鲲云平台

2. TB级文件百倍数据传输速度爆发式上云

3. 10分钟开启1000台云主机,计算效率提升5倍

4. 自主扩展作业管理工具,执行人员节省30%工时

5. 原计划计算时间15天,实际计算时间3天,成本节省45%

某全流程高端影视特效工作室

1. 4K镜头需要8K渲染,且时间紧迫,本地渲染工作量高达1000天

2. 启用北鲲云平台混合渲染方案,启动4000台云主机

3. 通过Deadline ‘Jigsaw’将帧分割成多个小区域,智能筛选CPU及GPU进行并行渲染,效率提升200倍

4.最终将实际渲染时间缩短到3天,成本节省50%

某智能汽车企业

1. 接入北鲲云平台并扩展Abaqus等CAE应用,当天即可开始仿真计算

2. 自动执行Benchmark性能基准测试,筛选最优机型匹配,效率提高30%

3. 按照项目计算峰谷排期,通过北鲲云平台智能调度算力,5个月实现车辆小改型的分析与定性,成本节省70%