本篇文章2833字,读完约7分钟
在人工智能于年初首次写入政府工作报告后,国务院最近发布了中国首个人工智能计划——“新一代人工智能发展计划”,人工智能从技术热点上升为国家战略。作为智能计算的领导者,最近发布了m5新一代服务器,推出了通用、融合架构、应用优化和关键业务四大系列35个产品,为云计算、大数据和深度学习三大应用场景提供了业界最丰富的产品系列,为国家人工智能战略的发展提供了极其丰富的计算平台。
浪潮爱产品系列
人工智能是Inspur智能计算的焦点
新一代m5体现了潮流中的一个重要变化,即服务器设计从平衡走向完美,注重应用/场景的极端设计理念,从而有力推动智能计算业务的可持续发展。智能计算是Inspur目前最重视的高增长业务。它以云计算为基础平台,以大数据为认知方法,以深度学习为优化工具。其核心是cbd(云计算、大数据、深度学习)。从组件的角度来看,智能计算和人工智能有高度的重叠。我们应该知道,目前引起人工智能热潮的三个重要因素是超大规模计算能力、爆炸性的数据增长和机器学习,尤其是深度学习算法的出现。
智能计算的三个关键要素
可以说,将人工智能视为Inspur智能计算业务的重点并不夸张,在这一领域的成功也将帮助Inspur实现成为世界三大服务器制造商之一的目标。根据埃森哲发布的研究报告,人工智能有潜力在2035年将中国经济的总增加值提高7.111万亿美元,从6.3%提高到7.9%。对现代人工智能影响深远的科学家于尔根·施密德胡伯教授认为,人工智能将改造几乎所有行业,包括金融、医疗、汽车、消费、娱乐等领域。毫无疑问,谁能赢得人工智能,谁就能赢得未来。
在我们到达万物人工智能时代的大门之前,我们如何通过计算推开这扇门?Inspur m5新一代服务器的发布将带来全新的人工智能计算体验。它构建了业内最全面的人工智能产品线,在部署密度、峰值性能和硬件去耦方面处于领先水平,比上一代产品高出1.5倍。
处理人工智能计算增长的问题
m5系列强调的极端和灵活特性更好地满足了人工智能的计算需求。我们常说,人工智能对计算能力的需求是无穷无尽的,但在实际应用中并非总是如此。尽管人类社会的数据总量仍在爆炸式增长,但可用于深度学习训练的标记数据却无法快速增长。因此,许多从事人工智能研究和应用的用户必须考虑灵活性的问题:当初始阶段的训练数据总量不大时,可以使用小规模的人工智能计算平台;随着训练数据的扩展,人工智能计算平台可以轻松扩展。
被称为m5系列人工智能超级计算机的Nf5288m5(agx-2)具有良好的人工智能计算扩展能力。这是世界上第一台在2u空机房集成了8个高速互连gpu加速器的服务器。它在单位计算密度上表现出一个非常明显的极端,但它也可以支持2-8个卡的按需扩展,用户可以根据模型进行训练。agx-2具有良好的i/o扩展能力,GPUs之间的互连带宽高达150gb/s,它提供8个nvme/sas/sata热插拔硬盘,可以支持高达4个edrinfiniband接口卡的100gbps的高速集群互连。
Inspur发布了世界上密度最高、性能最强的ai服务器nf5288m5
Gx4,另一个新的人工智能加速计算产品,可以灵活扩展。实现了协处理器和cpu计算资源的解耦和重构,突破了传统ai计算设备的8卡扩展限制,实现了更高的单机计算性能。每个gx4可以在2u空机房支持4个加速卡,单个服务器可以连接多达4个gx4,以实现单个16卡加速计算池。这种独立的加速计算模块设计大大提高了系统部署的灵活性,可以轻松实现2-16卡的高扩展性,也可以通过改变服务器和扩展模块之间的链接方式,实现快速灵活的拓扑转换,使计算架构更符合上层应用。
超大规模人工智能计算的终极满足
对于那些已经拥有超大规模数据和复杂神经网络的用户来说,人工智能计算平台越强越好。m5系列Sr-ai cabinet是一个超大规模的人工智能计算平台,适用于较大数据集和深度神经网络,能够有效支持复杂的深度学习离线模型训练任务,适用于图像识别、语音识别、自然语言处理和搜索排序等人工智能应用。
Sr-ai整体机柜是世界上第一个采用pcie结构互连架构设计的ai方案。它的i/o盒可以扩展到支持单个节点上的16个图形处理器,它可以通过pci-e交换机级联4个盒和64个图形处理器,峰值处理能力为512个触发器。
同时,传统的人工智能计算设备集群需要通过高速网络来实现数据交互,这将带来超出用户水平的延迟。sr-ai机柜中的gpu盒之间的互连是通过pci-e交换机实现的,借助gpudirectrdma技术,可以大大降低跨节点的GPU之间的通信延迟,实现ns级网络延迟。
关注人工智能上层建筑
除了在底层架构层面关注人工智能的计算需求之外,Inspur还从人工智能软件实现、框架优化和应用加速等方面着手解决人工智能计算中的各种复杂问题。目前,深度学习的模型训练往往有一个漫长的过程和复杂的开发环境,涉及到数据准备和处理、特征工程、建模、参数调整等多个步骤,以及多个框架和模型,每个步骤都依赖于不同的环境,可以交叉使用。更大的难点是深度学习模式通常需要很长时间来训练,从几个小时到几天不等。过去,只有在培训结束后才意识到模型存在问题,这极大地消耗了用户的精力和时间。
为此,Inspur自主开发了aistation深度学习系统管理平台、teye应用特性分析系统和caffe-mpi深度学习并行计算框架,同时不断增强gpu、mic和fpga三种异构计算平台下的应用加速能力,帮助用户完成ai应用的迁移和优化。
突破传统,创新研发
Inspur之所以能够打破服务器平衡设计的束缚,开发出一系列接近应用场景的人工智能计算产品,是因为jdm(加入设计制造)模式。这是一种不同于oem和odm的新商业模式,即面向应用、产业链整合、与客户联合定制,可以创造更大的商业价值。同时,jdm模式也使Inspur建立了一个不可逾越的竞争壁垒,因为这种能力很难复制,需要长期的经验积累和持续的技术资源投资,同时还要关注客户并准确了解他们的需求,而这仅靠投资是无法实现的。
目前,jdm模式主要集中在Inspur和互联网客户之间。以Inspur与百度的合作为例,双方从单纯的产品合作向R&D模式和生产模式推进,使硬件产品和软件算法从R&D和设计阶段接触和磨合,使开发出来的人工智能计算产品更符合业务需求,最大化人工智能计算能力和创新能力。Inspur两次获得百度发布的服务器领域唯一的技术创新奖,可以说是对jdm模式的最好诠释。
可以说,Inspur是一个隐藏在许多大型互联网公司背后的产品研发部门。至关重要的是,在这一联合创新的背后,它不仅代表了最前沿的技术要求,还意味着Inspur必须具备快速交付和定制及个性化解决方案的强大能力。
培育具有无限可能性的人工智能将是一场没有既定方向的长跑。对于在中国占据60%份额的人工智能解决方案浪潮,只有保持强大的创新能力和准确的趋势预测,我们才能继续领先。
标题:看浪潮M5如何应对“万物AI时代”
地址:http://www.ar7y.com/aelxw/10600.html