当前位置:首页 > 新闻 > 正文

2019全球人工智能应用创新峰会召开,解密最热AI“芯”话题

发布时间: 2019-04-10 21:30     来源: 雷克世界

2019年4月9日,第二届全球人工智能应用创新峰会在深圳五洲宾馆举行。本次峰会由深圳市科学技术协会、福田区科技创新局主办,鲲云科技、鲲云人工智能应用创新研究院和源创力创新中心承办。在这场盛会上,AI领域的权威专家和知名企业家分别分享了人工智能前沿技术突破和人工智能落地应用的新进展。此外,作为峰会承办方的鲲云科技发布了全球第一款基于数据流技术打造的通用人工智能底层架构-定制数据流CAISA架构和端到端自动编译工具链RainBuilder,实现了国内完全自主产权的AI芯片架构,为人工智能算法的快速应用落地提供了高性能算力支撑。
 
 
 
前沿交流,国际AI领域权威分享人工智能前沿技术突破
 
作为年度重量级AI峰会,此次活动汇聚了政府领导、全球人工智能领域顶尖学术大师、世界顶级科技企业、互联网巨头,产业界、投资界行业领袖,共同探讨人工智能实战落地和产学研发展方向。整个峰会由政府致辞、主题演讲和产业论坛三个环节组成。几位人工智能领域的国际权威分享了各自领域的最新进展和应用方向。
 
贡三元教授
 
IEEE终身会士Sun Yuan Kung(贡三元)教授是人工智能神经网络学界大咖。在此次峰会上,他分享了反向传播算法问题及这些问题的解决策略。贡教授表示,AI1.0并不是使用神经网络,而是了解了知识,是基于专家知识的系统。但专家也有可能犯错。Al2.0通过大数据多多少少解决了这些问题,却依然无法学习架构。今年的图灵奖授予了发明反向传播算法(即BP算法)的Geoffrey Hinton教授,而BP算法正是深度学习的基石之一。然而,它也存在不可解释性和梯度消失等缺陷,会将深度学习网络变成了一个无法理解的“黑盒子”,并且使得网络深度增加时的学习能力降低,从而难以完成算法的训练。为了解决这一问题,贡教授团队提出了神经网络3.0,可以学习内部神经元架构。贡教授还表示,AI领域中最重要的四个方面是芯片、算法、应用和云。相比于其他三项,国内目前在芯片方面比较薄弱。而将神经网络3.0应用到芯片中,能够更好地提高芯片的性能并降低功耗。
 
陆永青院士
 
英国皇家工程院院士、帝国理工学院院士陆永青是鲲云科技的联合创始人兼CSO,是定制计算领域的国际权威。他进行了关于“定制计算的可验证性”的主题分享。定制计算是可重构计算的一个重要分支,此次分享陈述了神经网络在运行时的功能准确性验证。虽然神经网络已经在许多领域中得到了有效应用和落地,但其底层的运行机制导致深度学习网络很难用数学进行完全的解释。为了避免神经网络输入噪音而造成推断结果的错误,陆院士提出了一种基于可重构硬件对推断结果进行验证的方法。这种验证方法通过使用少量的硬件资源,在电路中对推断过程的功能、数据和时序进行监控,从而有效地检测出推断过程中可能产生的错误。
 
魏少军教授
 
IEEE会士、中国电子学会会士、清华大学教授魏少军是中国芯片领域的领军人物。此次,他进行了题为“软件定义芯片:一种引向智能计算的方式”的分享。他介绍了一个可通过软件定义芯片的架构和设计。与传统的CPU、FPGA和ASIC设计相比,该架构可实现软件编程和硬件编程的高效结合。该架构设计允许硬件随着软件的变化实时动态地改变芯片功能。其核心设计原理是通过粗粒度的可重构架构来实现软件对硬件算子的调用。Thinker芯片便是基于此设计理念所实现的,该芯片将这种软件可定义的硬件设计应用于AI算法中,可显著提高运算的性能、功效和算法兼容性。
Viktor K. Prasanna教授
 
IEEE会士、ACM会士、南加州大学教授Viktor K. Prasanna是FPGA边缘计算领域的国际专家。他分享了一种轻量化FPGA计算架构在边缘AI边缘计算中的应用。该架构使用HIVE处理器和SHARP软件框架,构建了一个基于FPGA的高性能AI加速器。其核心是通过对模型运算进行分区,从而实现对实际AI应用中有效数据区域的高速处理,避免了无效运算。除此之外,该FPGA加速器会在数据处理前,通过数据频域转换分析数据的稀疏策略,进一步实现有效数据的稀疏化处理并在系统运行时对模型进行剪枝、量化等性能优化,从而使得FPGA运行性能得到显著提高。
 
Cristina Silvano教授
 
IEEE会士、米兰理工大学计算机工程教授Cristina Silvano介绍了一种高性能集群系统(mARGOt)通过自动调节达到性能优化的方法。该优化过程可根据运行时的状态,自动调整应用程序的运行参数,从而实现对系统性能的优化。通过历史数据信息,将应用中的关键性能参数提取出来并生成性能参考数据库。当系统运行时,可根据具体场景信息和参考数据对核心性能参数及内核运行状态进行实时的动态调节,以达到系统对于场景的自适应,从而在实际场景中针对应用领域实现性能优化,例如新型药物研发和智能城市自适应导航系统等。
 
樊文飞院士
 
英国皇家学会会士、欧洲科学院院士、爱丁堡大学信息学院主任教授樊文飞分享了如何将多种并行图引擎应用于大数据分析场景。传统并行的图引擎优化难度大且成本较高,难以在实际场景中得到大规模应用。为了解决这一问题,樊院士将分布式的思想引入并行图查询引擎中,并以此为基础开发了一种分布式并行图处理系统。其核心思想是通过最小化重复的计算和操作以实现增量查询。系统中采用了一种新的自适应异步并行机制(AAP)调节不同进程之间的协作以提升整体性能。该系统应用于社交媒体、智库、欺诈检查等多种应用场景和领域。
 
重量专家,AI加速行业落地进行时
 
除了院士、会士嘉宾的学术分享以外,Intel PSG战略市场总监的Tony Kau和浪潮人工智能与产品总经理刘军也分享了英特尔和浪潮在人工智能的落地应用以及创新技术等方面的技术革新和新进展。
 
Intel PSG人工智能、软件和IP产品市场总监Tony Kau
 
随着深度学习算法的不断发展,AI对算力的需求也越来越高,为异构计算加速的发展提供了土壤。2018年底,英特尔在重庆成立了全球最大的FPGA创新中心,在AI领域动作有很多亮眼的动作,此次峰会上,Tony Kau就英特尔FPGA在人工智能的落地应用进行了分享和交流,也分享了同鲲云在AI加速应用和高校推广等方面的深入合作。
 
 
浪潮人工智能与高性能产品部总经理刘军
 
作为国内最大的AI服务器厂商,浪潮的市场占有率为57%,拥有最强的AI计算产品阵列和端到端AI应用加速方案。这次刘军总经理带来了题为“AI计算创新与产业发展”的分享,探讨人工智能技术创新和浪潮的应用落地战略。
 
 
此外,峰会还邀请到星瀚资本杨歌、雷锋网麦广炜、天津大学电子信息学院副院长刘强、JWIPC副总经理刘迪科、CCE-YOCSEF深圳主席卢昱明等专家学者与鲲云科技CTO蔡权雄博士就人工智能芯片产业与生态落地等话题进行了探讨。
 
鲲云发布全球首款通用底层AI架构-定制数据流CAISA架构
 
鲲云科技创始人&CEO牛昕宇博士
 
鲲云科技创始人&CEO牛昕宇博士在会上发布了定制数据流CAISA2.0架构。依托创始团队在数据流架构领域近三十年的积累,鲲云的CAISA架构抛弃了传统基于指令集的架构方式,是全球第一款基于数据流技术打造的通用人工智能底层架构,可发挥90%以上的芯片峰值计算性能。同时,鲲云还在会上发布了针对数据流架构定制开发的RainBuilder编译工具链。CAISA2.0架构可支持Tensorflow,Caffe等开源框架下开发的主流深度学习算法的无缝迁移,无需用户进行面向CAISA架构的编程。基于Arria10 SX160、SX660、GX1150,Straix10 GX2800系列的FPGA加速卡已完成开发并应用于产品落地中。
 
定制数据流CAISA2.0架构
 
随着人工智能技术的深入发展,对人工智能芯片的算力提出了更高的要求,算力成为了决定算法落地的重中之重。尤其是在云计算、自动驾驶、安防工业等领域,算力的提升更是能够直接带来更多的用户量、更多的前端设备智能升级和更安全的自动驾驶汽车。
 
正如图灵奖得主John Hennessey和 David Patterson在图灵奖颁奖典礼所言,未来十年,随着摩尔定律逐步饱和,人工智能芯片的峰值算力将逐步趋近饱和,而架构效率将成为芯片性能的决定因素,未来十年将是计算架构的“黄金十年”。
 
鲲云科技自主研发的CAISA2.0架构以及RainBuilder编译工具链,没有采用主流计算机架构下大规模并行指令集设计的思路,通过完全不同的数据流架构突破底层架构的效率瓶颈,最大化发挥底层硬件的效率,在同等峰值芯片性能情况下可以为人工智能应用提供更高的算力支撑。
 
要实现更快的AI应用落地,满足不同算法开发的需求,需要一个可以兼容各类算法框架和方便快捷实现算法到硬件写入的编译工具。为了降低使用门槛,鲲云发布了端到端自动编译工具链RainBuilder。这是一款针对深度学习算法优化加速的开发工具链。依托于CAISA架构的高性能特性,RainBuilder提供从算法模型到芯片级算法部署的一整套开发套件。该套件主要由Compiler和Runtime两部分组成,其中Compiler包含了一系列命令行接口,支持主流AI开发框架模型的解析和优化,并将模型转化为适用于CAISA架构的中间表达和数据。Runtime以Compiler生成的中间表达和数据为输入,为用户提供了丰富易用的开发接口以完成对底层AI芯片硬件的高效应用。
 
RainBuilder端到端自动编译工具链
 
RainBuilder使用过程非常简单便捷,用户无需对于底层硬件有深入的了解,即可快速开发适用于AI专用芯片的算法方案。从训练好的模型文件,只需两步即可实现整个神经网络的推演。第一步,调用Compiler的命令行接口完成模型的离线准备,对于一个模型,该步骤只需进行一次。Compiler提供了一套端到端的优化流程,包括模型解析、冗余节点裁剪、节点融合、模型量化压缩等。第二步,用户只需编写针对特定算法的前后处理函数,Runtime会自动完成算法模型对于CAISA架构的高效调用。Runtime中包含了大量针对CAISA架构的深层优化,如硬件资源调配、运行时资源调度、软硬件并行、异常处理等。另外,RainBuilder通过支持用户自定义算子实现了对于不同算法的高拓展性。用户只需根据提供的接口即可完成自定义模块的实现,RainBuilder会自动将自定义算子整合进计算图中,并针对其特点完成相应的计算优化。
 
2019年人工智能应用创新峰会顺利结束,干货满满。在接下来的计算架构“黄金十年”中,我们拭目以待AI芯片性能上的技术和应用突破。
 
 

收藏