自适应计算如何解决人工智能产品化挑战
人工智能领域发展迅猛,创新步伐不断加快。虽然软件行业已成功在生产中部署人工智能,但硬件行业——包括汽车、工业和智能零售——在人工智能产品化方面仍处于起步阶段。仍然存在阻碍 AI 算法概念验证 (PoC) 成为真正硬件部署的主要差距。这些缺点主要是由于小数据问题、“非完美”输入和不断变化的“最先进”模型。软件开发人员和人工智能科学家如何克服这些挑战?答案在于适应性强的硬件。
小数据
互联网巨头,例如谷歌和 Facebook,每天都会定期收集和分析大量数据。然后,他们使用这些数据来创建具有可接受的性能的 AI 模型。在这种情况下,用于训练模型的硬件与用于运行模型的硬件非常不同。
另一方面,在硬件行业,大数据的可得性更加有限,导致人工智能模型不太成熟。因此,大力推动收集更多数据并运行“在线模型”,其中在相同部署的硬件上执行训练和推理以不断提高准确性。
为了解决这个问题,自适应计算——例如在边缘经过验证的现场可编程门阵列 (FPGA) 和自适应片上系统 (SoC) 设备——可以运行推理和训练,以不断更新自己到新捕获的数据. 传统的 AI 培训需要云或大型内部部署数据中心,并且需要数天和数周才能执行。另一方面,真实数据主要在边缘生成。在同一边缘设备中同时运行 AI 推理和训练不仅可以提高总拥有成本 (TCO),还可以减少延迟和安全漏洞。
“非完美”输入
虽然发布 AI 模型 PoC 以显示诸如使用 X 射线图像检测 的更高准确性之类的东西变得越来越容易,但这些 PoC 几乎总是基于经过良好清理的输入图片。在现实生活中,来自医疗设备、机器人和移动汽车的摄像头和传感器输入会产生随机失真,例如暗图像和各种有角度的物体。这些输入首先需要通过复杂的预处理进行清理和重新格式化,然后才能输入 AI 模型。后处理对于理解 AI 模型输出并计算正确的决策非常重要。
确实,有些芯片可能非常擅长 AI 推理加速,但它们几乎总是只加速整个应用程序的一部分。以智能零售为例,预处理包括多流视频解码,然后是传统的计算机视觉算法调整大小,重塑和格式转换视频。后处理还包括对象跟踪和数据库查找。最终客户不太关心 AI 推理的运行速度,但他们是否能够满足整个应用程序管道的视频流性能和/或实时响应能力。FPGA 和适应性强的 SoC 在使用特定领域架构 (DSA) 加速这些预处理和后处理算法方面有着良好的记录。此外,添加 AI 推理 DSA 将允许优化整个系统以满足端到端的产品要求。
不断变化的“最先进”模型
AI 研究社区可以说是最活跃的,世界各地的顶级研究人员每天都在发明新的 AI 模型。这些模型提高了准确性,降低了计算要求,并解决了新型 AI 应用程序。这种快速创新继续给现有的半导体硬件设备带来压力,需要更新的架构来有效支持现代算法。MLPerf 等标准基准测试证明,在运行真实的 AI 工作负载时,最先进的 CPU、GPU 和 AI ASIC 芯片远低于供应商宣传的性能的 30%。这不断推动对新 DSA 的需求以跟上创新的步伐。
最近有几个趋势推动了对新 DSA 的需求。深度卷积是一个新兴层,需要大内存带宽和专门的内部内存缓存才能高效。典型的 AI 芯片和 GPU 具有固定的 L1/L2/L3 缓存架构和有限的内部内存带宽,导致效率非常低。
研究人员不断发明当今芯片本身不支持的新自定义层。因此,它们需要在没有加速的主机 CPU 上运行,这往往成为性能瓶颈。
稀疏神经网络是另一种很有前途的优化,通过修剪网络边缘、去除卷积中的细粒度矩阵值等,网络被大量修剪,有时高达 99%。但是,要在硬件中有效地运行它,您需要专门的稀疏架构,加上大多数芯片根本没有的用于这些操作的编码器和解码器。
二元/三元是极端优化,将所有数学运算转换为位操作运算。大多数 AI 芯片和 GPU 只有 8 位、16 位或浮点计算单元,因此您不会通过极低的精度获得任何性能或能效。FPGA 和自适应 SoC 是完美的,因为开发人员可以开发完美的 DSA 并针对产品的工作负载重新编程现有设备。作为证明,最新的 MLPerf 包括 Xilinx 与Mipsology合作提交的一份文件,该文件使用 ResNet-50 标准基准实现了 100% 的硬件数据表性能。
没有硬件专业知识?没问题
从历史上看,FPGA 和自适应 SoC 面临的最大挑战是需要硬件专业知识来实现和部署 DSA。好消息是,现在有一些工具(例如 Vitis 统一软件平台)支持 C++、Python 和流行的 AI 框架(例如 TensorFlow 和 PyTorch),从而缩小了软件和 AI 开发人员之间的差距。
除了软件抽象工具的更多开发之外,开源库(例如 Vitis 硬件加速库)正在显着促进开发人员社区的采用。在最近的设计竞赛中,赛灵思吸引了 1,000 多名开发人员,并发布了许多创新项目,从手势控制的无人机到使用二值化神经网络的强化学习。重要的是,提交的大多数项目都是由以前没有 FPGA 经验的软件和 AI 开发人员完成的。这证明 FPGA 行业正在采取正确的步骤,使软件和 AI 开发人员能够解决现实世界的 AI 产品化挑战。
直到最近,对于普通软件开发人员和 AI 科学家来说,释放硬件适应性的力量还是无法实现的。以前需要特定的硬件专业知识,但由于新的开源工具,软件开发人员现在可以使用适应性强的硬件。凭借这种全新的编程便利性,FPGA 和自适应 SoC 将继续为成千上万的软件开发人员和 AI 科学家提供更方便的使用,使这些设备成为下一代应用的首选硬件解决方案。事实上,DSA 将代表 AI 推理的未来,软件开发人员和 AI 科学家将利用硬件适应性进行下一代应用。