大模型进终端边缘风口别错过！|可编程机器人的挑战_机器人编程

加入星计划，您可以享受以下权益：

产业图谱

在软件框架方面，芯原提供了全面的Acuity工具、库和软件堆栈，为开发者提供了便捷的开发环境。同时，芯原还积极探索边缘与云协同计算的模式，通过Project Open Se Cura项目，实现了大模型和轻量大模型在边缘设备上的高效运行。值得一提的是，芯原的技术还被应用于谷歌眼镜等先进设备中，实现了极低功耗、常开和环境计算等功能。

此外，随着大语言模型在云端和移动设备上的广泛应用，芯原的技术也在这一领域发挥了重要作用。大语言模型的主要组件可以利用芯原的技术实现捕捉、信号和感知信息的评估和融合，进一步提升了模型的性能和准确性。

目前，芯原正在与谷歌等合作伙伴共同探索边缘与云协同计算的可能性，以实现大模型的轻量化和高效运行。

除了语言模型，端侧还需要视觉模型、语音模型等，以满足图像生成、PPT改动和美图等多样化需求。为此，芯原推出了专门针对端侧的NPU VIP9X00和AI-GPU IP。

查凯南表示，芯原的NPU架构支持32位浮点运算，能够执行大量复杂的通用计算任务，从而满足多样化的AI应用需求。在软件生态方面，芯原NPU兼容OpenCL等通用标准，为开发者提供了广阔的开发环境和灵活性。

此外，芯原还对通用的矩阵运算（如GEMM/GEMV）以及Transformer中所需的大量卷积运算进行了优化。这些优化措施直接提升了Transformer相关网络的性能，实现了高达10倍的性能提升。具体来说，在一个具备40-48TOPS算力的AI PC平台上，可以实现每秒处理20个Token的卓越性能。

转向云端，超级大模型成为主角，这些模型规模超过70B，甚至可能涉及数万张显卡的计算能力。这类模型必须支持多任务处理（Multi Serving）。查凯南认为，自然语言的一个显著优势是能够让端侧模型和语音端模型通过自然语言进行交互，而非传统的计算机数据交互。当手机和云端能够通过自然语言交互时，将彻底改变应用场景和智能效果。

为了解决端侧和云端的不同需求，查凯南进一步探讨了两者对NPU的特定要求。端侧更注重低功耗和优良的PPA（性能、功耗、面积）平衡。性能固然重要，但功耗和面积对于端侧IP来说更为关键。端侧NPU主要用于推理任务，并需要一定的浮点运算能力，同时关注低比特量化和压缩技术。

相比之下，云端NPU则强调高性能和高TOPS（每秒万亿次操作）能力，以支持推理和训练任务。这不仅涉及单卡推理训练，还包括分布式推理训练和多卡多机能力。因此，云端NPU更需要通用的GPGPU编程模型、高配比的浮点与定点算力，以及对高精度的支持。同时，接入大型生态系统也是云端NPU的重要需求。

在软件栈的更深层次，芯原提供了一系列通用的加速库，包括算子加速库和运算图加速库，以及多核间通讯库。这些库能够显著提高AI运算的效率和性能。同时，底层支持标准的OpenCL、OpenVX等接口，确保了与各种硬件和编辑器的兼容性。

在AI工具链上，针对推理任务，芯原自研了推理Toolkit，该工具链可以直接导入所有类型的框架模型。它内部嵌入了量化功能，能够直接生成易于部署的二进制文件。此外，芯原还研发了适用于大语言模型的vLLM，并在云端提供了出色的支持。

在训练端，特别是对于云端GPU训练，芯原选择了接入Torch Dynamo Plugin来支持PyTorch，以及Transformer XLA Backend来支持Transformer模型。这些选择都是为了确保开发者能够高效地进行模型训练。

张晓东首先引用了物理学家费曼的名言：“微积分是上帝的语言。”然而，他幽默地指出，如今“上帝的语言”似乎已变成了“图灵机”。他提到，图灵作为计算机科学和人工智能的奠基人，其贡献是不可估量的。整个计算机科学都建立在“丘奇-图灵论题”这一核心基石之上，即图灵机是最广义的计算装置。

在解释ChatGPT工作原理时，张晓东提到了1956年达特茅斯会议上的一个关键观点：学习可以看作是图灵机的求逆过程。他解释说，这实际上就是寻找一个能够生成特定输出的机器，即我们现在所说的生成式AI。此外，他还提到了所罗门诺夫在1964年的研究，该研究证明了所有学习问题都等价于归纳法，且与图灵机求逆等价于下一个Token预测。

一个有意思的对比是谷歌和OpenAI在Transformer技术上的应用。张晓东指出，虽然谷歌最早发明了Transformer，但最终是OpenAI通过GPT系列模型取得了显著成功。这背后的原理和对技术的深入理解是成功的关键。

回顾人工智能的三大发展路线：逻辑主义、联结派以及从细胞自动机到强化学习的演进，张晓东特别指出，强化学习可以用所罗门归纳来解释，这一领域的突破已经催生了如AlphaGo这样的杰出成果。随着技术的迅猛发展，大语言模型的进化速度已经达到了“周”级别，每隔几周就会有新的技术突破问世。

在探讨大语言模型的发展趋势时，张晓东提到了当前科技界的一些热议话题，包括OpenAI团队的变动以及训练大型模型所需的巨大成本。他特别强调了能耗问题，指出随着模型规模的扩大，训练所需的能耗也在急剧增加。然而，他也表示，根据Koomey定律，随着技术的进步，同等算力所需的能耗将会逐年下降，这为未来的大型模型训练提供了一线希望。

没有人怀疑，1956年达特茅斯会议提出的问题至今仍然有着深刻的启示，人工智能领域的发展将在未来见证更多激动人心的技术突破。

传统成像过程仅针对特定谱段进行感知，随后需要大量计算来修正和处理这些感知到的能量信号。这主要是因为成像系统面临多重挑战，包括成像光学系统的局限性、器件物理特性的限制，以及人眼视觉感知的非线性等。传统ISP系统采用“分治法”来处理这些问题，即将各种图像畸变分类，然后逐一设计算法进行校正，最后组合起来解决问题。

电子科技大学教授顾舒航指出，随着计算资源的日益丰富，工程界或许可以寻求更加数据驱动的方法。在过去，当计算资源有限时，人工智能算法可能并不如传统的手工设计方法有效。但现在，随着计算能力的提升，机器学习的方法有可能达到甚至超越传统方法的效果。因此，在计算资源更加充裕的今天，可以考虑采用新的策略来优化ISP系统。这一观点为AI-ISP技术的发展提供了新的思路。

AI-ISP的实现涉及5个关键技术：

l领域特定架构（DSA）：在构建AI-ISP的硬件架构时，既可以考虑与传统ISP架构的一致性，以优化内存使用和处理效率；同时，也可以借鉴传统方法的丰富经验，特别是那些反映物理事实的经验，来完善AI-ISP的设计；

l硬件感知算法设计：这一技术旨在确保算法与硬件的紧密集成，从而实现更高效的图像处理；

l数据工程与无监督训练：利用数据工程方法来处理大规模图像数据，并结合无监督训练技术，使网络能够自我学习和优化；

l神经网络优化与量化技术：通过对神经网络的优化和量化，可以在保持性能的同时降低计算复杂性和资源消耗；

l可控神经网络：这种网络能够实时反映成像环境的变化，并根据用户的影像需求进行调整，从而实现更加个性化和灵活的图像处理。

尽管取得了不错的进展，但AI-ISP还有需要不断优化和升级。顾舒航表示，他的团队正在几个方向深化研究：

激进的量化策略：他们正探索以最小的介入实现更好的数据质量，从而提升整体性能。如果其ISP得以成功实施，它可以与各种上游任务相结合，为压缩、传输和存储带来革新。

顾舒航认为，在自动驾驶等场景中，生成式模型的应用将更具潜力。例如，道路两侧的建筑物数据可以完全通过生成式模型来填补，从而大幅降低数据流通路的需求，为下游处理减少存储压力，进而降低成本。

AI-ISP技术已经在图像处理领域展现出巨大的潜力和应用价值。通过不断优化关键技术和探索新的应用场景，AI-ISP将在未来发挥更加重要的作用。

袁帝文表示，空间计算技术的核心在于对环境的感知。物理世界是三维的、充满多模态信息，因此需要多模态算法的支持。同时，与物理世界的交互也必须是3D的。这种交互不仅仅局限于人与机器之间，更包括机器协助我们完成各种实际任务，如抓取鸡蛋、收拾碗盘或折叠衣物。在这里，3D技术显得尤为重要，而空间计算技术也需要与大模型AI技术紧密结合，二者协同作用，共同推动具身智能的进步。

袁帝文指出，大模型的发展不仅推动了PC和手机行业的进步，更为机器人技术带来了革新。机器人作为一个综合性的终端，不仅需要具备PC和手机的基本功能，还要能够感知和适应物理世界。这就要求机器人必须具备多模态大模型的支撑，以应对不同场景的适应性需求。

神顶科技是亚洲第一家量产的具身智能3D空间计算芯片提供商，据袁帝文介绍，该公司研发的3D空间计算芯片能够支持不同的应用场景，并根据实际需求灵活采用不同的传感器组合，确保机器人在各种环境下都能保持出色的感知能力。该芯片还支持低成本传感器，有效减少对高性能传感器的依赖，从而大幅降低系统成本，为更广泛的机器人应用铺平了道路。

值得一提的是，该芯片还支持异构传感器融合，能够轻松解决raw data的融合问题。这一功能使得机器人能够更准确地感知和理解周围环境，为后续的决策和行动提供坚实的数据基础。

除了上述特性，神顶科技的3D空间计算芯片还提供了丰富的功能，包括三维重建、深度估计以及感知融合等。这些功能不仅支持不同的3D感知技术和空间定位技术，还是多传感器融合这一3D空间计算基石得以实现的关键。

机器人正逐渐从数字世界走向物理世界，而这一过程离不开高效、精准的感知和计算能力。最近，业内频频提及“物理AI”的概念。袁帝文强调，在当今这个物理AI逐渐崭露头角的时代，神顶科技的3D空间计算芯片与NPU的紧密协作显得尤为重要。神顶科技正积极与合作伙伴如芯原等携手合作，共同迎接物理AI带来的挑战。

面对数据中心对算力的不断增长需求，芯原提出了创新的Chiplet互联方案。通过设计支持4-6路接口的芯片，能够将4颗以上的芯片拼接在一起，从而大幅提升算力。同时，针对大面积芯片的设计挑战，芯原已经接近了掩膜极限的解决方案，通过Chiplet技术突破物理限制。

THE END

大模型进终端边缘风口别错过！

终结机器人评测混战时代，obohallenge带来大规模真机测评基准算法

机器人赋能更高精度更灵活的电子制造业ewscenter

对谈位投资人：人形机器人犹如登月计划

于海斌王耀南张钹三位院士解读具身智能世界机器人大会于海斌人工智能张钹智能机器人

年obo中小学生人工智能创新能力展示交流活动

胡权：智能时代的新自动化挑战

大模型进终端边缘风口别错过！

连机器人也“卷”起来了，还卷成了飞天面条怪的模样

全球首个！obohalleng登场，开启大规模机器人实体评测

唐开强：蜘蛛侠智能机器人——初创企业养成故事

通用机器人里程碑！提出策略组合框架oo，解决数据源异构难题，实现机器人多任务灵活执行腾讯云开发者社区