算力革新赋能端侧智能,安谋科技Arm China “周易” X3 NPU 重塑 AI 应用新格局

2025-11-20 09:38
二维码

2025 年 11 月 13日,安谋科技 Arm China在上海办公室举办“周易” X3 NPU IP 新品发布会,正式推出 “All in AI” 产品战略下的首款重磅产品。这款基于最新 DSP+DSA 架构的端侧 AI 核心芯片 IP,以 8-80 FP8 TFLOPS 的灵活算力配置、256GB/s 的超高单 Core 带宽以及 10 倍提升的 AIGC 大模型处理能力,树立起端侧 AI 计算效率的新标杆,为基础设施、智能汽车、移动终端、智能物联网四大领域的智能化升级注入强劲动力。



前瞻布局破局端侧困境,性能跃迁引领技术革新

安谋科技Arm China产品研发副总裁刘浩在发布会现场,开篇讲述“周易”的寓意:应对大千世界的无穷变化。于此,在 AI 大模型技术飞速迭代的当下,智能手机、AI PC、智能汽车等端侧设备对 AI 能力的需求呈爆发式增长。从多模态语音交互到实时图像生成,从智能座舱场景化服务到辅助驾驶决策支持,复杂的 AI 计算任务对端侧设备提出了更高要求。然而,算力受限、能效压力、带宽瓶颈、开发门槛高等行业痛点,始终制约着大模型在端侧的深度落地。


安谋科技 Arm China 深谙行业发展规律,以五年前瞻布局为导向,在 “周易” X3 NPU 的设计中采用兼顾 CNN 与 Transformer 的通用架构,完成了从定点到浮点计算的关键转型,为 Gen AI、Agentic AI 与 Physical AI 的端侧落地筑牢技术根基。作为专为大模型而生的核心计算单元,“周易” X3 从四大维度实现性能突破:


在计算效率方面,其单 Cluster 最高支持 4 个 Core,8-80 FP8 TFLOPS 算力可灵活配置,相较于上一代产品 “周易” X2,CNN 模型性能提升 30%-50%,多核算力线性度达到 70%-80%。同算力规格下,16 倍的 FP16 TFLOPS、4 倍的计算核心带宽以及 10 倍以上的 Softmax 和 LayerNorm 性能提升,共同驱动 AIGC 大模型能力实现 10 倍增长。


带宽优化上,“周易” X3 单 Core 带宽高达 256GB/s,更集成自研解压硬件 WDC,使大模型 Weight 经软件无损压缩后,通过硬件解压可获得 15%-20% 的额外等效带宽,有效破解带宽瓶颈。在 Llama2 7B 大模型实测中,Prefill 阶段算力利用率达 72%,Decode 阶段有效带宽利用率超 100%,远超行业平均水平。


精度适配层面,产品支持 int4/int8/int16/int32/fp4/fp8/fp16/bf16/fp32 多精度融合计算,新增 W4A8/W4A16 计算加速模式,通过低比特量化降低带宽消耗,实现云端大模型向端侧的高效迁移。


任务处理方面,AI 专属硬件引擎 AIFF 与专用硬化调度器的集成,使 CPU 负载低至 0.5%,配合低调度延迟设计,可灵活支持多任务场景与任意优先级调度,确保高优先级任务即时响应。


安谋科技Arm China产品研发副总裁刘浩


安谋科技 Arm China 产品研发副总裁刘浩表示:“在‘All in AI’产品战略的指引下,我们将持续加大投入,以前瞻性视野整合顶尖研发资源,秉持开放合作理念,为生态伙伴提供业界领先的从硬件、软件到服务的端到端解决方案,全力赋能伙伴的产品创新和商业化落地。”


软硬协同构建开放生态,降低开发门槛提升落地效率

“周易” X3 的核心优势不仅体现在硬件性能的飞跃,更源于 “软硬协同、全周期服务与成就客户” 的产品准则。安谋科技 Arm China 为其配套了完善易用的 “周易” Compass AI 软件平台,通过全流程工具链、极致易用性优化与开放生态布局,破解端侧 AI 开发 “适配难、周期长、门槛高” 的行业痛点。


Compass AI 软件平台的 NN Compiler 集成模型解析、优化器、生成器及大模型运行工具等核心组件,支持超 160 种算子与 270 种模型,兼容 TensorFlow、ONNX、PyTorch、Hugging Face 等主流 AI 框架,提供开箱即用的 Model Zoo。其创新的 Hugging Face 模型 “一键部署” 功能,通过 AIPULLM 工具链实现 “一站式” 转化与部署,极大降低了开发门槛。


在模型优化方面,平台支持 Tensor/Channel/Token Level 及 GPTQ 等多样量化方式,具备业界领先的大模型动态 shape 支持能力,可高效处理任意长度输入序列,保障推理精度的同时实现云到端快速迁移。针对开发者需求,平台提供多种开放接口,支持用户模型与自定义算子的开发调试,配备丰富的调试工具与 Bit 精度软件仿真平台,支持多层次白盒开发与性能调优。


生态开放方面,Compass AI 软件平台的 Parser、Optimizer、Linux Driver、TVM 及内部 IR 格式等核心组件已相继开源,支持更易用的 DSL 算子编程语言。客户可借助平台工具开发自定义算子或打造专属模型编译器,实现差异化设计与开发效率提升。同时,平台支持 Android、Linux、RTOS、QNX 等多种操作系统,通过 TVM/ONNX 实现 SoC 异构计算,高效调度 CPU、GPU、NPU 等计算资源。

安谋科技Arm China NPU产品线负责人兼首席架构师舒浩博士


安谋科技 Arm China NPU 产品线负责人兼首席架构师舒浩博士强调:“‘周易’X3 的产品优势,源于通用、灵活、高效且软硬协同的系统架构设计,这一设计使其兼具广泛的行业适用性与灵活的边端侧 AI 应用场景匹配能力。” 技术团队围绕软硬件协同进行深度优化,硬件端通过增大总线带宽、增加 DMA 未处理请求等方式提升数据处理效率,软件端则针对硬件特性设计专属使用模式,充分发挥多核并行优势。


此外,安谋科技 Arm China 还提供强大的售后支持体系,以高人力投入保障 24 小时快速响应,涵盖 FPGA 原型设计、硬件 Emulation、软件模拟器支持等全流程服务,并针对客户重点应用场景进行专项优化,助力产品快速商业化落地。


多场景深度落地,从无形 IP 到 AI 万象的全面赋能

“周易” X3 NPU IP 的发布,将端侧智能的边界拓展至更广阔的应用领域。面向基础设施、智能汽车、移动终端、智能物联网四大核心场景,该产品精准匹配爆发式增长的端侧 AI 需求,为各类智能设备提供核心算力支撑。


在基础设施领域,“周易” X3 为加速卡提供高效 AI 算力,支持 CNN 与大模型等多样结构的 AI 模型加速,可广泛应用于数据中心及边缘计算节点,为海量数据处理提供强劲动力。


智能汽车领域成为其重要落地场景。在 ADAS 系统中,“周易” X3 可为自动泊车等辅助驾驶功能提供高性能 AI 算力支持;在车载信息娱乐系统(IVI)中,其强大的多模态处理能力可实现基于语音与车内外视频图像输入的智能互动,重塑智能座舱体验。


移动终端领域,“周易” X3 为 AI PC、AI 手机带来革命性升级。通过超分渲染技术提升显示分辨率,同时支持基于大模型的 AI Agent 应用,让用户在本地即可享受流畅的文生文、文生图等多模态交互体验,推动移动终端进入智能新范式。


智能物联网领域,该产品赋能智能网关、智能 IPC 等边缘设备实现本地 AI 推理,在保障数据隐私的同时,大幅提升响应速度,满足边缘设备对实时性与智能化的双重需求。


发布会现场,安谋科技 Arm China 系统展示了 “周易” NPU 产品家族的技术演进历程。从算力 0.32-3.75 TOPS、赋能 AIoT 场景的 “周易” Z1,到支持前视辅助驾驶的 Z2/Z3,再到面向高端 AIoT 与汽车座舱的 X1、具备多模态处理能力的 X2,直至今日发布的 X3,产品家族已形成完整的算力梯度布局,实现了从基础感知到复杂认知的技术跨越。现场展示的 DeepSeek-R1-Distill-Qwen-1.5B 模型对话、Stable Diffusion v1.5 文生图、MiniCPM v2.6 多模态应用等 demo,直观呈现了 “周易” X3 优异的端侧大模型推理性能。


安谋科技Arm China产品总监鲍敏祺


安谋科技 Arm China 产品总监鲍敏祺表示:“‘周易’X3 遵循‘软硬协同、全周期服务与成就客户’的产品准则,提供从硬件、软件到售后服务的全链路支持,以前瞻性设计、专业团队交付与深度服务投入,全面助力客户产品成功与商业化落地。”


此次 “周易” X3 NPU IP 的发布,标志着安谋科技 Arm China “All in AI” 产品战略的正式落地。作为国内领先的芯片 IP 设计与服务提供商,安谋科技 Arm China 立足本土创新,以 “AI Arm CHINA” 为战略发展方向,通过自研业务与 Arm 技术授权相结合的模式,为中国集成电路产业提供丰富的产品组合和解决方案。未来,安谋科技 Arm China 将持续深耕技术创新,携手生态伙伴共建开放合作的产业生态,加快构建国内 “AI+” 产业升级的智能计算基石,为千行百业的智能化转型提供更强 “核芯” 动力,让端侧智能真正融入生活万象。


昵称:
内容:
验证码:
提交评论
评论一下