标签归档：GPU

另类MoE LLM方案：Strix Halo配合独立显卡运行推理

Strix Halo这个产品距离正式发布已经过去一年左右。作为一款原本定位为工作站、轻薄游戏等场景的高端PC产品，AMD在消费级产品中的品牌形象、昂贵的定价以及需要OEM单独开案等问题导致其主线产品推进的并不算太成功，市面上的大部分存在感都阴差阳错地来自于一些偏门的“AI”相关的产品。

本站在去年上半年首发不久后已经粗略地做过一些Strix Halo平台的LLM测试，当时的结论是这样的LPDDR平台与前年的M4 Pro Mac Mini一样有不少尴尬的问题。

不过，两年以来在这期间整个LLM生态发生了天翻地覆的变化，有一个好消息和一个坏消息：

好消息：适合128GB LPDDR平台的开放权重MoE模型越来越多。例如GPT OSS，GLM Air/V，MiniMax M2.x，Qwen3 235B等
坏消息：reasoning与agent用途的比重越来越高，对超长上下文prefill/decode性能、显存容量要求都提升了一个等级

对于MoE模型，不仅是experts激活量较为稀疏的特性使其适合相对大容量、小带宽内存的设备进行推理，同样由于其对attention权重和k/v cache的密集访问也适合将attention与k/v cache放在高内存带宽的设备上（某种意义上是一种AF分离）。

本文借助GPT-OSS 120B模型的性能测试探讨Strix Halo结合小容量高带宽的独立显卡来改善上述场景的使用体验，尝试尽可能维持低门槛、低成本。除此之外，本文最后也会提供一些运行更大模型的性能参考。

让我看看是谁说Strix Halo搭配独显不合适的？

继续阅读 →

Strix Halo (395)本地运行LLM测试

5条回复

在上一篇关于Mac Mini (M4 Pro)的文章里，我从几个方面较为全面地测试了M4 Pro运行LLM的现状。虽然大容量高位宽LPDDR统一内存的组合确实可以满足一些LLM场景的需求，但Apple GPU的一些弱点导致其相比市面上相同价位的方案较为尴尬。

本文我们的探讨对象是AMD的Strix Halo平台。它的参数与M4 Pro相似，那么它是否能避免Apple GPU的那些问题呢？正文开始之前先剧透结论：比M4 Pro少尴尬一些，但依然有点尴尬。

继续阅读 →

Apple统一内存适合运行LLM？理想很丰满，现实很骨感

25条回复

自从大语言模型开始流行以来，一直在AI领域深耕细作的NVIDIA直接获得了大量订单，导致产品供不应求，人们也一直在寻找更便宜的方案。这给了我们评估许多其它方案的机会，例如我前些时尝试搭建的W7900方案就是一个可行的替代。

碰巧的是，Apple刚好在LLM大火的时间点前后接连发布M1 / M2 Ultra，最大带来了128 / 192 GB且带宽高达800 GB/s的内存。考虑到本地运行LLM最大的瓶颈是显存容量和显存带宽，两者似乎是一拍即合，在数码媒体的渲染下创造了多个类似“Mac Studio > 6 * RTX 4090”的名场面。

事实真的是如此吗？经过实际测试，我发现尽管Apple Silicon可以将超大显存装进常规轻薄笔记本电脑，但在运行LLM方面存在各种妥协，使得苹果平台并没有比NVIDIA方案的性价比更高。

devil’s in the details

本文我们使用一组实测数据来介绍目前的现状。继续阅读 →

测量GPU的跨核心同步延迟

1条回复

前阵子在测试Strix Point与Lunar Lake等平台的CPU时，我偶然发现本代处理器在核间延迟这一指标上的一些变化。众所周知同步与互斥是现代复杂多线程软件高度依赖的原语之一，对其进行性能优化也是多线程编程的一大难点。多核处理器在硬件层面高效率地设计并实现同步，在工程上也是一个不小的挑战。

事实上，同步延迟这一概念不仅是对于CPU，其对于GPU也是一个重要的指标。在理想世界里，GPU可以以极高的吞吐并行处理大量毫不相关的数据。但现实是随着GPU规模的不断扩大，在一部分例如Gaming的领域的GPU应用已经出现了非常严重的并行度瓶颈，小规模数据的计算之间互相依赖导致不同层级的交互延迟成为瓶颈。

与CPU核心相对应，在GPU上处于类似层级的结构是SM (NVIDIA) / CU (OpenCL | AMD GCN)等等，一些厂商如Intel和Apple也将其直接称为GPU核心。而家用GPU的SM/CU核心数量远远超过普通家用CPU (144/96 vs 24)，数据中心GPU更是如此(160/304 vs 32-128)，这意味着为这些处理器核心的缓存一致性互联设计也会更加具有挑战性。

本文以我手边可用的一些硬件，搭配ROCm/HIP编程环境讲解如何使用类似测试CPU的手段来测量GPU的跨核心同步延迟，并提供一些大致的数据参考。

继续阅读 →

David Huang's Blog

（真）日常与无情吐槽

标签归档：GPU

另类MoE LLM方案：Strix Halo配合独立显卡运行推理

Strix Halo (395)本地运行LLM测试

Apple统一内存适合运行LLM？理想很丰满，现实很骨感

测量GPU的跨核心同步延迟