瞎折腾 | David Huang's Blog

Strix Halo这个产品距离正式发布已经过去一年左右。作为一款原本定位为工作站、轻薄游戏等场景的高端PC产品，AMD在消费级产品中的品牌形象、昂贵的定价以及需要OEM单独开案等问题导致其主线产品推进的并不算太成功，市面上的大部分存在感都阴差阳错地来自于一些偏门的“AI”相关的产品。

本站在去年上半年首发不久后已经粗略地做过一些Strix Halo平台的LLM测试，当时的结论是这样的LPDDR平台与前年的M4 Pro Mac Mini一样有不少尴尬的问题。

不过，两年以来在这期间整个LLM生态发生了天翻地覆的变化，有一个好消息和一个坏消息：

对于MoE模型，不仅是experts激活量较为稀疏的特性使其适合相对大容量、小带宽内存的设备进行推理，同样由于其对attention权重和k/v cache的密集访问也适合将attention与k/v cache放在高内存带宽的设备上（某种意义上是一种AF分离）。

本文借助GPT-OSS 120B模型的性能测试探讨Strix Halo结合小容量高带宽的独立显卡来改善上述场景的使用体验，尝试尽可能维持低门槛、低成本。除此之外，本文最后也会提供一些运行更大模型的性能参考。

让我看看是谁说Strix Halo搭配独显不合适的？

David Huang's Blog