一个技术探索与知识分享的平台~

ROCm on Windows 性能排查：RX 6650 XT 跑 PyTorch，为什么加速不明显？

发布： 2026-05-09 03:10

更新： 2026-05-09 03:10

字数：4155

前言

事情是这样的：我手上有一张 RX 6650 XT (gfx1032)，想在 Windows 上跑 PyTorch 做深度学习。AMD 官方的 HIP SDK for Windows 并不正式支持 gfx1032，但我还是通过自编译 ROCm 7.11.0a + PyTorch 2.9.1 把环境搭起来了。

torch.cuda.is_available() 返回 True，rocm-sdk test 也过了，Qwen3-0.6B 能加载到 GPU 上生成文本，看起来一切正常。

但跑 benchmark 的时候发现，GPU 加速只有 1.7-2.0 倍，任务管理器里 GPU 利用率也不高。这到底是怎么回事？

测试环境

项目	配置
GPU	AMD Radeon RX 6650 XT (gfx1032)
ROCm	7.11.0a / 自编译
PyTorch	2.9.1+rocm7.11.0a
模型	Qwen/Qwen3-0.6B
精度	float16
系统	Windows 10 Pro

Benchmark 结果

用 5 类 prompt 各跑 3 次，max_new_tokens=256：

                    CPU vs GPU Comparison
╔════════════════════╤══════════════╤══════════════╤════════════╗
║ Prompt             │    CPU tok/s │    GPU tok/s │    Speedup ║
╟────────────────────┼──────────────┼──────────────┼────────────╢
║ Short Factual      │         16.8 │         30.0 │       1.8x ║
║ Summarization      │         14.8 │         30.3 │       2.0x ║
║ Reasoning          │         18.0 │         30.2 │       1.7x ║
║ Code Generation    │         18.4 │         30.4 │       1.7x ║
║ Long-form          │         18.0 │         30.6 │       1.7x ║
╚════════════════════╧══════════════╧══════════════╧════════════╝

几个直观的观察：

GPU 路径确实有效，加速约 1.7-2.0x。
但这个加速比对一张独显来说，实在算不上好。
GPU 端吞吐稳定在 ~30 tok/s，不管 prompt 类型怎么变都差不多——说明瓶颈不在 prompt 内容上。

先看 AMD 怎么说的

AMD HIP SDK for Windows 的官方支持矩阵里，RDNA2 各档的支持情况是这样的：

GPU	架构	Runtime	HIP SDK
RX 6950/6900/6800 系列	gfx1030	✅	✅
RX 6750/6700 系列	gfx1031	✅	❌
RX 6650/6600 系列	gfx1032	✅	❌

Runtime 支持意味着 HIP/OpenCL runtime 能跑起来；HIP SDK 不支持意味着官方预编译的 HIP SDK 库不覆盖这块硬件，运行时可能出各种问题。

这是最关键的一点：gfx1032 在 Windows 上根本不在官方 HIP SDK 支持范围内。所以即使自编译能跑，也应该对兼容性和性能有心理准备。

冒烟测试：到底哪些操作能跑在 GPU 上？

为了搞清楚 PyTorch 操作在当前环境下的实际表现，我写了一个冒烟测试脚本（tests/test_operators.py）。思路很简单：创建 CUDA/HIP tensor，执行操作，检查输出是不是还在 GPU 上。

结果：

Summary: 54/55 returned CUDA/HIP tensors | 1 errors | 1 warnings

55 个检查项里，54 个成功返回了 CUDA/HIP tensor。失败的两个：

batch_norm 报错——MIOpen 在运行时编译 kernel 的时候，HIPRTC 找不到 <type_traits> 这个 C++ 标准库头文件。这是编译环境的问题，不是 GPU 不支持。后续装上 VS Build Tools 的 C++ 工具链应该能修。但要注意，这并不意味着修好之后 BatchNorm 就一定有高性能 GPU kernel——还得复测。

sdpa 有警告——PyTorch 编译时没启用 memory efficient attention，scaled_dot_product_attention 走的是数学 fallback。功能没问题，但长序列和大 batch 场景下性能差距会比较明显。

需要强调的是，这个测试结果不能直接解读成"54/55 个算子有 GPU kernel，覆盖率 98%"。

因为检查输出 device 只能证明 PyTorch 的设备语义成立（CUDA tensor 的结果还在 CUDA 上），不能证明底层调用了什么 backend、用了什么 kernel、有没有隐式同步。

低加速比到底是什么原因？

说实话，我没有一个确定的答案。目前比较合理的判断是多个因素叠加：

自回归 decode 天生吃不满 GPU。 每次只生成一个 token，batch=1 的时候 kernel 粒度很小，launch latency 和调度开销占比就上去了。这是 LLM 推理的通病，不独属于 ROCm。

Qwen3-0.6B 太小了。 600M 参数，fp16 权重才 1.2GB。小模型在 batch=1 的 decode 阶段，瓶颈往往在内存访问和框架开销上，而不是 GPU 算力。

SDPA 没走高性能路径。 编译 warning 已经提示了，memory efficient attention 没启用。对 Transformer 模型来说这是个不小的性能因素。

Windows + gfx1032 本身就不是官方支持场景。 自编译能让操作跑起来，但 kernel 选择、库集成、性能调优这些方面，很难指望和官方支持的硬件一样。

CPU 使用率高 ≠ forward 在 CPU 上算。 任务管理器里 CPU 20% 左右的使用率，其实大部分是 Python 解释器、Transformers generation loop、tokenizer 处理、kernel launch、同步这些工作，不能直接推导出"大部分计算回退到了 CPU"。

下一步怎么查

为了进一步研究，可能还需要做这些事：

用 torch.profiler 看 CPU 和 CUDA/HIP activity 的时间分布。
把 prefill 和 decode 分开计时，看瓶颈到底在哪。
用真实 LLM 的 tensor shape 单独测 linear、RMSNorm、RoPE、SDPA、KV cache 这些关键路径。
开 MIOpen/rocBLAS 日志，确认关键操作到底走了哪个库。
试不同 batch size，看 tok/s 曲线怎么变。
如果条件允许，和 Linux ROCm 或者官方支持的 RDNA3 GPU 做对比。

结论

问题	回答
PyTorch 能在 RX 6650 XT 上跑吗？	自编译后可以跑基础 workload，但不在官方 HIP SDK 支持范围内
算子覆盖率是多少？	冒烟测试只能说 54/55 个检查项返回了 CUDA/HIP tensor，不是严格的算子覆盖率
有没有 CPU fallback 的证据？	目前没有。`batch_norm` 是编译报错，不是 fallback
为什么 GPU 加速低？	大概率是 batch=1 自回归、小模型、attention fallback、非官方支持、框架开销这些因素叠加
大模型或大 batch 会好吗？	很可能，但得实测，不能从冒烟测试推断
升级新版 ROCm 有用吗？	可能修一些 bug，但官方支持矩阵是硬约束，gfx1032 短期内大概率不会被正式支持

小结

给同样想在 RDNA2 + Windows 上跑深度学习的朋友：

把自编译 ROCm/PyTorch 当实验环境，别当生产环境。
先跑冒烟测试确认常见操作不会直接报错。
性能问题要用 profiler 和 backend 日志定位，光看输出 device 说明不了什么。
LLM 推理要单独分析 prefill/decode、batch size 和 attention backend。
如果要稳定跑、追求可预期的性能，优先考虑 Linux ROCm，或者换一张 Windows 上官方支持的 GPU。

_EOF_

ROCm on Windows 性能排查：RX 6650 XT 跑 PyTorch，为什么加速不明显？

本文作者： 程序设计实验室

本文链接： https://blog.deali.cn/p/rocm-windows-perf-rx6650xt-pytorch-slow

关于博主： 欢迎扫码关注公众号，交流技术 & 分享经验！

微信公众号：「程序设计实验室」专注于互联网热门新技术探索与团队敏捷开发实践，包括架构设计、机器学习与数据分析算法、移动端开发、Linux、Web前后端开发等，欢迎一起探讨技术，分享学习实践经验。

讨论区

共 {{total}} 条讨论

良言一句三冬暖，恶语伤人六月寒。

@{{replyComment.anonymousUser.name}}

刷新

重置

发表

首次发言：{{comment.anonymousUser.createdTime}}
网站地址：{{comment.anonymousUser.url}}

@{{comment.replyUser}} {{comment.content}}

一个技术探索与知识分享的平台~

ROCm on Windows 性能排查：RX 6650 XT 跑 PyTorch，为什么加速不明显？

前言

测试环境

Benchmark 结果

先看 AMD 怎么说的

冒烟测试：到底哪些操作能跑在 GPU 上？

低加速比到底是什么原因？

下一步怎么查

结论

小结

ROCm on Windows 性能排查：RX 6650 XT 跑 PyTorch，为什么加速不明显？

讨论区

{{comment.anonymousUser.name}}

{{comment.anonymousUser.name}}

一个技术探索与知识分享的平台~

前言

测试环境

Benchmark 结果

先看 AMD 怎么说的

冒烟测试：到底哪些操作能跑在 GPU 上？

低加速比到底是什么原因？

下一步怎么查

结论

小结

ROCm on Windows 性能排查：RX 6650 XT 跑 PyTorch，为什么加速不明显？

相关文章

告别N卡CUDA垄断，Windows+AMD显卡ROCm跑深度学习：手把手实现 MNIST 手写数字识别

AMD显卡也能畅玩AI画图！ROCm+ComfyUI部署全指南

打包ROCm环境的相关Wheel方便后续使用

Windows + AMD ROCm + PyTorch：debuff拉满的6650xt A卡炼丹折腾经历

讨论区

{{comment.anonymousUser.name}}

{{comment.anonymousUser.name}}