ROCm vs Vulkan

หลังจาก upgrade RAM ของ laptop ให้เป็น 64GB ทำให้ได้ GTT (Graphics Translation Table) เพิ่มเป็น 32GB ซึ่งเจ้า GTT นี้ก็คือ RAM ของระบบที่อนุญาตให้ GPU มาเรียกใช้เหมือนเป็น VRAM ของตัวเอง สำหรับ laptop เครื่องนี้ที่ใช้ APU Ryzen 7 7730U ทั้ง VRAM และ GTT ก็คือหน่วยความจำที่อยู่บน RAM ของระบบเหมือนกัน

หลังจากมี GTT ใหญ่ถึง 32GB เลยก็เลยทำให้เล่น LLM model ใหญ่ๆ ได้ แล้วก็เกิดความสงสัยว่าระหว่าง ROCm กับ Vulkan ตัวไหนจะเร็วกว่ากันบน APU ตัวนี้ก็เลยลองทดสอบดู

ROCm

build ด้วยการบังคับให้ target gfx900 ซึ่งจริงๆ แล้ว APU ตัวนี้คือ gfx90c แต่ ROCm ไม่ support

$ HIPCXX="$(hipconfig -l)/clang" \
  HIP_PATH="$(hipconfig -R)" \
    cmake \
     -S . \
     -B build.HIP \
     -DGGML_HIP=ON \
     -DAMDGPU_TARGETS=gfx900 \
     -DCMAKE_BUILD_TYPE=Release

แล้วตอน run ก็ overide ด้วย HSA_OVERRIDE_GFX_VERSION=9.0.0 ได้ผลทดสอบ

pp512: 52.04 tps
tg128: 11.49 tps

$ HSA_OVERRIDE_GFX_VERSION=9.0.0 \
      ../llama.cpp/build.HIP/bin/llama-bench \
      -ngl 99 \
      -m Qwen3-30B-A3B-Instruct-2507-UD-TQ1_0.gguf
  ggml_cuda_init: GGML_CUDA_FORCE_MMQ:    no
  ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no
  ggml_cuda_init: found 1 ROCm devices:
    Device 0: AMD Radeon Graphics, gfx900:xnack- (0x900), VMM: no, Wave Size: 64
  | model                               |       size |     params | backend    | ngl |            test |                  t/s |
  | ----------------------------------- | ---------: | ---------: | ---------- | --: | --------------: | -------------------: |
  | qwen3moe 30B.A3B IQ1_S - 1.5625 bpw |   7.53 GiB |    30.53 B | ROCm       |  99 |           pp512 |         52.04 ± 0.31 |
  | qwen3moe 30B.A3B IQ1_S - 1.5625 bpw |   7.53 GiB |    30.53 B | ROCm       |  99 |           tg128 |         11.49 ± 0.00 |

  build: 75cbdd3 (629)

Vulkan

build แบบปกติธรรมดา

$ cmake -B build -DGGML_VULKAN=ON

ได้ผลทดสอบ

pp512: 86.37 tps
tg128: 17.89 tps

$ ../llama.cpp/build/bin/llama-bench -ngl 99 -m Qwen3-30B-A3B-Instruct-2507-UD-TQ1_0.gguf
  ggml_vulkan: Found 1 Vulkan devices:
  ggml_vulkan: 0 = AMD Radeon Graphics (RADV RENOIR) (radv) | uma: 1 | fp16: 1 | bf16: 0 | warp size: 64 | shared memory: 65536 | int dot: 0 | matrix cores: none
  | model                               |       size |     params | backend    | ngl |            test |                  t/s |
  | ----------------------------------- | ---------: | ---------: | ---------- | --: | --------------: | -------------------: |
  | qwen3moe 30B.A3B IQ1_S - 1.5625 bpw |   7.53 GiB |    30.53 B | Vulkan     |  99 |           pp512 |         86.37 ± 0.42 |
  | qwen3moe 30B.A3B IQ1_S - 1.5625 bpw |   7.53 GiB |    30.53 B | Vulkan     |  99 |           tg128 |         17.89 ± 0.02 |

  build: 75cbdd3 (629)

จึงสรุปได้ว่า Vulkan ชนะ(อีกแล้ว)