updated benchmarks including thunderbolt and configuratuion guides
This commit is contained in:
@@ -10,6 +10,7 @@
|
||||
"name_params_b": 8.0,
|
||||
"backend": "Triton",
|
||||
"network": "Ethernet",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -25,6 +26,7 @@
|
||||
"name_params_b": 12.0,
|
||||
"backend": "Triton",
|
||||
"network": "Ethernet",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -40,6 +42,7 @@
|
||||
"name_params_b": 14.0,
|
||||
"backend": "Triton",
|
||||
"network": "Ethernet",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -55,6 +58,7 @@
|
||||
"name_params_b": 20.0,
|
||||
"backend": "Triton",
|
||||
"network": "Ethernet",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -70,6 +74,7 @@
|
||||
"name_params_b": 120.0,
|
||||
"backend": "Triton",
|
||||
"network": "Ethernet",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -85,6 +90,7 @@
|
||||
"name_params_b": null,
|
||||
"backend": "Triton",
|
||||
"network": "Ethernet",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -100,6 +106,7 @@
|
||||
"name_params_b": 30.0,
|
||||
"backend": "Triton",
|
||||
"network": "Ethernet",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -115,6 +122,7 @@
|
||||
"name_params_b": 30.0,
|
||||
"backend": "Triton",
|
||||
"network": "Ethernet",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -130,6 +138,7 @@
|
||||
"name_params_b": 80.0,
|
||||
"backend": "Triton",
|
||||
"network": "Ethernet",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -145,6 +154,7 @@
|
||||
"name_params_b": null,
|
||||
"backend": "Triton",
|
||||
"network": "Ethernet",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -160,6 +170,7 @@
|
||||
"name_params_b": 8.0,
|
||||
"backend": "Triton",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -175,6 +186,7 @@
|
||||
"name_params_b": 12.0,
|
||||
"backend": "Triton",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -190,6 +202,7 @@
|
||||
"name_params_b": 14.0,
|
||||
"backend": "Triton",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -205,6 +218,7 @@
|
||||
"name_params_b": 20.0,
|
||||
"backend": "Triton",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -220,6 +234,7 @@
|
||||
"name_params_b": 120.0,
|
||||
"backend": "Triton",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -235,6 +250,7 @@
|
||||
"name_params_b": null,
|
||||
"backend": "Triton",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -250,6 +266,7 @@
|
||||
"name_params_b": 30.0,
|
||||
"backend": "Triton",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -265,6 +282,7 @@
|
||||
"name_params_b": 30.0,
|
||||
"backend": "Triton",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -280,6 +298,7 @@
|
||||
"name_params_b": 80.0,
|
||||
"backend": "Triton",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -295,6 +314,7 @@
|
||||
"name_params_b": null,
|
||||
"backend": "Triton",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -310,6 +330,7 @@
|
||||
"name_params_b": 8.0,
|
||||
"backend": "Triton",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 1,
|
||||
@@ -325,6 +346,7 @@
|
||||
"name_params_b": 14.0,
|
||||
"backend": "Triton",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 1,
|
||||
@@ -340,6 +362,7 @@
|
||||
"name_params_b": 20.0,
|
||||
"backend": "Triton",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 1,
|
||||
@@ -355,6 +378,7 @@
|
||||
"name_params_b": 120.0,
|
||||
"backend": "Triton",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 1,
|
||||
@@ -370,6 +394,7 @@
|
||||
"name_params_b": null,
|
||||
"backend": "Triton",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 1,
|
||||
@@ -385,6 +410,7 @@
|
||||
"name_params_b": 30.0,
|
||||
"backend": "Triton",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 1,
|
||||
@@ -400,6 +426,7 @@
|
||||
"name_params_b": 30.0,
|
||||
"backend": "Triton",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 1,
|
||||
@@ -415,6 +442,7 @@
|
||||
"name_params_b": 80.0,
|
||||
"backend": "Triton",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 1,
|
||||
@@ -430,11 +458,172 @@
|
||||
"name_params_b": 12.0,
|
||||
"backend": "Triton",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 1,
|
||||
"tps_mean": 159.95620436815713
|
||||
},
|
||||
{
|
||||
"model": "Qwen/Qwen3-14B-AWQ",
|
||||
"model_clean": "Qwen/Qwen3-14B-AWQ",
|
||||
"env": "TP2",
|
||||
"gpu_config": "dual",
|
||||
"quant": "AWQ",
|
||||
"params_b": 14.0,
|
||||
"name_params_b": 14.0,
|
||||
"backend": "Triton",
|
||||
"network": "Ethernet",
|
||||
"tag": "usb",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
"tps_mean": 302.43330149293365
|
||||
},
|
||||
{
|
||||
"model": "btbtyler09/Qwen3-Coder-30B-A3B-Instruct-gptq-4bit",
|
||||
"model_clean": "btbtyler09/Qwen3-Coder-30B-A3B-Instruct-gptq-4bit",
|
||||
"env": "TP2",
|
||||
"gpu_config": "dual",
|
||||
"quant": "GPTQ",
|
||||
"params_b": 30.0,
|
||||
"name_params_b": 30.0,
|
||||
"backend": "Triton",
|
||||
"network": "Ethernet",
|
||||
"tag": "usb",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
"tps_mean": 291.6914862601304
|
||||
},
|
||||
{
|
||||
"model": "btbtyler09/Qwen3-Coder-30B-A3B-Instruct-gptq-8bit",
|
||||
"model_clean": "btbtyler09/Qwen3-Coder-30B-A3B-Instruct-gptq-8bit",
|
||||
"env": "TP2",
|
||||
"gpu_config": "dual",
|
||||
"quant": "GPTQ",
|
||||
"params_b": 30.0,
|
||||
"name_params_b": 30.0,
|
||||
"backend": "Triton",
|
||||
"network": "Ethernet",
|
||||
"tag": "usb",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
"tps_mean": 256.91287782898553
|
||||
},
|
||||
{
|
||||
"model": "dazipe/Qwen3-Next-80B-A3B-Instruct-GPTQ-Int4A16",
|
||||
"model_clean": "dazipe/Qwen3-Next-80B-A3B-Instruct-GPTQ-Int4A16",
|
||||
"env": "TP2",
|
||||
"gpu_config": "dual",
|
||||
"quant": "GPTQ",
|
||||
"params_b": 80.0,
|
||||
"name_params_b": 80.0,
|
||||
"backend": "Triton",
|
||||
"network": "Ethernet",
|
||||
"tag": "usb",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
"tps_mean": 178.05541683872298
|
||||
},
|
||||
{
|
||||
"model": "google/gemma-3-12b-it",
|
||||
"model_clean": "google/gemma-3-12b-it",
|
||||
"env": "TP2",
|
||||
"gpu_config": "dual",
|
||||
"quant": "BF16",
|
||||
"params_b": 12.0,
|
||||
"name_params_b": 12.0,
|
||||
"backend": "Triton",
|
||||
"network": "Ethernet",
|
||||
"tag": "usb",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
"tps_mean": 260.10671430704866
|
||||
},
|
||||
{
|
||||
"model": "meta-llama/Meta-Llama-3.1-8B-Instruct",
|
||||
"model_clean": "meta-llama/Meta-Llama-3.1-8B-Instruct",
|
||||
"env": "TP2",
|
||||
"gpu_config": "dual",
|
||||
"quant": "BF16",
|
||||
"params_b": 8.0,
|
||||
"name_params_b": 8.0,
|
||||
"backend": "Triton",
|
||||
"network": "Ethernet",
|
||||
"tag": "usb",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
"tps_mean": 513.235753981134
|
||||
},
|
||||
{
|
||||
"model": "mratsim/MiniMax-M2.5-BF16-INT4-AWQ",
|
||||
"model_clean": "mratsim/MiniMax-M2.5-BF16-INT4-AWQ",
|
||||
"env": "TP2",
|
||||
"gpu_config": "dual",
|
||||
"quant": "BF16",
|
||||
"params_b": null,
|
||||
"name_params_b": null,
|
||||
"backend": "Triton",
|
||||
"network": "Ethernet",
|
||||
"tag": "usb",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
"tps_mean": 99.38780646163637
|
||||
},
|
||||
{
|
||||
"model": "openai/gpt-oss-120b",
|
||||
"model_clean": "openai/gpt-oss-120b",
|
||||
"env": "TP2",
|
||||
"gpu_config": "dual",
|
||||
"quant": "BF16",
|
||||
"params_b": 120.0,
|
||||
"name_params_b": 120.0,
|
||||
"backend": "Triton",
|
||||
"network": "Ethernet",
|
||||
"tag": "usb",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
"tps_mean": 109.82173992256857
|
||||
},
|
||||
{
|
||||
"model": "openai/gpt-oss-20b",
|
||||
"model_clean": "openai/gpt-oss-20b",
|
||||
"env": "TP2",
|
||||
"gpu_config": "dual",
|
||||
"quant": "BF16",
|
||||
"params_b": 20.0,
|
||||
"name_params_b": 20.0,
|
||||
"backend": "Triton",
|
||||
"network": "Ethernet",
|
||||
"tag": "usb",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
"tps_mean": 521.2677328949931
|
||||
},
|
||||
{
|
||||
"model": "zai-org/GLM-4.7-Flash",
|
||||
"model_clean": "zai-org/GLM-4.7-Flash",
|
||||
"env": "TP2",
|
||||
"gpu_config": "dual",
|
||||
"quant": "BF16",
|
||||
"params_b": null,
|
||||
"name_params_b": null,
|
||||
"backend": "Triton",
|
||||
"network": "Ethernet",
|
||||
"tag": "usb",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
"tps_mean": 320.9476287228403
|
||||
},
|
||||
{
|
||||
"model": "meta-llama/Meta-Llama-3.1-8B-Instruct",
|
||||
"model_clean": "meta-llama/Meta-Llama-3.1-8B-Instruct",
|
||||
@@ -445,6 +634,7 @@
|
||||
"name_params_b": 8.0,
|
||||
"backend": "ROCm",
|
||||
"network": "Ethernet",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -460,6 +650,7 @@
|
||||
"name_params_b": 12.0,
|
||||
"backend": "ROCm",
|
||||
"network": "Ethernet",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -475,6 +666,7 @@
|
||||
"name_params_b": 14.0,
|
||||
"backend": "ROCm",
|
||||
"network": "Ethernet",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -490,6 +682,7 @@
|
||||
"name_params_b": 20.0,
|
||||
"backend": "ROCm",
|
||||
"network": "Ethernet",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -505,6 +698,7 @@
|
||||
"name_params_b": 120.0,
|
||||
"backend": "ROCm",
|
||||
"network": "Ethernet",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -520,6 +714,7 @@
|
||||
"name_params_b": 30.0,
|
||||
"backend": "ROCm",
|
||||
"network": "Ethernet",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -535,6 +730,7 @@
|
||||
"name_params_b": 30.0,
|
||||
"backend": "ROCm",
|
||||
"network": "Ethernet",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -550,6 +746,7 @@
|
||||
"name_params_b": 80.0,
|
||||
"backend": "ROCm",
|
||||
"network": "Ethernet",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -565,6 +762,7 @@
|
||||
"name_params_b": null,
|
||||
"backend": "ROCm",
|
||||
"network": "Ethernet",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -580,6 +778,7 @@
|
||||
"name_params_b": 8.0,
|
||||
"backend": "ROCm",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -595,6 +794,7 @@
|
||||
"name_params_b": 12.0,
|
||||
"backend": "ROCm",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -610,6 +810,7 @@
|
||||
"name_params_b": 14.0,
|
||||
"backend": "ROCm",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -625,6 +826,7 @@
|
||||
"name_params_b": 20.0,
|
||||
"backend": "ROCm",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -640,6 +842,7 @@
|
||||
"name_params_b": 120.0,
|
||||
"backend": "ROCm",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -655,6 +858,7 @@
|
||||
"name_params_b": 30.0,
|
||||
"backend": "ROCm",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -670,6 +874,7 @@
|
||||
"name_params_b": 30.0,
|
||||
"backend": "ROCm",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -685,6 +890,7 @@
|
||||
"name_params_b": 80.0,
|
||||
"backend": "ROCm",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
@@ -700,6 +906,7 @@
|
||||
"name_params_b": 8.0,
|
||||
"backend": "ROCm",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 1,
|
||||
@@ -715,6 +922,7 @@
|
||||
"name_params_b": 14.0,
|
||||
"backend": "ROCm",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 1,
|
||||
@@ -730,6 +938,7 @@
|
||||
"name_params_b": 20.0,
|
||||
"backend": "ROCm",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 1,
|
||||
@@ -745,6 +954,7 @@
|
||||
"name_params_b": 120.0,
|
||||
"backend": "ROCm",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 1,
|
||||
@@ -760,6 +970,7 @@
|
||||
"name_params_b": 30.0,
|
||||
"backend": "ROCm",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 1,
|
||||
@@ -775,6 +986,7 @@
|
||||
"name_params_b": 30.0,
|
||||
"backend": "ROCm",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 1,
|
||||
@@ -790,6 +1002,7 @@
|
||||
"name_params_b": 80.0,
|
||||
"backend": "ROCm",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 1,
|
||||
@@ -805,10 +1018,155 @@
|
||||
"name_params_b": 12.0,
|
||||
"backend": "ROCm",
|
||||
"network": "RoCE",
|
||||
"tag": "",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 1,
|
||||
"tps_mean": 267.99881204205957
|
||||
},
|
||||
{
|
||||
"model": "Qwen/Qwen3-14B-AWQ",
|
||||
"model_clean": "Qwen/Qwen3-14B-AWQ",
|
||||
"env": "TP2",
|
||||
"gpu_config": "dual",
|
||||
"quant": "AWQ",
|
||||
"params_b": 14.0,
|
||||
"name_params_b": 14.0,
|
||||
"backend": "ROCm",
|
||||
"network": "Ethernet",
|
||||
"tag": "usb",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
"tps_mean": 311.59947769256274
|
||||
},
|
||||
{
|
||||
"model": "btbtyler09/Qwen3-Coder-30B-A3B-Instruct-gptq-4bit",
|
||||
"model_clean": "btbtyler09/Qwen3-Coder-30B-A3B-Instruct-gptq-4bit",
|
||||
"env": "TP2",
|
||||
"gpu_config": "dual",
|
||||
"quant": "GPTQ",
|
||||
"params_b": 30.0,
|
||||
"name_params_b": 30.0,
|
||||
"backend": "ROCm",
|
||||
"network": "Ethernet",
|
||||
"tag": "usb",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
"tps_mean": 299.24102990342374
|
||||
},
|
||||
{
|
||||
"model": "btbtyler09/Qwen3-Coder-30B-A3B-Instruct-gptq-8bit",
|
||||
"model_clean": "btbtyler09/Qwen3-Coder-30B-A3B-Instruct-gptq-8bit",
|
||||
"env": "TP2",
|
||||
"gpu_config": "dual",
|
||||
"quant": "GPTQ",
|
||||
"params_b": 30.0,
|
||||
"name_params_b": 30.0,
|
||||
"backend": "ROCm",
|
||||
"network": "Ethernet",
|
||||
"tag": "usb",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
"tps_mean": 267.6893183038276
|
||||
},
|
||||
{
|
||||
"model": "dazipe/Qwen3-Next-80B-A3B-Instruct-GPTQ-Int4A16",
|
||||
"model_clean": "dazipe/Qwen3-Next-80B-A3B-Instruct-GPTQ-Int4A16",
|
||||
"env": "TP2",
|
||||
"gpu_config": "dual",
|
||||
"quant": "GPTQ",
|
||||
"params_b": 80.0,
|
||||
"name_params_b": 80.0,
|
||||
"backend": "ROCm",
|
||||
"network": "Ethernet",
|
||||
"tag": "usb",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
"tps_mean": 174.78952518165474
|
||||
},
|
||||
{
|
||||
"model": "google/gemma-3-12b-it",
|
||||
"model_clean": "google/gemma-3-12b-it",
|
||||
"env": "TP2",
|
||||
"gpu_config": "dual",
|
||||
"quant": "BF16",
|
||||
"params_b": 12.0,
|
||||
"name_params_b": 12.0,
|
||||
"backend": "ROCm",
|
||||
"network": "Ethernet",
|
||||
"tag": "usb",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
"tps_mean": 342.7783704164132
|
||||
},
|
||||
{
|
||||
"model": "meta-llama/Meta-Llama-3.1-8B-Instruct",
|
||||
"model_clean": "meta-llama/Meta-Llama-3.1-8B-Instruct",
|
||||
"env": "TP2",
|
||||
"gpu_config": "dual",
|
||||
"quant": "BF16",
|
||||
"params_b": 8.0,
|
||||
"name_params_b": 8.0,
|
||||
"backend": "ROCm",
|
||||
"network": "Ethernet",
|
||||
"tag": "usb",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
"tps_mean": 550.8856190566602
|
||||
},
|
||||
{
|
||||
"model": "mratsim/MiniMax-M2.5-BF16-INT4-AWQ",
|
||||
"model_clean": "mratsim/MiniMax-M2.5-BF16-INT4-AWQ",
|
||||
"env": "TP2",
|
||||
"gpu_config": "dual",
|
||||
"quant": "BF16",
|
||||
"params_b": null,
|
||||
"name_params_b": null,
|
||||
"backend": "ROCm",
|
||||
"network": "Ethernet",
|
||||
"tag": "usb",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
"tps_mean": 98.10548978313048
|
||||
},
|
||||
{
|
||||
"model": "openai/gpt-oss-120b",
|
||||
"model_clean": "openai/gpt-oss-120b",
|
||||
"env": "TP2",
|
||||
"gpu_config": "dual",
|
||||
"quant": "BF16",
|
||||
"params_b": 120.0,
|
||||
"name_params_b": 120.0,
|
||||
"backend": "ROCm",
|
||||
"network": "Ethernet",
|
||||
"tag": "usb",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
"tps_mean": 111.32822174858649
|
||||
},
|
||||
{
|
||||
"model": "openai/gpt-oss-20b",
|
||||
"model_clean": "openai/gpt-oss-20b",
|
||||
"env": "TP2",
|
||||
"gpu_config": "dual",
|
||||
"quant": "BF16",
|
||||
"params_b": 20.0,
|
||||
"name_params_b": 20.0,
|
||||
"backend": "ROCm",
|
||||
"network": "Ethernet",
|
||||
"tag": "usb",
|
||||
"error": false,
|
||||
"test": "Throughput",
|
||||
"tp": 2,
|
||||
"tps_mean": 519.7896706376232
|
||||
}
|
||||
]
|
||||
}
|
||||
Reference in New Issue
Block a user