模型 | 框架 | GPU | 吞吐量 | 首token延迟 | 复现命令 | 说明 |
---|---|---|---|---|---|---|
Qwen3 0.6B | vllm.rs | featurize 4090 | 6100 tokens/s | cargo run --release --features cuda,graph -- --w /home/featurize/work/vllm.rs/checkpoints/Qwen/Qwen3-0.6B --batch 64 --max-tokens 1024 --max-model-len 1024 | ||
Qwen3 0.6B | nano-vllm | featurize 4090 | 5100 tokens/s | python benchmark | num_seqs = 64 max_input_len = 1024 max_output_len = 1024 |