模型 框架 GPU 吞吐量 首token延迟 复现命令 说明
Qwen3 0.6B vllm.rs featurize 4090 6100 tokens/s cargo run --release --features cuda,graph -- --w /home/featurize/work/vllm.rs/checkpoints/Qwen/Qwen3-0.6B --batch 64 --max-tokens 1024 --max-model-len 1024
Qwen3 0.6B nano-vllm featurize 4090 5100 tokens/s python benchmark num_seqs = 64 max_input_len = 1024 max_output_len = 1024