| 模型 | 框架 | GPU | num seqs | 吞吐量 | 首token延迟 | 复现命令 | 说明 |
|---|---|---|---|---|---|---|---|
| Qwen3 0.6B | vllm.rs | featurize 4090 | 64 | 6100 tokens/s | cargo run --release --features cuda,graph -- --w /home/featurize/work/vllm.rs/checkpoints/Qwen/Qwen3-0.6B --batch 64 --max-tokens 1024 --max-model-len 1024 | ||
| Qwen3 0.6B | nano-vllm | featurize 4090 | 64 | 5200 tokens/s | python benchmark | num_seqs = 64 max_input_len = 1024 max_output_len = 1024 | |
| Qwen3 0.6B | osc-llm | featurize 4090 | 64 | 4900 tokens/s |