不同llm推理框架性能对比

模型	框架	GPU	吞吐量	首token延迟	复现命令	说明
Qwen3 0.6B	vllm.rs	featurize 4090	6100 tokens/s		cargo run --release --features cuda,graph -- --w /home/featurize/work/vllm.rs/checkpoints/Qwen/Qwen3-0.6B --batch 64 --max-tokens 1024 --max-model-len 1024
Qwen3 0.6B	nano-vllm	featurize 4090	5100 tokens/s		python benchmark	num_seqs = 64 max_input_len = 1024 max_output_len = 1024