Qwen3
使用 LLaMA-Factory 微调 Qwen3 模型
· ☕ 6 分钟
1. 原始模型测试 启动环境 1 2 3 4 5 6 7 8 9 10 nerdctl run -it \ --gpus all \ --ipc=host \ -p 8000:8000 \ --ulimit memlock=-1 \ --ulimit stack=67108864 \ --name vllm \ --volume /data/models:/data/models \ --entrypoint /bin/bash \ vllm/vllm-openai:v0.10.1.1 后面 vllm 相关的测试,都基于这个环境。 启动服务 1 2 3 4 5 6 export CUDA_VISIBLE_DEVICES=0 python3 -m vllm.entrypoints.openai.api_server \ --model /data/models/Qwen3-0.6B \ --served-model-name /data/models/Qwen3-0.6B \ --host 0.0.0.0 \ --port 8000 测试 1 2 3 4 5 6 7 8 curl -X POST "http://127.0.0.1:8000/v1/chat/completions" \ -H "Content-Type: application/json" \ -d '{ "model": "/data/models/Qwen3-0.6B", "messages": [ {"role": "user",