双显卡运行Qwen1.5-72B-int4量化版本
我本机配置是4090,3090分别一张,共48G显存。
下载Qwen1.5
git clone https://github.com/QwenLM/Qwen.git
安装相关依赖
按照官方文档安装相关依赖的库。
cd Owen/
pip install -r requirements.txt
我这边自己的环境是 Python 3.11 PyTorch 2.2.1 Transformers 4.37.0 Cuda 12.2
下载模型
可以从modelscope下载。
git clone https://www.modelscope.cn/qwen/Qwen1.5-14B-Chat-GPTQ-Int4.git
记得先把git lfs安装好了。
原来看别的文章说还要单独指定调整各层的使用的显卡,目前的版本看是不需要了,直接回到刚才Qwen的工程目录下
python openai_api.py -c /path/to/model/Qwen1.5-14B-Chat-GPTQ-Int4
就可以运行起来了。