双显卡运行Qwen1.5-72B-int4量化版本

Published: 23 Mar 2024 Category: llm

我本机配置是4090,3090分别一张,共48G显存。

下载Qwen1.5

git clone https://github.com/QwenLM/Qwen.git

安装相关依赖

按照官方文档安装相关依赖的库。

cd Owen/
pip install -r requirements.txt

我这边自己的环境是 Python 3.11 PyTorch 2.2.1 Transformers 4.37.0 Cuda 12.2

下载模型

可以从modelscope下载。

git clone https://www.modelscope.cn/qwen/Qwen1.5-14B-Chat-GPTQ-Int4.git

记得先把git lfs安装好了。

原来看别的文章说还要单独指定调整各层的使用的显卡,目前的版本看是不需要了,直接回到刚才Qwen的工程目录下

python openai_api.py -c /path/to/model/Qwen1.5-14B-Chat-GPTQ-Int4

就可以运行起来了。