目前各种AI大模型层出不穷。如AI换脸，AI克隆声音都是通过训练自己的大模型来实现的。而想要训练自己的大模型，是对自己的硬件有所要求的，尤其是对显卡的要求！

在工作中，我们需要跑一些大模型，如通义千问、Llama。该怎么办呢？

如果自己买卡，A100、H100不仅贵，还大概率买不到。自己买几张4090跑起来又有各种bug，多卡协同不是一般的难。

这时我们可以使用云服务器，轻松在云上部署训练自己的AI，而无需繁重的实体显卡负担和运维成本。据了解，阿里云的DeepGPU加速工具就是解决这个问题的优秀方案。少量花费即可完成复杂的训练和部署工作，同等价位能获得更好的产品体验，极高性价比。

本文，我们基于deepgpu-llm和fastchat快速搭建通义千问web在线服务。看看如何快速搭建自己的AI大模型。

购买服务器

我们直接购买阿里云GPU云服务器。对于小体量用户，推荐用新用户优惠尝鲜。

购买地址： https://www.aliyun.com/product/ecs/gpu

当然，不管是包年包月还是按量付费。官方都是有优惠价格的。

😘包年包月优惠规则

型号规格	条件	优惠
gn5 （P100-16G）	新客专享，限新购，限1个实例	购买时长1~11个月 5折，购买时长 1~2年 4折。
gn5 （P100-16G）	限新购、续费、升级	购买时长1~12个月 6折
gn6i （T4-16G）	新客专享，限新购	1~11个月 5折 1~2年 4折
gn6v （V100-16G）	新客专享，限新购	1~11个月 5折 1~2年 4折
ecs.gn7i-c32g1.8xlarge	新客专享，限新购	1~11个月 5折 1~2年 4折

😘按量付费优惠规则

型号规格	条件	优惠
gn5（P100-16G）	新客专享，限新购	100小时内 0.9折
ecs.gn6i-c16g1.4xlarge	新客专享，限新购	100小时内 1.9折
ecs.gn6v-c8g1.2xlarge	新客专享，限新购	100小时内 0.9折
ecs.gn7i-c32g1.8xlarge	新客专享，限新购	100小时内 1.9折

在高于同类型配置的情况下，比其他厂商优惠更多。

选择deepgpu-llm镜像

在镜像栏目：点击云市场镜像，搜索deepgpu-llm，找到预装deepgpu-llm的ubuntu 22.04系统点击使用。

完善订单其余关键字段，下单购买。购买后等待镜像部署完成，就可以通过ssh登录了。接下来，我们在控制台中配置SSH相关信息。并登录服务器。

检查GPU状态

我们输入下面命令，查看GPU状态。

nvidia-smi

下载通义千问模型

从modelscope官网搜索目标模型，找到其唯一的模型ID，如qwen/Qwen1.5-4B-Chat，利用下面命令进行下载。

apt install -y git-lfs
mkdir -p deepgpu/models
cd deepgpu/models/
git-lfs clone https://modelscope.cn/qwen/Qwen1.5-4B-Chat.git

✈️检查deepgpu-llm和transformers安装状态

下载模型可能需要一点时间，我们可以新开一个ssh连接，检查下关键组件的状态，命令如下所示

pip list | grep deepgpu
pip list | grep transformers

效果如下：

☢️安装基于deepgpu-llm的fastchat

astchat本身无法直接支持deepgpu-llm，所以需要使用二次开发后的fastchat。具体安装方法如下

pip3 install jinja2==3.1.2 plotly pydantic==1.10.13 gradio==3.50.2 -i https://pypi.tuna.tsinghua.edu.cn/simple
pip3 install --upgrade setuptools wheel pip -i https://pypi.tuna.tsinghua.edu.cn/simple
pip3 install https://aiacc-inference-public-v2.oss-cn-hangzhou.aliyuncs.com/aiacc-inference-llm/fschat_deepgpu-0.2.31%2Bpt2.1-py3-none-any.whl -i https://pypi.tuna.tsinghua.edu.cn/simple --use-pep517

😅配置环境变量

配置必要的环境变量。建议配置到开机启动项！

export DEEPGPU_CB=True

🐸启动fastchat控制器

python3.10 -m fastchat.serve.controller --host localhost --port 21001

注意，其他项目启动时，需要指定--controller-address与这里的地址端口一致。

🐻‍❄️启动基于deepgpu-llm加速的qwen1.5-4b模型worker

在第1个GPU上部署deepgpu-llm加速的qwen1.5-4b模型，CUDA_VISIBLE_DEVICES指定GPU ID，--model-names指定使用deepgpu-llm加速（名称上带deepgpu字段即可），--model-path指定2.2节下载的模型目录。

模型加载完成后出现下图所示内容，说明worker已经正常运行了。

📧启动基于transformers框架的qwen1.5-4b模型worker

在第2个GPU上部署基准transformers框架的qwen1.5-4b模型，CUDA_VISIBLE_DEVICES指定GPU ID，--model-names指定不使用deepgpu-llm加速（名称上不带deepgpu字段即可），--model-path指定2.2节下载的模型目录。

CUDA_VISIBLE_DEVICES=1 python3.10 -m fastchat.serve.model_worker --model-names qwen-4b-base --model-path /root/deepgpu/models/Qwen1.5-4B-Chat --worker http://localhost:21003 --controller-address http://localhost:21001 --host localhost --port 21003

模型加载完成后出现下图所示内容，说明worker已经正常运行了。

🤖启动基于gradio的web服务

参考下面命令启动fastchat自带的gradio web服务，其中gradio_web_server_multi可以同时运行两个模型进行对比，gradio_web_server为单一模型web服务。

python3.10 -m fastchat.serve.gradio_web_server_multi --controller-url http://localhost:21001 --host 0.0.0.0 --port 5001 --model-list-mode reload

python3.10 -m fastchat.serve.gradio_web_server --controller-url http://localhost:21001 --host 0.0.0.0 --port 5001 --model-list-mode reload