国产AI之光!DeepSeek本地部署教程,效果媲美GPT-4


无需魔法|零代码|消费级显卡畅玩



🌟 为什么选择DeepSeek?

优势 详解
媲美GPT-4o
32B版本推理能力接近GPT-4 Turbo
全链路国产
完全规避国际禁令风险,中文理解能力行业顶尖
极简部署
支持Ollama一键部署,3分钟实现本地化
全规格覆盖
1.5B到671B多种模型,手机/PC/服务器全场景适配
经济高效
8B模型在GTX 1060上流畅运行,推理成本仅为GPT-4的1%

🖥️ 硬件配置指南(消费级设备推荐)

模型
显存需求
内存需求
推荐显卡
性价比方案
7B
10-12GB
16GB
RTX 3060
二手2060S(1500元档)
14B
20-24GB
32GB
RTX 3090
双卡2080Ti(3000元档)
32B
40-48GB
64GB
RTX 4090
租赁云服务器(时薪7元)

💡 实测:RTX 3090可丝滑运行30B模型


🚀 三步极速部署(Windows版)

相关的软件,我已经放入到网盘,网不好的同学,可以直接下载。 下载链接:https://pan.quark.cn/s/b69829720b68

部署架构

国产AI之光!DeepSeek本地部署教程,效果媲美GPT-4

ollama 安装

Ollama 是一个专注于本地化部署和运行大型语言模型(LLM)的工具,旨在让用户能够在自己的设备上高效地运行和微调模型。

下载ollama

https://ollama.com/download/ 默认为当前电脑的对应的版本,直接下载即可。下载以后,一路点点点即可。

国产AI之光!DeepSeek本地部署教程,效果媲美GPT-4


环境变量设置安装完以后先不要使用,先设置下环境变量。默认模型下载到C盘。一个模型最小也得几个GB 。

国产AI之光!DeepSeek本地部署教程,效果媲美GPT-4


OLLAMA_HOST: 0.0.0.0 
OLLAMA_MODELS:E:aiollamamodels

OLLAMA_HOST:设置为0.0.0.1 会将ollama服务暴露到所有的网络,默认ollama只绑定到了127.0.0.1和localhost上了。 OLLAMA_MODELS:设置了模型的存放的地址。

国产AI之光!DeepSeek本地部署教程,效果媲美GPT-4


验证

PS C:Usersyxkong> ollama -v
ollama version is 0.4.0

ollama常用操作命令

#下载模型
ollama pull 模型名称
ollama pull deepseek-r1:32b
#运行模型,如果模型不存在,则下载
ollama run 模型名称
ollama run deepseek-r1:32b
#查看已下载的模型
ollama list
#删除本地已下载的模型
ollama rm 模型名称
#查看模型的详细信息
ollama show 模型名称

deepseek-r1安装

https://ollama.com/search 打开ollama官网,点击Models,可以搜索,目前deepseek最流行,排到了第一位。

 

除了671是真正的deepseek,其他的都是蒸馏的模型。

国产AI之光!DeepSeek本地部署教程,效果媲美GPT-4

根据自己电脑的配置选择对应规格的模型,然后复制对应的命令即可。
国产AI之光!DeepSeek本地部署教程,效果媲美GPT-4

ollama run deepseek-r1:32b
国产AI之光!DeepSeek本地部署教程,效果媲美GPT-4


慢慢等待即可。运行效果8b的模型凑合能用、14b的模型基本能用,32b的模型使用很是顺滑。 至此,deepseek的本地部署已经完成。

国产AI之光!DeepSeek本地部署教程,效果媲美GPT-4


chatbox

Chatbox 是一个开源的聊天界面工具,专门为大型语言模型(如 GPT、LLaMA 等)设计,提供用户友好的交互界面。

使用chatbox的优势

  • 交互简单
  • 预设prompt(我的搭档)
  • 自定义模型服务方
  • 独立代理

下载

国产AI之光!DeepSeek本地部署教程,效果媲美GPT-4

下载以后一路点点点即可。

环境配置

国产AI之光!DeepSeek本地部署教程,效果媲美GPT-4
  • 点击设置
  • 选择模型提供方
  • 选择模型(本机地址默认即可)

测试

国产AI之光!DeepSeek本地部署教程,效果媲美GPT-4

很是顺滑

🚀 性能加速方案(Ollama专用)

核心加速技术

技术方案
适用场景
实现方法
预期收益
量化加速
低显存设备
使用deepseek-r1:32b-q4_0模型
显存占用降60%
多GPU支持
多卡设备
设置环境变量CUDA_VISIBLE_DEVICES
吞吐量翻倍
内存优化
长文本对话
调整OLLAMA_MAX_MEMORY参数
内存占用降40%

实操命令示例

# 使用量化模型(需先下载)
ollama run 模型-q4_0
# 多GPU支持(指定使用GPU 0和1)
ollama run deepseek-r1:32b

🎨 交互优化技巧

界面增强方案

功能
实现方法
Markdown渲染
在问题末尾添加n请用markdown格式回答
对话流控制
输入/retry重新生成回答  
/forget清除对话历史
语音输入
使用Voice2Text插件
快捷键体系
Ctrl+Enter发送  
Alt+↑调出历史提问

高级交互配置

# 创建~/.ollama/config.yaml
system_prompt: "你是一个精通科技知识的助手,回答请简明扼要,使用中文口语化表达"
temperature: 0.7  # 控制创造性(0-1)
max_length: 4096  # 最大生成长度

🛠️ 常见问题解决方案

问题现象
解决方案
紧急程度
显存不足报错
使用量化模型或换用更小模型
⚠️高危
响应速度慢
设置环境变量OLLAMA_NUM_THREADS=8
🔧中
生成内容中断
输入/continue继续生成
✅低
中文输出夹杂英文
在提问末尾添加「请使用纯中文回答」
🔧中
历史记忆混乱
输入/forget清除上下文
✅低

后记

个人小助手已经搭建完成,大家的工作、生活问题尽情的问吧,不联网,隐私。大家可以关注下,后续基于deepseek我再搭建个知识库分享给大家。

原文始发于微信公众号(5ycode):

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/310289.html

(0)
葫芦侠五楼的头像葫芦侠五楼

相关推荐

发表回复

登录后才能评论
极客之音——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!