前言
今天的主角,Ollama
Ollama Windows预览版出来一段时间了,官方的介绍是要求Windows 10 及以上版本。另外我的多篇文章都是基于Ollama测试的,
Ollama简介
Ollama 是一个开源框架,专门设计用于在本地运行大型语言模型(Large Language Models,简称LLMs)。它通过将模型权重、配置和数据捆绑到一个包中,优化了设置和配置细节,包括GPU使用情况,从而简化了在本地运行大型模型的过程。Ollama 支持多种模型,例如 Llama 2、Code Llama、Mistral、Gemma 等,并允许用户根据特定需求定制和创建自己的模型。
Ollama 的主要特点包括:
-
1. 多平台支持:Ollama 支持 macOS 和 Linux 平台,Windows 平台的预览版也已发布。安装过程简单,用户只需访问 Ollama 的官方网站下载相应平台的安装包即可。
-
2. 易于使用:通过简单的命令行操作,用户可以启动和运行大型语言模型。例如,要运行 Gemma 2B 模型,只需执行命令
ollama run gemma:2b
。 -
3. Docker 容器部署:Ollama 设计用于在 Docker 容器中部署 LLM,使得部署和管理 LLM 的过程变得简单。
-
4. 基于 Go 语言开发:Ollama 是用 Go 语言编写的,它提供了类似于 Docker 的命令行交互方式,如 list、pull、push、run 等命令,使得模型的应用标准类似于 Docker。
-
5. 模型管理:Ollama 提供了一系列命令来管理模型,如列出模型列表、显示模型信息、拉取模型、推送模型、拷贝模型、删除模型等。
-
6. API 接口:基于 Go 语言中的 Web 框架 gin,Ollama 提供了一些 API 接口,允许用户像与 OpenAI 提供的接口那样进行交互。
-
7. 模型仓库:Ollama 提供了一个模型仓库,类似于 GitHub 或 DockerHub,用于存放和分享大模型。用户可以自定义模型并上传到仓库供他人使用。
-
8. 兼容性:Ollama 集成了 OpenAI 接口的兼容,允许用户利用与 OpenAI 集成的任何包来与 Ollama 进行交互。
-
9. 社区支持:Ollama 拥有活跃的社区,开发者可以通过提交 PR(Pull Request)来改进和扩展框架的功能。
ARM64 Windows下安装Ollama
本次测试在UTM 安装的Windows 11虚拟机(ARM64位)中完成。
安装Ollama
直接双击 OllamaSetup.exe, 报错,
查代码,得知OllamaSetup.exe[1] 是使用Inno Setup[2] 打包,第一时间想到 Inno Setup Unpacker[3] (一个可以解压缩由 Inno Setup 打包的 .exe
文件的工具)。
使用很简单
innounp.exe -x OllamaSetup.exe
程序会解压缩到当前目录下的{app}
目录(没错,目录名带了花括号),
体验Ollama
解压缩就等于安装好了,经测试可以正常使用 其中 ollama app.exe
为运行server的应用,常驻系统托盘,
ollama.exe
为核心程序,用法如下,
Usage:
ollama [flags]
ollama [command]
Available Commands:
serve Start ollama 运行ollama服务
create Create a model from a Modelfile 从Modelfile创建模型
show Show information for a model 显示模型信息
run Run a model 运行模型(模型不存在,则自动下载)
pull Pull a model from a registry 从注册表下载模型
push Push a model to a registry 将本地模型推送到注册表
list List models 显示本地安装了哪些模型
cp Copy a model 拷贝模型
rm Remove a model 删除模型
help Help about any command 帮助
Flags:
-h, --help help for ollama
-v, --version Show version information
Use "ollama [command] --help" for more information about a command.
做个测试
ollama run gemma:2b
从截屏可以看出,我是在虚拟机下完成的测试:
-
• CPU:1.00 GHz ARM 64
-
• 内存:4.00 GB
-
• 系统:Windows 11 Pro,
-
• 模型:是Google 的Gemma 2
这个效果还满意吧。
模型推荐
-
• 阿里千文:qwen:2b, qwen:7b, qwen:14b 或者别版本, 自己测试哪个可以跑起来。
-
• Google :gemma:2b 和gemma:7b
客户端
官方推荐open-webui[4]
这个一般建议在Docker里运行,如果本地运行,需要准备的环境比较复杂,因为它同时依赖Python和Node.js
我推荐chatbox[5]
后记
打算写这篇文章的时候,还在想,这有意义吗?虚拟机里跑那么慢,写完了才想起来,其实微软的Surface 就是ARM 64的,顺便搜了下,发现还是有不少品牌使用ARM 64 CPU的,比如华为, 小米,联想,华硕,Dell等。
引用链接
[1]
OllamaSetup.exe: https://ollama.com/download/OllamaSetup.exe[2]
Inno Setup: https://jrsoftware.org/isinfo.php[3]
Inno Setup Unpacker: https://innounp.sourceforge.net/[4]
open-webui: https://github.com/open-webui/open-webui[5]
https://chatboxai.app/zh/install?download=win64#: https://chatboxai.app/zh/install?download=win64
原文始发于微信公众号(alitrack):ARM 64 Windows 如何部署私有化大模型?
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/236971.html