5.7K+ Star！Omost：一种全新的图像合成技术，创新性地将大型语言模型（LLM）的编码能力与图像生成相结合

项目简介

Omost^[1] 通过结合大型语言模型（LLM）的编码能力，创新性地将代码编写与图像生成相结合，实现了一种全新的图像合成技术。

Omost 提供了基于Llama3和Phi3变体的预训练LLM模型，这些模型能够通过特定的虚拟“Canvas”智能体编写代码来构图图像视觉内容，进而由图像生成器的具体实现生成图像。

5.7K+ Star！Omost：一种全新的图像合成技术，创新性地将大型语言模型（LLM）的编码能力与图像生成相结合

项目特点

主要特点

利用混合数据训练，包括多个数据集的地面真实注释、自动注释图像的提取数据、直接偏好优化（DPO）的增强以及来自OpenAI GPT4o的多模态能力的微调数据。
提供官方的HuggingFace空间以及本地部署选项，便于用户快速开始使用Omost。
通过一系列预训练模型，Omost能够根据文本描述生成具有高度细节和动态效果的图像。

使用场景

Omost 可用于多种图像生成场景，包括但不限于艺术创作、游戏设计、广告制作等，它能够帮助用户将文本描述转化为可视化图像，从而提高创作效率和创新性。

项目详细使用方法

开始使用

可以通过官方 HuggingFace 空间^[2] 来使用 Omost，或者按照以下步骤进行部署：

克隆 Omost 仓库：

git clone https://github.com/lllyasviel/Omost.git

cd Omost

创建并激活 Conda 环境：

conda create -n omost python=3.10
conda activate omost

安装 PyTorch 和 torchvision：

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu121

安装项目依赖：

pip install -r requirements.txt

运行 Gradio 应用：

python gradio_app.py

模型说明

Omost 提供了 3 种预训练的 LLM 模型，以及它们的量化版本，以适应不同的硬件配置和性能需求。

量化模型

omost-llama-3-8b-4bits
omost-dolphin-2.9-llama3-8b-4bits
omost-phi-3-mini-128k-8bits

非量化模型

omost-llama-3-8b
omost-dolphin-2.9-llama3-8b
omost-phi-3-mini-128k

项目示例

十九世纪一个衣衫褴褛的男人穿着一件破烂的夹克：

侏罗纪恐龙大战：

5.7K+ Star！Omost：一种全新的图像合成技术，创新性地将大型语言模型（LLM）的编码能力与图像生成相结合

项目简介

项目特点

主要特点

使用场景

项目详细使用方法

开始使用

模型说明

量化模型

非量化模型

项目示例

相关研究

发表回复

5.7K+ Star！Omost：一种全新的图像合成技术，创新性地将大型语言模型（LLM）的编码能力与图像生成相结合

项目简介

项目特点

主要特点

使用场景

项目详细使用方法

开始使用

模型说明

量化模型

非量化模型

项目示例

相关研究

相关推荐

发表回复

分享到: