项目简介
Omost[1] 通过结合大型语言模型(LLM)的编码能力,创新性地将代码编写与图像生成相结合,实现了一种全新的图像合成技术。
Omost 提供了基于Llama3和Phi3变体的预训练LLM模型,这些模型能够通过特定的虚拟“Canvas”智能体编写代码来构图图像视觉内容,进而由图像生成器的具体实现生成图像。

项目特点
主要特点
-
利用混合数据训练,包括多个数据集的地面真实注释、自动注释图像的提取数据、直接偏好优化(DPO)的增强以及来自OpenAI GPT4o的多模态能力的微调数据。 -
提供官方的HuggingFace空间以及本地部署选项,便于用户快速开始使用Omost。 -
通过一系列预训练模型,Omost能够根据文本描述生成具有高度细节和动态效果的图像。
使用场景
Omost 可用于多种图像生成场景,包括但不限于艺术创作、游戏设计、广告制作等,它能够帮助用户将文本描述转化为可视化图像,从而提高创作效率和创新性。
项目详细使用方法
开始使用
可以通过 官方 HuggingFace 空间[2] 来使用 Omost,或者按照以下步骤进行部署:
-
克隆 Omost 仓库:
git clone https://github.com/lllyasviel/Omost.git
-
进入项目目录:
cd Omost
-
创建并激活 Conda 环境:
conda create -n omost python=3.10
conda activate omost
-
安装 PyTorch 和 torchvision:
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu121
-
安装项目依赖:
pip install -r requirements.txt
-
运行 Gradio 应用:
python gradio_app.py
模型说明
Omost 提供了 3 种预训练的 LLM 模型,以及它们的量化版本,以适应不同的硬件配置和性能需求。
量化模型
-
omost-llama-3-8b-4bits
-
omost-dolphin-2.9-llama3-8b-4bits
-
omost-phi-3-mini-128k-8bits
非量化模型
-
omost-llama-3-8b
-
omost-dolphin-2.9-llama3-8b
-
omost-phi-3-mini-128k
项目示例
-
十九世纪一个衣衫褴褛的男人穿着一件破烂的夹克:

-
侏罗纪恐龙大战:

相关研究
Omost 项目与以下研究相关联:
-
DOCCI: Descriptions of Connected and Contrasting Images[3] -
RPG-DiffusionMaster: Mastering Text-to-Image Diffusion[4] -
Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following[5] -
LLM-grounded Diffusion: Enhancing Prompt Understanding[6] -
Self-correcting LLM-controlled Diffusion Models[7] -
MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation[8]
注:本文内容仅供参考,具体项目特性请参照官方 GitHub 页面的最新说明。
欢迎关注&点赞&在看,感谢阅读~
Github 项目地址: https://github.com/lllyasviel/Omost
[2]
官方 HuggingFace: https://huggingface.co/spaces/lllyasviel/Omost
[3]
DOCCI: Descriptions of Connected and Contrasting Images: https://google.github.io/docci/
[4]
RPG-DiffusionMaster: Mastering Text-to-Image Diffusion: https://github.com/YangLing0818/RPG-DiffusionMaster
[5]
Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following: https://arxiv.org/abs/2311.17002
[6]
LLM-grounded Diffusion: Enhancing Prompt Understanding: https://arxiv.org/abs/2305.13655
[7]
Self-correcting LLM-controlled Diffusion Models: https://arxiv.org/abs/2311.16090
[8]
MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation: https://multidiffusion.github.io/
原文始发于微信公众号(AIGC创想者):5.7K+ Star!Omost:一种全新的图像合成技术,创新性地将大型语言模型(LLM)的编码能力与图像生成相结合
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/315413.html