5.7K+ Star!Omost:一种全新的图像合成技术,创新性地将大型语言模型(LLM)的编码能力与图像生成相结合

项目简介

Omost[1] 通过结合大型语言模型(LLM)的编码能力,创新性地将代码编写与图像生成相结合,实现了一种全新的图像合成技术。

Omost 提供了基于Llama3和Phi3变体的预训练LLM模型,这些模型能够通过特定的虚拟“Canvas”智能体编写代码来构图图像视觉内容,进而由图像生成器的具体实现生成图像。

5.7K+ Star!Omost:一种全新的图像合成技术,创新性地将大型语言模型(LLM)的编码能力与图像生成相结合

项目特点

主要特点

  • 利用混合数据训练,包括多个数据集的地面真实注释、自动注释图像的提取数据、直接偏好优化(DPO)的增强以及来自OpenAI GPT4o的多模态能力的微调数据。
  • 提供官方的HuggingFace空间以及本地部署选项,便于用户快速开始使用Omost。
  • 通过一系列预训练模型,Omost能够根据文本描述生成具有高度细节和动态效果的图像。

使用场景

Omost 可用于多种图像生成场景,包括但不限于艺术创作、游戏设计、广告制作等,它能够帮助用户将文本描述转化为可视化图像,从而提高创作效率和创新性。

项目详细使用方法

开始使用

可以通过 官方 HuggingFace 空间[2] 来使用 Omost,或者按照以下步骤进行部署:

  1. 克隆 Omost 仓库:
git clone https://github.com/lllyasviel/Omost.git
  1. 进入项目目录:
cd Omost
  1. 创建并激活 Conda 环境:
conda create -n omost python=3.10
conda activate omost
  1. 安装 PyTorch 和 torchvision:
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu121
  1. 安装项目依赖:
pip install -r requirements.txt
  1. 运行 Gradio 应用:
python gradio_app.py

模型说明

Omost 提供了 3 种预训练的 LLM 模型,以及它们的量化版本,以适应不同的硬件配置和性能需求。

量化模型

  • omost-llama-3-8b-4bits
  • omost-dolphin-2.9-llama3-8b-4bits
  • omost-phi-3-mini-128k-8bits

非量化模型

  • omost-llama-3-8b
  • omost-dolphin-2.9-llama3-8b
  • omost-phi-3-mini-128k

项目示例

  • 十九世纪一个衣衫褴褛的男人穿着一件破烂的夹克:
5.7K+ Star!Omost:一种全新的图像合成技术,创新性地将大型语言模型(LLM)的编码能力与图像生成相结合
  • 侏罗纪恐龙大战:
5.7K+ Star!Omost:一种全新的图像合成技术,创新性地将大型语言模型(LLM)的编码能力与图像生成相结合

相关研究

Omost 项目与以下研究相关联:

  • DOCCI: Descriptions of Connected and Contrasting Images[3]
  • RPG-DiffusionMaster: Mastering Text-to-Image Diffusion[4]
  • Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following[5]
  • LLM-grounded Diffusion: Enhancing Prompt Understanding[6]
  • Self-correcting LLM-controlled Diffusion Models[7]
  • MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation[8]

注:本文内容仅供参考,具体项目特性请参照官方 GitHub 页面的最新说明。

欢迎关注&点赞&在看,感谢阅读~


资源列表
[1]

Github 项目地址: https://github.com/lllyasviel/Omost

[2]

官方 HuggingFace: https://huggingface.co/spaces/lllyasviel/Omost

[3]

DOCCI: Descriptions of Connected and Contrasting Images: https://google.github.io/docci/

[4]

RPG-DiffusionMaster: Mastering Text-to-Image Diffusion: https://github.com/YangLing0818/RPG-DiffusionMaster

[5]

Ranni: Taming Text-to-Image Diffusion for Accurate Instruction Following: https://arxiv.org/abs/2311.17002

[6]

LLM-grounded Diffusion: Enhancing Prompt Understanding: https://arxiv.org/abs/2305.13655

[7]

Self-correcting LLM-controlled Diffusion Models: https://arxiv.org/abs/2311.16090

[8]

MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation: https://multidiffusion.github.io/

原文始发于微信公众号(AIGC创想者):5.7K+ Star!Omost:一种全新的图像合成技术,创新性地将大型语言模型(LLM)的编码能力与图像生成相结合

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/315413.html

(0)
小半的头像小半

相关推荐

发表回复

登录后才能评论
极客之音——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!