文本生成图片:只需几句话,就能创造你的想象

文字生成类AI飞速发展, 越发强大.  而随着OpenAI Sora的发布, 相信大家都意识到, AI已经是能够实实在在成为我们的好帮手了.

不仅是OpenAI这样的私有化AI愈发强大, 类似Meta的LLama 2, 国内阿里的QWen等开源AI也雨后春笋的发展起来.

上周六又看到字节发布了开源的SDXL-Lightning, 于是我花了一些时间来学习Text To Image的提示词技巧. 现在把我学习到的一点东西整理成文章, 分享给大家.

Text To Image

先解释下什么是Text To Image

Text To Image就是文本生成图片. 就是你输入一段文字, AI根据你的文字生成对应的图片.  AI方面, 文字生成图片的发展也非常迅速, 令人眼花缭乱.

但总体来说, 前沿的文本生成图片包括

  • Midjourney:  出现的比较早的, 直到现在也非常流行的文本生成图片服务. 属于私有商业服务
  • DALL·E:  最著名的AI公司OpenAI的Text To Image服务, 早期2版本水准较差, 但现在3版本后, 已不弱于Midjourney
  • Stable Diffusion: 文本生成图片方面最有名的开源实现

比如今天字节跳动发布的SDXL-Lightning, 并不是自己完全原创的, 而是基于stabilityai/stable-diffusion-xl-base-1.0上的改进与优化

提示词

如果你关注AI, 一定知道Prompts这个单词, 中文就是提示词.

AI能力虽然强大, 但一个很关键的点就是你要写出足够好的提示词. 因为提示词的重要性, 互联网有很多专门做提示词优化的服务.

可见提示词的重要性.

同样, 对于Text To Image来说, 提示词同样重要.

技巧

好了, 前面说了很多, 接下来进入这篇文章的主题.

这是我今天花了一点时间, 学习如何写出好的Text To Image的一些技巧.

技巧1: 尽量使用英文

好吧, 也许你看到这个, 会觉得有点难受. 但我想说的是, Text To Image的效果最好的是英语

这个是完全可以理解的, 任何AI都是事先经过大量数据训练的. 无论是文本生成 ,语音生成, 或是图片生成, 甚至是未来的视频生成.

这些大量的数据都是什么语言?

当然是英语.

所以, 理所当然, AI对英语的理解最到位, 如果都没有中文数据训练, AI怎么可能知道“元宵节”是什么东西? 而且对于图片生成, 还有光效, 色彩, 流派等, 这些英文更容易让AI理解.

效果差: 使用中文

这个是在字节的SDXL-Lightning的DEMO中生成的

提示词: 生成一个元宵节快乐的图片

文本生成图片:只需几句话,就能创造你的想象

看到没, 图不对题.

因为这个开源的AI可能没有经过大量中文训练, 很可能理解不了“元宵”

改进: 使用英文

提示词: A image of The Chinese Lantern Festival

文本生成图片:只需几句话,就能创造你的想象

是不是有点像模像样了?

可以预料, 这个AI的英文的训练数据中, 元宵是和灯笼这些相关联的.  所以AI生成了灯笼有关的图片.

技巧2: 具体的描述

我们再来看下前面的提示词, 生成一个元宵节快乐的图片

这个太抽象了. 越是抽象, AI生成的东西越不可预测, 什么都有可能. 所以对于AI来说, 你的提示词要明确, 具体. 越细越好.

比如就上面这个提示词, 我们思考下:

  • 什么时候? 什么地方, 有什么样的人或景物

所以, 我们把提示词改进为:  中国元宵节的形象,人们在游玩享受,背景有一个月亮

记住前面我在前面说的, 用英文, 也就是:

An image of The Chinese Lantern Festival with people enjoying and a moon in the background

文本生成图片:只需几句话,就能创造你的想象

如何, 这个效果就会好很多了.

技巧3: 添加风格,特效

图片通常是有风格或特效的, 比如卡通, 写实, 印象, 超现实等. 同样有一些特效, 比如模糊, 光晕

我们生成一幅元宵的卡通风格.

A cartoon style, also Chinese style of image of The Chinese Lantern Festival with a child and her parents enjoying and a moon in the background

文本生成图片:只需几句话,就能创造你的想象

已经是个非常好的图片了.

最后

当然, 这只是我今天在学习相关的资料时, 整理到的一些点, 希望对阅读这篇文章的你有一些帮助. 但这些技巧可能远远不够.

如果我没有记错, AI才一年多前我才听到, 当时就是OpenAI的文本生成.  一年才过, 无论是Openai, Google的Gemini等私有化AI发展迅速, 开源的AI也日益强大.

而AI的能力已经从单纯的文本生成扩展到了图片, 视频, 语音等各个不同的角度. 就以我们程序员来说, Meta前段时间发布了更强大的开源的Code LLama 2, 专门辅助编程的, 这可以是我们很好的伙伴.

迎接AI时代, 已经不可避免.


原文始发于微信公众号(微言码道):文本生成图片:只需几句话,就能创造你的想象

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/248609.html

(0)
小半的头像小半

相关推荐

发表回复

登录后才能评论
极客之音——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!