太恐怖了，这些声音竟然都是 AI 生成的！

公众号关注 “Java知音”

设为 “星标”，每天带你逛 GitHub！

自人工智能技术被广泛应用以来，语音合成、转化、克隆，一直是颇为热门的研究领域。强如谷歌、微软也在很久前便推出了自己的 Text-to-Speach（文本转语音）服务。

此前我用的比较多，使用体验上比较好的是微软的 Azure，它生成的文本听起来几乎跟真人无异。

美中不足的是，经过它自动转化的语音，里面一些人类情感的表现并不是太好，你需要通过它的 SSML 标记对语音进行调整。

原本我以为根据文本来完美复刻人声，这项技术还要再等待一年才能成熟，毕竟结合 GPT-4 的能力，微软现在是绝对有实力实现这一技术的。

直到我今天在 GitHub 上看到这么一个项目，才不禁感受到当下时代，AI 技术进展到底有多快。

这个项目叫 Bark ，仅用了短短一天时间，便顺利冲上 GitHub 榜单，拿下第一的宝座。

GitHub：https://github.com/suno-ai/bark

它的神奇之处，在于能够生成高度逼真的语音（支持多个语种）以及其他音频。

众所周知，人类声音的情感表达，往往能够直接反映出它的喜怒哀乐，这些声音自然也包括多种非正常的语言交流，如大笑、叹息和哭泣等。

AI 通过文本生成的声音，到底能有多逼真，这里我先放一段示例让大家感受下。

思考与大笑：

Hello, my name is Suno. And, uh — and I like pizza. [laughs] But I also have other interests such as playing tic tac toe.

你好，我的名字是 Suno。嗯，我喜欢披萨。[笑] 但我也有其它兴趣，比如玩「井」字游戏。

说悄悄话：

I’ve got a secret to tell you. I can pass the Turing test.

我有一个秘密要告诉你，我可以通过图灵测试。

这些音频包括音乐、背景噪音和一些简单的音效。是的，你没听错，你甚至可以拿它来生成音乐。

Bark 可以生成所有类型的音频，并且基本上看不出语音和音乐之间的区别。

有时， Bark 也会有选择性的将文本转为音乐。如果你想让它实时转换，可以直接在文字中，内嵌音符 ♪ 来触发这一操作。

比如，当你给它这样一段 Prompt 时：

text_prompt = """
    ♪ In the jungle, the mighty jungle, the lion barks tonight ♪
"""
audio_array = generate_audio(text_prompt)

它便会生成音乐：

那么，Bark 主要支持哪些语种呢？

理论上，只要拥有足够多的高质量对齐数据，Bark 可以支持当下所有的主流人类语音，这里面自然也包括普通话，以及使用人群较多的方言。

目前，Bark 支持多种开箱即用的各种语言，项目 README 中，作者是给出了13 种语言作为参考，其中包括当下主流的英语、汉语、德语、日语、西班牙语等等。

除此之外，Bark 还能自动根据你的输入文本，自动识别并确定语言。当出现代码转换文本提示时，Bark 将尝试使用相应语言的本地口音。

总的来说，目前英语质量是最好的，但是随着该项目的迭代，我相信其他语种的水准也能很快跟上。

下一步，Bark 团队还将上线一个 Playground，你可以在上面直接免费试用和体验这项功能，不过也跟当下比较火的 AI 项目一样，需要先加入 waitlist 才能使用。

waitlist：https://3os84zs17th.typeform.com/suno-studio

我预计，在接下来一年内，随着各个大语言模型能力的进化，文本转语音技术也将变得更为成熟，AI 生成的人类声音也将越来越逼真，并达到以假乱真的效果。

如果那一天真正到来，AI 应该能替代不少播音员，以及动画、游戏、电影中声优的日常配音工作。很多先前比较依赖声音的行业，都会开始被 AI 彻底颠覆。

如果你想了解更多有趣、实用的 AI 技术，以及 ChatGPT 新进展，欢迎点击下方链接，加入我们社群进一步交流探讨。

👇 每个进群的人，都会收到我们赠送的一枚 ChatGPT 账号。

社群入口：

原文始发于微信公众号（Java知音）：

文章由极客之音整理，本文链接：https://www.bmabk.com/index.php/post/140883.html

太恐怖了，这些声音竟然都是 AI 生成的！

相关推荐

发表回复

分享到: