
自人工智能技术被广泛应用以来,语音合成、转化、克隆,一直是颇为热门的研究领域。强如谷歌、微软也在很久前便推出了自己的 Text-to-Speach(文本转语音)服务。
此前我用的比较多,使用体验上比较好的是微软的 Azure,它生成的文本听起来几乎跟真人无异。
美中不足的是,经过它自动转化的语音,里面一些人类情感的表现并不是太好,你需要通过它的 SSML 标记对语音进行调整。
原本我以为根据文本来完美复刻人声,这项技术还要再等待一年才能成熟,毕竟结合 GPT-4 的能力,微软现在是绝对有实力实现这一技术的。
直到我今天在 GitHub 上看到这么一个项目,才不禁感受到当下时代,AI 技术进展到底有多快。
这个项目叫 Bark ,仅用了短短一天时间,便顺利冲上 GitHub 榜单,拿下第一的宝座。
GitHub:https://github.com/suno-ai/bark
它的神奇之处,在于能够生成高度逼真的语音(支持多个语种)以及其他音频。
众所周知,人类声音的情感表达,往往能够直接反映出它的喜怒哀乐,这些声音自然也包括多种非正常的语言交流,如大笑、叹息和哭泣等。
AI 通过文本生成的声音,到底能有多逼真,这里我先放一段示例让大家感受下。
思考与大笑:
Hello, my name is Suno. And, uh — and I like pizza. [laughs] But I also have other interests such as playing tic tac toe.
你好,我的名字是 Suno。嗯,我喜欢披萨。[笑] 但我也有其它兴趣,比如玩「井」字游戏。
说悄悄话:
I’ve got a secret to tell you. I can pass the Turing test.
我有一个秘密要告诉你,我可以通过图灵测试。
这些音频包括音乐、背景噪音和一些简单的音效。是的,你没听错,你甚至可以拿它来生成音乐。
Bark 可以生成所有类型的音频,并且基本上看不出语音和音乐之间的区别。
有时, Bark 也会有选择性的将文本转为音乐。如果你想让它实时转换,可以直接在文字中,内嵌音符 ♪
来触发这一操作。
比如,当你给它这样一段 Prompt 时:
text_prompt = """
♪ In the jungle, the mighty jungle, the lion barks tonight ♪
"""
audio_array = generate_audio(text_prompt)
它便会生成音乐:
那么,Bark 主要支持哪些语种呢?
理论上,只要拥有足够多的高质量对齐数据,Bark 可以支持当下所有的主流人类语音,这里面自然也包括普通话,以及使用人群较多的方言。
目前,Bark 支持多种开箱即用的各种语言,项目 README 中,作者是给出了13 种语言作为参考,其中包括当下主流的英语、汉语、德语、日语、西班牙语等等。
除此之外,Bark 还能自动根据你的输入文本,自动识别并确定语言。当出现代码转换文本提示时,Bark 将尝试使用相应语言的本地口音。
总的来说,目前英语质量是最好的,但是随着该项目的迭代,我相信其他语种的水准也能很快跟上。
下一步,Bark 团队还将上线一个 Playground,你可以在上面直接免费试用和体验这项功能,不过也跟当下比较火的 AI 项目一样,需要先加入 waitlist 才能使用。
waitlist:https://3os84zs17th.typeform.com/suno-studio
我预计,在接下来一年内,随着各个大语言模型能力的进化,文本转语音技术也将变得更为成熟,AI 生成的人类声音也将越来越逼真,并达到以假乱真的效果。
如果那一天真正到来,AI 应该能替代不少播音员,以及动画、游戏、电影中声优的日常配音工作。很多先前比较依赖声音的行业,都会开始被 AI 彻底颠覆。
如果你想了解更多有趣、实用的 AI 技术,以及 ChatGPT 新进展,欢迎点击下方链接,加入我们社群进一步交流探讨。
👇 每个进群的人,都会收到我们赠送的一枚 ChatGPT 账号。
社群入口:
原文始发于微信公众号(Java知音):
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/140883.html