概述
语音合成(Text-to-Speech, TTS) 是指将输入文字合成为对应语音信号的功能,输出音频文件,最终由相关设备朗读出来。
SamBERT是达摩院语音实验室设计的一种基于Parallel结构的改良版TTS模型,它具有以下优点:
-
Backbone采用Self-Attention-Mechanism(SAM),提升模型建模能力。 -
Encoder部分采用BERT进行初始化,引入更多文本信息,提升合成韵律。 -
Variance Adaptor对音素级别的韵律(基频、能量、时长)轮廓进行粗粒度的预测,再通过decoder进行帧级别细粒度的建模;并在时长预测时考虑到其与基频、能量的关联信息,结合自回归结构,进一步提升韵律自然度. -
Decoder部分采用PNCA AR-Decoder,自然支持流式合成。
其架构图如下:对于SamBERT更详细的技术介绍,可参考:文档[1]。本篇主要讲解模型实际的试用,对于技术原理给出的魔塔文档链接已经比较详细的介绍了。
ModelScope试用
在魔塔社区[2]上,提供了SamBERT的创空间和模型库:这些创空间与模型库的文档非常详细,按照文档直接试用即可,每个魔塔新用户都有免费GPU服务器试用名额,可以玩转一下这些模型。
我选择的场景是个人声音定制,选择创空间,然后录制声音,开始训练:开始体验:
合成后,播放录音,效果不错,还是可以的。当然对于长上下文、方言等场景支持有一定的限制。
私有化搭建
模型库:SambertHifigan个性化语音合成-中文-预训练-24k[3] 支持私有化部署,对于一些简单业务场景或是个人试玩,可以在服务器上搭建。该模型库介绍很详细,直接按流程就可以部署与微调。
写在结尾
对于一些业务场景,如果要求不是很高,不是很复杂;我个人是强烈建议在ModelScope上找找开源模型,然后私有化部署。之前我个人还遇到一些场景也是在ModelScope找模型部署搭建使用。现在机器学习/深度学习/神经网络等人工智能算法应用将会越来越普及,我们也可以考虑将其纳入业务场景应用中,而不是只考虑业务场景的CRUD;闲余时间还可以阅读分析下原理。
文档: https://www.modelscope.cn/docs/sambert
[2]
魔塔社区: https://www.modelscope.cn/search?search=sambert
[3]
SambertHifigan个性化语音合成-中文-预训练-24k: https://www.modelscope.cn/models/iic/speech_personal_sambert-hifigan_nsf_tts_zh-cn_pretrain_24k/summary
原文始发于微信公众号(阿郎小哥的随笔驿站):聊聊个人声音定制的开源模型试用
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/266945.html