VALL-E简介
VALL-E一种用于文本到语音合成 (TTS) 的语言建模方法。具体来說,我们使用从现成的神經音频编解碼器模型派生的离散代碼来訓练神經编解碼器语言模型(称為 VALL-E),并將 TTS 視為条件语言建模任務,而不是像以前的工作那样連續訊號回歸。在预訓练阶段,我们將 TTS 訓练資料擴展到 60K 小时的英语语音,这是现有系統的數百倍。VALL-E 出现了上下文学習能力,可用于合成高质量的个性化语音,只需錄制 3 秒的未見过的說话者的注册錄音作為声音提示。實验結果表明,VALL-E 在语音自然度和說话人相似度方面明顯優于最先进的零样本 TTS 系統。此外,我们發现 VALL-E 可以在合成中保留說话者的情绪和声音提示的聽觉環境。
VALL-E官网: https://www.microsoft.com/en-us/research/project/vall-e-x/vall-e/
一、文本轉语音
这是微软研究院最新推出的一款基于语言模型的文本轉语音(TTS)技術,它可以用3秒鐘的音频样本来模擬任何人的声音,并且保留說话人的情感和声音環境。聽起来是不是很神奇?让我们一起来看看它是怎么做到的!
首先,我们要了解一下传統的TTS技術是怎么工作的。一般来說,TTS技術需要把文本轉换成音频波形,这个过程涉及到两个步驟:
第一步是把文本轉换成梅尔频谱(mel-spectrogram),这是一种對声音訊號的频率和时间的表示;
第二步是把梅尔频谱轉换成音频波形,这可以用神經網路或者声碼器(vocoder)来實现。这种方法虽然可以生成比較自然的语音,但是也有一些缺点:比如需要大量的訓练資料,對說话人和内容的控制不够靈活,以及难以實现声音的个性化和多样化。
那么,Vall E是如何解决这些問题的呢?Vall E的核心思想是把TTS看作一个条件语言模型(conditional language model)的任務,而不是一个連續訊號回歸(continuous signal regression)的任務。也就是說,它不直接生成音频波形,而是生成一种离散的声碼器代碼(codec code),然后用一个神經網路声碼器来解碼成音频波形。这种声碼器代碼是由一个叫做EnCodec的技術提供的,它可以用很少的比特數来压缩和编碼音频訊號,而且保持很高的质量。
Vall E不仅可以模擬說话人的声音特征,还可以保留說话人的情感和声音環境。比如說,如果你给它一个開心或者悲伤或者生氣或者驚訝或者無聊或者任何其他情绪状態下說话人錄音作為声音提示,它就会生成相应情绪状態下說话人语音;如果你给它一个在教室或者办公室或者公园或者餐廳或者任何其他場景下說话人錄音作為声音提示,它就会生成相应場景下說话人语
二、vall-E有哪些可能的用途?
Vall E的应用場景非常广泛,比如零样本TTS、语音编輯、内容創作等。零样本TTS是指不需要预先訓练說话人模型,只需要一个短暂的錄音就可以生成任何内容的语音。
语音编輯。Vall E可以透過修改文本来改變语音的内容,这對于那些想要修正或者增删语音中的一些信息的人来說是非常有用的。比如說,你可以用Vall E来修改你的演講稿或者錄音笔記,让它们更符合你的意圖或者需求。比如:可以用来给短影片进行配音;你可以输入自己的声音資料,克隆一个你自己的声音出来,然后输入文本,即可输出你自己的音色朗讀;
如果是公司、个人工作室,甚至可以用Vall E完成配音、英语朗讀等等相關的工作;可以大幅度缩減成本,提高效率;比如一部分錄音室就可以使用这种技術进行语音合成;而且随时修改,非常便捷;
内容創作。Vall E可以結合其他的生成型AI模型比如GPT,来創造出有趣或者有价值的语音内容,这對于那些想要用语音来吸引或者影响聽眾的人来說是非常有意思的。比如說,你可以用Vall E和GPT-4来生成一首詩或者一段故事,并且用你喜歡的声音来朗讀它们。当然你也可以創作小說,然后用Vall E把它轉换成有声書;
数据评估
本站ai工具百寶箱提供的VALL-E都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由ai工具百寶箱实际控制,在2025年6月2日 上午11:32收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,ai工具百寶箱不承担任何责任。