更加符合人类讲话:Google 谷歌 发布 Tacotron 2 训练神经网络技术
人工智能不断发展,AI语音技术也在不断进步,Google(谷歌)今天发布了第二代Tacotron 2训练神经网络技术,在第一代Tacotron基础上,配合WaveNet生成技术,可在几乎没有任何语法专业性的情况下从文本中生成演讲,而且学习效率更高、更智能,能轻松表达出节奏、语调和韵律,产生比以往更好的音频。
第二代Tacotron 2将WaveNet和Tacotron完美结合在一起,结合了两者优势,发挥出当前技术专业性极限,能使文本和文字叙述来计算所有语言规则,而不再需要人工明确告知系统规则。文本本身被转换为Tacotron风格的“梅尔频谱”,实现节奏和强调,而单词本身则基于WaveNet风格的系统来生成。当两者结合后,将演讲变得具有节奏感、发音以及情感表达等更为自然,它能避免以往个别情况下发出奇怪的发声,生成近乎正常人类的讲话音频。
目前Tacotron 2已将研究成果提交至IEEE国际声学语音和信号处理大会,论文已发表至arXiv,很快将会应用在相关终端产品中。