首页>>数据>>内容

不止5秒复刻，火山引擎语音合成大模型全面升级

时间：2024-04-12 11:06来源：网络阅读量：8746 会员投稿

自2022年起，生成式AI的爆发助推语音技术快速升级。语音作为高频的交互形式，在多个领域的需求颇为强烈，尤其是在追求高自然度语音合成上，业界与学术界均投入诸多研发资源。

火山引擎语音团队曾于2023年推出zero-shot(零样本学习)的极速版声音克隆。近期火山语音再一次升级，推出大模型版超自然语音合成和5s极速声音克隆升级版。致力于多个语音场景的深耕，为陪伴式AI交互、沉浸式听书、跨语种内容生产、企业客户服务等场景的企业级客户提供超自然的声音体验。

火山引擎语音合成大模型全面升级

1. 超自然的大模型精品声音

火山引擎正式推出了基于大模型的精品音色语音合成技术。相较于传统小模型的语音合成，大模型语音合成能够支持依照上下文，洞悉文本中隐含的情绪、说话人角色等信息，进而给出情绪更有表现力、韵律更为自然的精准表达。

2. 5秒极速声音克隆升级版

火山引擎语音团队曾在2023年发布了 MegaTTS 声音克隆技术，此次升级后的超自然克隆，在多个维度均有显著提升：

● 音色的相似度提升：尤其是在高表现力、口音的输入上做到高度还原。

● 声音的自然度提升：讲话的音调、韵律、节奏、情感等更接近真人表现。

● 多语种表现力提升：在英文等外语的发音上更标准，讲话韵律上更接近当地人的表达。

典型应用场景新探索

自2023年起，火山引擎与合作伙伴围绕语音合成技术的4个典型场景展开应用探索，通过小规模的部署测试与迭代，对新一代语音引擎在各行各业的广泛应用有了更多实践与经验积累：

1. 陪伴式 AI 交互场景

在陪伴式 AI 交互场景中，客户希望构建更为智能化的语音对话交互系统。用户可以使用自然语言作为输入，系统会以多种模态输出的方式予以应答。在这个链路中，上一代的语音合成效果在口语化、情感变化等方面的表现还不够出色。基于大模型版本的语音合成，可以提供超自然、媲美真人的语音播报效果，并允许用户自定义声音，实现更具个性化的呈现方式。火山引擎提供的语音能力已经在豆包等场景中落地应用。

2. 沉浸式听书场景

传统的 AI 听书一般是由单一音色进行播讲，其播报风格总体较为平淡，毫无变化，难以依据文本语义呈现出不同的情感演绎，长时间听书易使人感到枯燥乏味。

相较而言，火山引擎依托大模型构建的音色矩阵，AI 主播不光能“哭”而且会“笑”，犹如专业配音演员那样表达“深刻的人类情感”，满足用户“沉浸式阅读”的需求。此外，火山引擎也正在推进“大模型多角色演播方案”的构建，融合角色分明、声情并茂的音色矩阵，为用户提供如同真人有声剧一般的高品质听书体验。

3. 跨语种内容生产场景

升级后的大模型声音克隆，不但能够维持在本语言上的高度还原，还支持跨语种的配音。即使用户仅会说中文，也可借助跨语言克隆技术，完成地道的英语、日语、印尼语等语种表述。这种能力便于用户进行跨国交流，助力翻译视频、播客等内容，让创作者和企业能够用自己的声音触达到更多全球各地的受众。

4. 企业客户服务场景

在客户服务场景中，火山引擎可以实现高度拟人化的 AI 声音，复刻的 AI 音色与人工客服本人一致，毫无违和感。机器人外呼时，坐席可以听到客户对话，分析当前客户情绪以及经营潜力，并在适当时机无缝接入，达到智能化协呼效果。这不仅提高了客户体验，同时也降低了纯 AI 外呼的客诉率。

语音合成技术的部署与应用，须有严密的语音认证授权和安全防护机制，来保障技术的安全运用。火山引擎已施行了一系列安全举措，包括数据收集、使用及存储等方面，确保用户本人在完全知晓并完成授权的状况下达成声音克隆，其音色只应用于授权范围内的应用场景，最大限度地降低语音合成技术被滥用的风险。

目前，火山引擎语音大模型能力已经在豆包、剪映、抖音、番茄小说等多款内部产品展开应用，并逐渐向企业开放用以拓展更多 AI 语音应用场景。

火山引擎作为字节跳动旗下的云服务平台，将在 AI 及数据方向深度探索，在语音方面，将更多地采用大模型等先进技术，达成更为优质的交互和互动，帮助企业做好用户体验的创新工作，推动行业的智能化发展。

声明：免责声明：此文内容为本网站转载企业宣传资讯，仅代表作者个人观点，与本网无关。仅供读者参考，并请自行核实相关内容。

热门更新

今日推荐

苹果VisionPro头显用作Mac虚拟显示

，苹果VisionPro头显可以让用户在虚拟空间中创建和使用各种应用，还可以无线...

奥迪activesphere概念车国内首秀：

，奥迪旗下的activesphere四门跨界轿跑概念车6月8日在上海迎来国内首秀...

消息称三星酝酿NAND存储晶圆涨价，报价渐趋

，据digitime报道，三星计划提高NAND晶圆价格。此外，如果消费电子市场需...

今日速递

致敬新一代中国女工，薇诺娜妇女节主
王牌单品特护霜首次升级，薇诺娜跨入
打响CNY囤货第一枪，小红书「红薯
快手次元IP盛典精彩收官，打造年轻
新年颂爱之选，小红书「奢品腕表&奢
上香 VS返乡？华为智慧搜索联合去
百事“把乐带回家”，今年“乐”什么
小红书X沃尔沃EM90：打造高品质
天川力量（NGC Power）助力
大健康消费扩容，品牌营销如何面临新

图文推荐

迄今最大最全人类肺细胞图谱公布

迄今最大、最全面的人类肺细胞图谱8日发表在《自然·医学》杂志上。通过结合近40项...

乘联会：5月新能源车市场零售达58万辆同比增

，乘联会今天公布了最新的2023年5月全国乘用车市场分析报告。数据显示，今年5月...

华硕发布RISC-V架构单板计算机Tinke

，华硕旗下华硕智慧物联网公司近日宣布推出以RISC-V架构打造的多功能单板计算机...