会演戏的AI主播番茄小说落地情感配 - 生长环境 - 罗汉松罗汉松 - Powered by BBS!NT

我的中心

罗汉松 » 常识 » 问答 » 会演戏的AI主播番茄小说落地情感配

返回列表

发新话题

回复该主题

查看: 23\|回复: 0	会演戏的AI主播番茄小说落地情感配 [复制链接]

发送短消息 UID 222 精华 0 查看公共资料搜索主题搜索帖子 TUhjnbcbe TUhjnbcbe 组别乞丐生日帖子-122 积分-1957 性别注册时间2020-03-27	1^# 字体大小: t T 发表于 2024-07-15 23:52 \|只看楼主编辑：QQ 字节跳动AILab智能语音与音频团队（SpchAudioTam，后文简称SA团队），最新升级的「情感配音」技术在番茄免费小说平台落地，它不仅可以朗读小说，还可以化身「戏精」表演出人物的「喜怒哀乐」。这一新功能借助自然语言理解（Naturallanguagprocssing，NLP）将网文转换成剧本，自动区分旁白对话和对应的情感，采用情感化语音合成（Txt-to-Spch，TTS）技术，合成出单人多风格情感的有声书，能以抑扬顿挫的韵律赋予旁白故事感，以丰富充沛的情感演绎角色对话，从而让听众获得真人播讲般的沉浸式听感。准确、平淡的合成语音被广泛应用在语音助手、新闻朗读等领域，但如果你想在小说阅读场景使用「毫无感情」的合成声音，让霸道总裁、俏皮黄蓉用平直冷冰的机械音讲故事，那就行不通了。为了让AI主播能「哭」会「笑」，像专业配音演员一样传达「深刻的人类情感」，字节跳动AILabSA团队最新升级了「情感配音」技术，并为番茄免费小说提供AI朗读支持。点击下方音频，你能听得出这居然是AI演播的作品嘛？ 00:39 如何打磨出这样令人惊艳的效果？这期间经历了怎样的思考和抉择，本文将为您揭秘该技术诞生和演进的历程。解决「两大难」，「情感配音」技术的抉择番茄免费小说是中国最活跃的免费小说移动阅读平台之一，致力于打造网络文学多元发展产品矩阵。随着5G和智能设备的普及，声音内容的消费场景不断被拓展，「听书」功能将成为各阅读APP拓展其使用场景的利器。AI语音合成技术能减少内容有声化的时间和财务成本，但在小说阅读场景中，常规机器合成语音的「机械」听感，难以增强文本生动性和感染力，用户也较难营造身入其境的沉浸感。 AI能否进行情感化配音，通过情感演绎小说文本，展现小说人物性格特征和情感变化？面对不同的情节（例如当霸道总裁自负的笑出来时），角色能否做出诸如哭泣、大笑等「高浓度」的情感演绎？ AI能否像配音演员一样理解文本，并支持业务规模化生产的需求？面对来自业务的「灵魂三问」，字节跳动AILab语音合成相关负责人表示，有声阅读AI技术需要突破以下两个难点：「贴近真人的AI合成音色」：训练具有情感能力、多种副语言（笑声、哭腔、疑问、叹词、语气词）表达能力的AI音色，实现更精彩的演绎；「自动精准的AI文本理解」：通过文本理解，自动区分旁白和对话，自动判定情感、重音、句间停顿时长；针对AI阅读场景，目前在业界没有完整的技术方案，甚至没有太多相关的学术论文。为了解决「两大难」，字节跳动AILabSA团队将技术路线定为：通过语音合成技术（TTS）积累数量丰富的AI音色矩阵，生产具有丰富情感演绎效果的单播有声书，覆盖番茄各类题材，攻克难点「1」。同时通过自然语言理解技术（NLP）实现自动化的文本语意理解，识别出不同角色的情感、重音、停顿表达，攻克难点「2」。下文将以番茄免费小说为例，展示字节SA团队如何从「情感表达」、「副语言」、「文本理解」三个维度，打造质量堪比付费广播剧的AI朗读效果。「能说」「会演」，AI主播为番茄小说「听书」注入情感为了让AI配音更像真人，能够理解剧本中的关键词及情感，字节跳动AILabSA团队在满足发音清晰、韵律连贯、语调起伏的基础上，研发了基于半监督学习的端到端风格控制声学模型（Cross-spakrEmotionTransfrBasdonSpakrConditionLayrNormalizationandSmi-SuprvisdTraininginTxt-To-Spch,P-FWu,tc,submittdtoICASSP)，使得AI模型不仅「能说」，而且「会演」。字节跳动AILabSA团队相关负责人介绍，他们会按照普鲁契克情感色轮（PlutchiksWhlofEmotions）设计情感类型，可以提供开心、悲伤、惊讶、恐惧等多种情感色彩，再通过情感迁移的方式，让原本没有情感的发音人获得多情感合成效果。相比于传统技术，上述新技术对于录制语音库的限制更少，可以允许发音人在更大范围内自由发挥。同时，专门加入的一些情绪脚本，可以更好地收集情感语音，帮助声学模型使用半监督学习GlobalStylTokns（GSTs）对情感表征进行建模，实现说话人音色与情感的解耦。能「哭」会「笑」，7种笑声模型以声传情但仅仅实现情感表达还远远不够，通过与真人主播的详细对比分析，字节跳动SA团队发现人类语言是以声传情的，因此「副语言」是口语表达不可或缺的重要因素。「副语言」也称「类语言」，指伴随话语的某些声音现象，包括的语音要素特征如停顿、重音、语速、语调等，以及言语的功能性发声如笑声、哭声、叹息声、叫喊声等。于是，团队针对「副语言」现象进行了精细化的建模还原，实现了在有声书中常见的重音停顿、疑问反问、笑声哭腔、以及各类叹息、叫喊声等。值得一提的是，在每一类「副语言」现象中，字节跳动AILabSA团队都进行了十分细致的建模，单单一个笑声就有多达5~7种，适用于不同情境下的不同语意表达。另外，针对小说场景，字节跳动AILabSA团队还对风格适配度、情感连续性、情感区分性、段落疲劳度进行更加细分的测评，保证合成的效果足够接近真人且具有沉浸感。突破小说理解技术，AI文本理解效率远超人工对于有声小说而言，仅仅在声学层面实现高表现力的合成还远远不够，如何能够实现小说文本的语意理解自动制作话本，才是贴近真人朗读和批量化生产的关键。在精品AI有声书制作中，往往需要人工对小说文本进行标识：划分出对话与旁白的文本，并标识出每个角色的台词及其所要表达出的情感。这一过程往往十分的耗时耗力，导致了精品AI有声书无法大规模地扩量生产。针对这一痛点，字节跳动AILabSA团队提出了「AI文本理解」模型-一套多任务的长文本理解AI系统（AChaptr-WisUndrstandingSystmforTxt-To-SpchinChinsNovls,J-JPan,tc,ICASSP）。「AI文本理解」通过对于上万本的小说学习，能够自动化地从小说文本中区分出对话的角色、判别出对话中所想要表达出的情感、预测出合理的句间停顿，极大地提升了精品AI有声书的制作效率，使得标注人力不再成为AI有声书生产的瓶颈。关于字节跳动AILab智能语音与音频团队字节跳动AILab智能语音与音频团队（AI-LabSpchAudioTam），致力于为公司各个业务提供音频理解、音频合成、对话交互、音乐检索和智能教学等多种AI能力与方案。自年成立以来，团队专注于研发行业领先的AI智能语音技术，不断探索AI与业务场景的结合，以实现更大的用户价值。我们为今日头条、抖音、剪映、西瓜视频、番茄小说、飞书办公套件、大力智能教育台灯等字节跳动旗下的明星级产品提供了各类AI解决方案。截至目前，已服务了上百个业务合作伙伴。伴随字节跳动业务的飞速发展，我们的语音识别和语音合成覆盖了多种语言和方言。未来，我们希望发展70+语言和20+方言，用于满足内容创作与交流平台的需求。团队已有15篇论文入选AI顶级会议，其中音频生成方向接受了7篇论文。团队招聘信息：
	分享转发

	TOP

上一主题| 下一主题

发新话题

回复该主题