188体育app官网_188体育投注

返回首页
您的位置:首页 > 新闻 > CCF新闻 > ADL

ADL135《智能语音交互技术》开始报名-线上线下同步举办

阅读量:509 2022-09-29 收藏本文

CCF学科前沿讲习班

The CCF Advanced Disciplines Lectures

CCFADL第135

主题 智能语音交互技术

2022年11月18-20日

本期CCF学科前沿讲习班《智能语音交互技术》,分别对语音识别、语音合成、语音前端处理、口语对话等技术最新研究进展进行系统性梳理,帮助学员理解智能语音交互方面的基本概念、主要挑战和解决方法,掌握该领域的一系列前沿技术,并通过实际案例了解语音的应用前景,开阔科研视野,增强实践能力。

本期ADL讲习班邀请到了本领域9位来自于著名高校与企业科研机构的重量级专家学者做主题报告。他们将对智能语音交互方面的最新进展进行深入浅出的讲解,为听众展示在语音领域的实践案例, 并介绍如何解决并行训练效率的挑战,如何部署模型等解决语音落地问题的宝贵经验。


学术主任
谢磊 西北工业大学教授

主办单位:中国计算机学会

承办单位:OPPO广东移动通信有限公司


活动日程

20221118

9:00-9:15

开班仪式

9:15-9:30

全体合影

9:30-11:30

语音合成讲座1语音合成技术综述:基础与前沿

吴志勇,清华大学深圳国际研究生院副研究员

11:30-13:00

午餐

13:00-15:00

对话交互讲座1面向亿级用户的小布助手对话式AI算法系统实践与思考

杨振宇,OPPO小布智能中心-NLP与对话算法负责人

15:00-15:15

休息

15:15-17:15

语音识别讲座1统计语音识别中的鲁棒性问题和自适应研究

钱彦旻,上海交通大学计算机科学与工程系教授,上海交通大学-思必驰联合实验室副主任

20221119

9:30-11:30

语音前端讲座1语音前端处理技术和应用

付强,阿里巴巴达摩院研究员

11:30-13:00

午餐

13:00-15:00

语音合成讲座2:基于深度学习的话者转换

凌震华,中国科学技术大学信息学院教授

15:00-15:15

休息

15:15-17:15

对话交互讲座2:多模态多轮对话技术的最新进展及应用

吴友政,京东科技高级总监,语音语言算法部负责人

20221120

9:30-11:30

语音识别讲座2端到端语音识别的进展

李锦宇,美国微软公司的Partner应用科学家和技术主管

11:30-13:00

午餐

13:00-15:00

语音前端讲座2面向多人交互场景的语音预处理技术

杜俊,中国科学技术大学语音及语言信息处理国家工程实验室副教授

15:00-15:15

休息

15:15-17:15

语音识别讲座3数据高效的多语言与跨语言语音识别

欧智坚,清华大学电子工程系副教授

17:15-17:30

小结


特邀讲者

李锦宇 美国微软公司的Partner应用科学家和技术主管

李锦宇ADL135

讲者简介:李锦宇佐治亚理工大学博士,现任美国微软公司的Partner应用科学家和技术主管。他带领一个团队设计和改进语音建模算法和技术,以确保微软的语音识别产品具有世界领先水平。他的主要研究兴趣涵盖语音识别的多个主题,包括端到端建模、深度学习、噪声鲁棒性等。他是《Robust Automatic Speech Recognition -- A Bridge to Practical Applications》一书的第一作者。自 2017 年起担任 IEEE 语音和语言处理技术委员会成员。2015 年至 2020 年,他还担任 IEEE/ACM Transactions on Audio, Speech and Language Processing 的副主编。报告题目:端到端语音识别的进展

报告摘要语音识别的最新动向是从混合模型语音识别转换为端到端 (E2E) 语音识别。尽管 E2E 模型在大多数标准数据库测试中都达到了最好的结果,但目前仍有许多的商业 语音识别系统使用混合模型。这是因为很多实际因素会影响产品模型的部署决策。传统混合模型几十年来一直针对产品应用进行优化,一般来说它们通常能够在这些因素上有很好的表现。如果不针对这些因素提供出色的解决方案,E2E 模型很难大规模商业化。在本次报告中,我将从工业界的角度来概述 E2E 模型的最新进展,以及解决这些挑战的技术。


欧智坚
清华大学电子工程系副教授、博士生导师

欧智坚ADL135

讲者简介:欧智坚,清华大学电子工程系副教授、博士生导师,研究方向是语音识别与人机对话、机器智能(特别是概率图模型理论及应用)。担任IEEE音频语音语言期刊(TASLP副主编Computer Speech & Language编委,IEEE语音语言技术委员会(SLTC)委员,IEEE言语技术(SLT2021大会主席,中国计算机学会(CCF杰出会员及语音对话与听觉专业组委员中国声学学会(ASC)语言声学与听觉分会委员以及多个国际会议组委会成员、多个国际会议、学术期刊和国家级项目评审人。作为负责人多次承担自然科学基金、科技部、教育部等国家项目并多次赢得技术评测,与中国移动、IntelIBMPanasonicToshibaApple等合作研发。在TPAMI/TASLP/ICLR/UAI/AAAI/ICASSP/ACL/电子学报等重要学术期刊和会议发表论文近百篇。获得省部级科技奖3及多次国内外学术会议优秀论文奖

报告题目:数据高效的多语言与跨语言语音识别

报告摘要:世界上共有7099个语种和141个不同的语系,将语音识别技术拓展到多语言与跨语言场景,面临新的挑战。多语言语音识别,汇聚多语言的语音数据来训练一个多语言模型,并在零样本或小样本下对新语言进行跨语言语音识别,在一定程度上缓解当前语音识别技术对大量标注的依赖。成功的多语言与跨语言语音识别的关键是,提升多语言训练中的信息共享并最大限度地将知识从充分训练的多语言模型迁移到新语言的模型,以此促进样本高效,实现在标注样本量不变的条件下提升系统性能。本报告将围绕此中心思想,系统地介绍相关技术。首先,我们将简述概率图模型理论,并在其框架下介绍语音识别模型和算法的基础知识,我们将分离神经网络架构和概率模型定义,以建立对现有技术的灵活认识。然后,重点介绍多语言与跨语言语音识别技术,包括声学单元选择,音韵学发音特征,模型构建,多语言信息共享的方式,迁移学习等。最后,指出开放性问题及若干探索,如神经架构搜索等最新技术。


钱彦旻
上海
交通大学计算机科学与工程系教授,上海交通大学-思必驰联合实验室副主任

钱彦旻ADL135

讲者简介钱彦旻:上海交通大学计算机科学与工程系教授,博士生导师。清华大学博士,英国剑桥大学工程系博士后。国家优秀青年基金、上海市青年英才扬帆计划、吴文俊人工智能自然科学奖一等奖(第一完成人)获得者。现为IEEE高级会员、ISCA会员,同时也是国际开源项目Kaldi语音识别工具包的13位创始成员之一。有10余年从事智能语音及语言处理、人机交互和机器学习的研究和产业化工作经验。在本领域的一流国际期刊和会议上发表学术论文200余篇,Google Scholar引用总数10000余次,申请60余项中美专利,合作撰写和翻译多本外文书籍。3次获得领域内国际权威期刊和会议的最优论文奖,3次带队获得国际评测冠军。作为负责人和主要参与者参加了包括国家自然科学基金、国家重点研发计划、国防JKW、国家863、英国EPSRC等多个项目。2020年和2014年,因在智能语音处理技术理论创新与产业化应用方面的贡献,获得中国人工智能学会颁发的“吴文俊人工智能科学技术奖”自然科学奖一等奖和科技进步奖二等奖。目前的研究领域包括:语音识别,说话人和语种识别,语音抗噪与分离,语音情感感知,自然语言理解,深度学习建模,多媒体信号处理等。

报告题目:统计语音识别中的鲁棒性问题和自适应研究

报告摘要近年来,随着深度学习的进步,语音识别技术得到了飞速地发展,并已经在很多场景下商业化落地。然而,即使是使用最先进的技术,语音识别系统依然面临鲁棒性问题。目前大部分语音识别系统在面对高噪声,强混响,失配信道,重口音等环境时,系统性能和识别精度极具下降。为此探索语音识别系统的鲁棒性问题非常重要,也极具挑战。本报告将介绍统计语音识别中鲁棒性的问题根源,以及相关处理方法,并对克服鲁棒性问题的重要方法自适应技术做相关的研究介绍。


吴志勇
清华大学深圳国际研究生院副研究员,博士生导师

吴志勇ADL135

讲者简介:吴志勇,清华大学深圳国际研究生院副研究员,博士生导师。清华大学-香港中文大学媒体科学、技术与系统联合研究中心副主任。研究兴趣为面向人工智能的智能言语交互技术,包括:智能语音交互、情感计算、表现力可视语音合成、自然语言理解与生成、音视双模态联合建模,机器学习等。发表学术期刊及会议论文100余篇。中国计算机学会语音对话与听觉专业委员会委员,全国人机语音通讯学术会议常设机构委员。承担国家自然科学基金、香港特区政府研究资助局基金、国家社会科学基金等多项课题。获20092016年度教育部科学技术进步奖。指导的学生多人次获得优秀学位论文、国家奖学金、优秀毕业生。

报告题目:语音合成技术综述:基础与前沿

报告摘要:语音合成又称文语转换,旨在将输入文本转换为高可懂度、高自然度、高表现力的输出语音,是实现智能人机语音交互的关键技术,受到学术界和工业界的广泛关注。传统的基于拼接式、统计参数合成等方法,虽然实现了较好的语音合成效果,但其建模能力限制了语音合成性能的进一步提升。近年来,随着深度学习技术的发展,基于深度神经网络的语音合成极大地提高了合成语音的音质和自然度,并在表现力、个性化语音合成方面取得了长足的进步。本次报告将对语音合成技术的基础以及最新的前沿研究热点进行介绍,并对未来的研究方向进行展望。


凌震华
中国科学技术大学信息学院教授,博士生导师

凌震华ADL135

讲者简介:凌震华,中国科学技术大学信息学院教授,博士生导师,语音及语言信息处理国家工程研究中心副主任。主要研究领域包括语音信号处理和自然语言处理。主持与参与多项国家自然科学基金、国家重点研发计划、安徽省语音专项等科研项目,已发表论文200余篇,论文累计引用7000余次,获国家科技进步奖二等奖和IEEE信号处理学会最佳青年作者论文奖。在Blizzard Challenge国际语音合成技术评测、Voice Conversion Challenge国际语音转换技术评测等活动中多次获得测试指标第一名。现为电气电子工程师学会(IEEE)高级会员、中国计算机学会语音听觉与对话专业组委员、全国人机语音通讯学术会议常设机构委员会委员。2014-2018年任IEEE/ACM TASLP期刊副编辑。

报告题目:基于深度学习的话者转换

报告摘要:话者转换Voice Conversion)指的是在不改变文本内容的前提下修改源话者语音,使其个性特征接近目标话者。近年来,深度学习方法在话者转换任务中得到了成功应用,显著提升了转换后语音的自然度以及与目标话者的相似度。本报告将首先简要回顾话者转换的定