(搜狗王小川在香港RISE科技峰会上展示虚拟主播)
2018年7月11日,央视主播“姚雪松”播报香港RISE科技峰会相关新闻的视频出现在主演讲台上方的大屏幕上。
他来了么?没来,是搜狗的王小川带“他“来的。 这是全球首个虚拟主播。
搜狗使用姚雪松1.5小时的音视频数据,结合语音、图像等多模态信息进行联合建模训练,输入一段RISE大会的文字稿,可以快速预测生成与真人无异的播报效果。
机器能够以“人”的形象如此轻松地播报新闻,背后是搜狗多年以来在AI上积累的技术实力。 7月份搜狗在Blizzard Challenge 2018上获得语音合成大赛冠军,而在上个月,搜狗的视觉研究团队获得了CVPR WAD2018 挑战赛冠军,早在去年,搜狗在机器翻译领域就已经取得突破,在WMT2017收获冠军,频频获奖的同时,各项AI技术不断推出,并逐步落地,搜狗的语音识别准确率已超98%,日均语音输入调用次数峰值达4亿次;唇语识别在垂直应用领域中的准确率超90%,以语言为核心,搜狗已逐步建立起独一无二的人工智能数据和技术壁垒。
提及本次发布的虚拟主播的技术难点,该项目的技术负责人表示:“最大的难点在于,让机器仅使用一段文本,来预测生成逼真度极高的视频,要保持视频中主播的音频和脸部表情、唇动能够自然且一致,做到如此逼真非常难。”目前市面上还没有类似的产品,通过领先业界的语音合成和图像生成技术,搜狗率先实现了虚拟主播目前的逼真效果。
虚拟主播在技术上的实现意味着AI具有了更丰富的表达方式,从文字表达走向音视频的富媒体表达。
虚拟主播技术的应用场景非常广泛。首先,作为具备视频内容生产能力的一项技术,该技术可以运用在诸如新闻、媒体内容等场景中,自动实时快捷地生成富媒体内容。
其次,虚拟主播技术还能根据用户上传的单张人物图片(明星、朋友、家人等)实时生成该人物的虚拟主播形象,用户可以与其面对面交流。
结合搜狗语音交互系统知音OS能力,我们可以让虚拟主播具备交互能力,使得该项技术可以应用于教育、医疗、客服等多个行业,节约大量的人力成本。如果用于教育行业,虚拟主播可以成为脾气很好的老师,不厌其烦地一遍一遍帮助用户进行发音口型指导。
此外,还可以应用于各种具备交互能力的智能软硬件。如果用于带屏幕的智能音箱,虚拟主播就可以发展成为虚拟私人助理,用户可以从单纯与声音的交互变成与一个逼真的虚拟人物的交互。
虚拟主播可能还会催生具有情感的交互App,比如帮助粉丝和爱豆实现“面对面”交互的追星App;上传用户自己喜欢的形象,结合搜狗的问答技术,可以与之进行定制化问答的陪伴App等。
虚拟主播究竟会以何种方式渗入我们人类的生活尚不可知,或许有一天将打破次元壁和时空无处不在;未来,不管是银行服务,还是电视节目,或是演唱会上的嘉宾,或许都可以看到它们的身影。
这位技术人员说:“后续,除了优先提升人机交互的体验外,我们也会继续优化虚拟主播的真实感,并在虚拟主播情感表达上做更加深入的研究。”
他解释说搜狗这次展示的虚拟主播还没有添加“情感”,还显得比较生硬。
- 虹魔方总经理宋舰:BAT都搞不了!如何实现差异化的优质OTT内容推荐
- 荣耀熊军民:过硬的通信、屏幕、拍照实力,需要大量技术做支撑
- 逆天!三星机皇Galaxy S10+顶配版曝光,12GB+1TB超大内存
- 99元抢先预定 vivo X23广角AI即将来袭
- 黄海彦:差异化内容服务才是“阿拉的”核心竞争力
- 打破用户群体壁垒 看联想ThinkStation如何推动工作站普及
- 专访OPPO海外业务群:Find X未来旗舰发布,全球化布局再进一步
- 专访荣耀赵明:产业变革的前夜攻坚瓶颈,启迪行业举灯后来人
- 联想常程:我所理解的旗舰
- 不断重新发明净水器 专访云米CEO陈小平
- 专访金蝶总裁孙雁飞:谈财务管理新世界
- 全面拥抱4K 索尼用高清影像定“医”未来
- 富士康陈振国:夏普电视王者归来开启8K新纪元
- 国际领先超滤膜技术 访立升市场总监屠玉峰
- 海内外增长迅猛 专访创维洗衣机总经理周国贤
- 重新定义家电的核心价值 专访云米CEO陈小平
- 存储硬件价格即将亲民?先看金泰克内存与SSD
- IDF2014_2014英特尔信息技术峰会_中国深圳