a16z发布AI数字人报告,提到了Agora, ElevenLabs
- +1 你赞过了
【天极网IT新闻频道】a16z 在近日发布的《AI 数字人跨越「恐怖谷」》报告中,详细阐述了创建 AI 数字人的关键要素,Agora、ElevenLabs、OmniHuman 等公司提供的技术在其中占据核心地位。
创建一个令人信服的 AI 数字人绝非易事,实现逼真度的每一个环节都面临着独特的技术挑战。不仅要避开诸多难以预见的阻碍,还需攻克动画、语音合成以及实时渲染等基础难题。以下深入剖析所需技术、实现难点以及目前取得的进展:
1.面部:无论是克隆真实人物还是塑造全新角色,都要求面部在不同帧间保持连贯,且在说话时动作自然逼真。目前,实现具有上下文感知的面部表现力仍是一大挑战,比如让数字人在说 “我累了” 的同时自然地打哈欠。
2.声音:声音需真实且与角色形象契合,少女的面容不应搭配老妇的声音。在众多 AI 数字人公司中,ElevenLabs 应用广泛,它拥有庞大的语音库,还支持用户克隆自己的声音。
3.唇部同步:达成高质量的唇部同步难度颇高。不少公司,如 Sync,都在全力攻克这一难题。MoCha 以及 OmniHuman 等模型,则通过在更大规模的数据集上进行训练,并运用多种技术,依据音频对人脸生成进行严格条件限制,以此提升唇部同步效果。
4.身体:数字人不能仅仅是一个悬浮的头部。新一代模型已能让数字人拥有可活动的完整躯体,但在躯体功能拓展以及向用户呈现方面,仍处于起步阶段。
5.背景:数字人并非孤立存在于真空环境。其周围环境的照明、深度以及交互效果都需与场景完美匹配。理想状态下,数字人应具备触摸和与环境中的物体互动的能力,例如拿起产品。
若期望数字人参与实时对话,如加入 Zoom 会议,还需具备以下要素:
1.大脑:数字人需要具备 “思考” 能力。当下支持对话的产品,一般通过让用户上传或连接知识库来实现。未来,更先进的数字人有望具备更多记忆和独特个性,能够记住与用户过往的对话,并拥有自身的 “特长”。
2.流媒体:要以*低延迟实时传输上述所有内容并非易事。Agora 等公司正在此领域努力并取得一定进展。不过,要让所有模型协同工作,同时将延迟降至*低,仍面临诸多挑战。目前已有一些产品在这方面表现出色,如拥有声音和面孔的 AI 外星伴侣 Tolan,但后续仍有大量工作有待完成 。
类型:广告最新资讯
热门视频
新品评测