夸克、浙大开源OmniAvatar,一张图+一段音,就能生成长视频
近期,夸克技术团队和浙江大学联合开源了OmniAvatar,这是一个创新的音频驱动全身视频生成模型,只需要输入一张图片和一段音频,OmniAvatar即可生成相应视频,且显著提升了画面中人物的唇形同步细节和全身动作的流畅性。此外,还可通过提示词进一步精准控制人物姿势、情绪、场景等要素。
OmniAvatar已开源:
Model:https://huggingface.co/OmniAvatar/OmniAvatar-14BCode:https://github.com/Omni-Avatar/OmniAvatarArxiv:https://arxiv.org/abs/2506.18866Project Page:https://omni-avatar.github.io/以下,是OmniAvatar在播客、唱歌、交互、动态背景等场景下的部分案例。

https://mp.weixin.qq.com/s/kSuN83WsDsQYmNs89e_wdg
实验表明,OmniAvatar在唇形同步、面部及半身视频生成、文本控制等多个维度上,均取得领先表现,并更好地平衡了视频质量、准确度、审美三要素。
此外,OmniAvatar专门针对长视频生成进行了优化,可以更好地保持人物一致性和时间连贯性。
模型能力
图片+音频=全身视频
当前,音频驱动人体运动的技术已取得显著进展,但大多数方法仍集中在面部运动,缺乏全身驱动的能力,且难以进行精确的提示词控制。
OmniAvatar以Wan2.1-T2V-14B为基础模型,利用LoRA方法进行微调,有效地引入了音频特征。这种结合不仅保留了Wan2.1-T2V-14B在视频生成方面的强大能力,还提高了模型对音频输入的适应性和生成质量。
OmniAvatar架构图
接下来,我们将通过一些具体案例,更详细地展示模型在多种场景下的能力。
OmniAvatar能够根据输入的音频和提示词,生成虚拟人物视频,其中,人物的唇形运动与音频内容吻合,场景则反映了提示词内容:
视频加载中...
通过调整提示词,还可实现对人物情绪的精确控制:
视频加载中...
在带有镜头运动的场景中,OmniAvatar仍能够保持面部、动作和背景的自然流畅,展现了模型在动态场景下的强大适应能力:
视频加载中...
对于长视频生成,OmniAvatar通过参考图像嵌入策略和帧重叠技术,确保了视频的连贯性和人物身份的一致性:
视频加载中...
像素级多层次音频嵌入策略
精准唇部运动+自然肢体动作
大多数现有方法通常依赖交叉注意力机制来引入音频特征,虽然效果良好,但会引入大量额外的计算开销,并且容易过度关注音频与面部特征之间的关系。
针对这一问题,团队提出了一种基于像素的音频嵌入策略,使音频特征可以直接在模型的潜在空间中以像素级的方式融入。通过这一方法,不仅可以自然地将唇部运动与音频内容对齐,还能够确保音频信息在整个视频像素中均匀分布,从而使模型生成更协调、更自然的身体动作来匹配音频。
该策略首先使用Wav2Vec2模型提取音频特征,然后对这些特征进行分组打包和压缩,再通过音频打包模块映射到视频的潜在空间中。
接下来,为了确保模型在深层网络中能有效地学习和保留音频特征,OmniAvatar采用了一种多层级音频嵌入策略,将音频信息嵌入到DiT模块的不同阶段中。为防止音频特征对潜在空间产生过度干扰,音频嵌入仅应用于模型的第二层至中间层之间的模块 。此外,这些层的权重不共享,使模型能够在不同层次上保持独立的学习路径。
基于LoRA的优化策略
平衡微调,兼顾质量与细节
目前,针对音频条件扩散模型的方法主要遵循两种策略:一种是训练完整的模型,另一种是仅微调特定层。
在进行完整训练时,团队发现更新所有层反而会导致模型生成的连贯性和视频质量下降。具体来看,由于模型过度拟合人类语音数据集,导致泛化能力差,容易生成不切实际或静态的内容,难以捕捉细节。但另一方面,仅微调和音频特征相关的层会导致音频和视频之间的对齐效果差,唇形同步性能受损。
效果对比
为了解决这些挑战,团队提出了一种基于LoRA的平衡微调策略。该策略不同于以上两种方法,而是使用LoRA策略高效地适应模型。LoRA通过在注意力和前向传播(FFN)层的权重更新中引入低秩矩阵,使模型能够在不改变底层模型容量的情况下学习音频特征。
长视频生成
身份保留+时间一致性
长视频连续生成是音频驱动视频生成的难点,也是一项关键挑战。为此,团队提出了参考图嵌入和重叠帧策略,以实现人物的身份保留和时间一致性。
代码示例
身份保留。OmniAvatar引入了一个参考帧,作为人物身份的固定指导。具体来看,首先需提取参考帧的潜在表示;然后将这些表示多次重复,使其长度与视频帧数匹配;接下来,再在每个时间步,将这个重复的参考帧潜在表示与视频潜在表示进行连接。因此,通过参考帧设计,可有效锚定人物身份,确保在整个长视频序列中的人物一致性。
时间一致性。为了实现无缝的视频连续性,OmniAvatar采用了一种潜在重叠策略。首先,在训练时使用单帧和多帧前缀潜在变量的组合进行训练;其次,在推理过程中,对于第一批的帧,参考帧既作为前缀潜在变量,又作为身份指导;对于后续批次,则用前一组的最后帧作为潜在变量,参考帧仍保持固定用作身份指导。
One More Thing
OmniAvatar是团队在多模态视频生成上的初步尝试,并在实验数据集上得到了初步验证,但尚未达到产品级应用水平。未来,团队还将在复杂指令处理能力、多角色交互等方面进一步探索,扩大模型在更多场景中的应用。
剪映专业版首登鸿蒙平板!华为MatePad Pro 122随时随地剪辑创作
7月24日,华为正式发布全面搭载鸿蒙操作系统5的华为MatePadPro 12.2英寸平板。这款新品的亮相,标志着华为全场景智能设备矩阵已全面迈入鸿蒙时代。而此次发布最引人注目的亮点,则是剪映专业版、中望CAD、万兴脑图、WPS Office等一批鸿蒙电脑应用登陆平板,通过原生开发技术实现全维度桌面级体验,让平板真正拥有了媲美电脑的强大生产力,进一步满足用户在办公、创作等多场景的需求。
剪映专业版首登平板:随时随地桌面级创作已实现
作为抖音旗下的专业剪辑工具,剪映专业版此次登陆鸿蒙平板,堪称移动创作领域的“里程碑事件”。值得注意的是,这是剪映专业版首次登陆平板设备,与iOS/安卓端的非专业版相比,鸿蒙平板上的剪映专业版实现了从“轻量剪辑”到“专业创作”的全面升级,让平板真正具备了与电脑同台竞技的剪辑能力。
在核心功能上,剪映专业版支持多视频轨+无限音频轨编辑能力。全轨道展示功能让所有素材一目了然,用户可通过简单拖拽在时间线上添加调整片段,主视频轨常驻显示确保精准调节。这种多轨道架构彻底解决了移动版仅可单轨剪辑的痛点,轻松处理多机位素材拼接、分屏对比、画中画特效等复杂项目。比如制作旅行Vlog时,可同时叠加风景镜头、人物特写和字幕轨道,通过音频波形对齐功能实现音画完美同步,这在iOS/安卓的非专业版剪映中几乎无法实现。
操作精度方面,剪映专业版支持实时预览+帧级调整,配合鼠标与快捷键操作(如Ctrl+B快速分割),让剪辑效率提升3倍以上。对比手机端依赖触屏缩放时间轴的“盲剪”模式,剪映专业版的“所见即所得”操作逻辑更贴近专业工作站体验。其智能功能同样拉满:语音识别准确率大幅提升,自动生成字幕与歌词;音乐卡点功能通过AI分析BGM节奏生成标记点,让舞蹈、运动类视频剪辑更高效;曲线变速功能则能轻松制作电影级慢动作转场效果。此外,素材资源是剪映专业版的另一大优势。内置的海量音乐音效、热门曲库、手绘贴纸和复古滤镜每日更新,独家特效紧跟抖音潮流,创作者无需额外寻找素材。
输出质量上,专业版支持4K高清视频导出,分辨率、帧率、码率均可自定义调节,满足商单交付的高标准需求。而iOS/安卓非专业版受限于移动硬件性能,不仅导出视频的分辨率受限,放大后还易出现画质损耗。这种差距让鸿蒙平板成为自媒体创作者、小型工作室的“移动工作站”,随时随地完成专业级作品制作。
鸿蒙平板应用生态全面开花:专业应用矩阵覆盖全场景
除剪映专业版外,华为MatePadPro 12.2等鸿蒙平板还支持WPS Office、海泰浏览器、万兴脑图、万兴图示、中望CAD等一众桌面级应用,形成覆盖办公、设计、创意的完整生产力生态,彻底告别移动应用“功能阉割”的尴尬。
WPS Office鸿蒙版实现了与桌面端一致的全量功能体验。其界面布局完整还原PC端逻辑,在大屏视角下,各层级工具栏清晰呈现,让用户在电脑端和平板端无缝切换。并且,在全新的自由多窗模式下,用户可自由调节WPS Office文档窗口大小与比例,多任务处理更加得心应手。
另外,WPS Office鸿蒙版1:1还原了桌面端的文字、演示、表格及PDF编辑能力,无论是简单的文档查看、处理,还是高阶的表格数据公式、函数功能,都能轻松驾驭。
跨设备互通能力尤为亮眼,使用华为MatePadPro 12.2进行文档创作时如需要拍照或扫描,可在WPS Office鸿蒙版“插入”功能中选择“图片”-“从华为手机/平板插入”-“拍照”或“扫描”,即可直接拿起手机进行拍摄,拍摄完成后照片自动插入文档,省去繁琐的传输过程。
也可以选择“从华为手机/平板插入”-“从图库中选择”,直接调用手机图库中的图片,极大提高了图片跨设备传输的效率。对比WPS移动版,WPS Office鸿蒙版真正实现了无差别的“PC级办公”,甚至还在一些体验上超越了传统PC。
鸿蒙版海泰浏览器,则打破了移动端多任务限制。支持标签页多实例打开,可将新标签页直接拉出为悬浮窗口,实现多窗口浏览操作。跨设备剪贴板功能让手机复制的文字、图片无缝粘贴至平板,配合原生横屏适配,浏览体验与电脑端无异。
万兴脑图与万兴图示则组成了创意绘图“双子星”。万兴脑图鸿蒙版1:1还原桌面级UI及全量功能,更有生成式AI功能,可一键生成思维导图,并可从丰富的模板中选择,转化为PPT,充分满足工作汇报需求。万兴图示同样强大,涵盖流程图、UML图、电路图等210种绘图类型,支持Visio文件导入导出,AI绘图功能通过关键词即可生成专业图表,拖拽操作让非专业用户也能快速制作可视化内容。这两款工具对比移动版简化的绘图功能,实现了“专业设计随时随地”。
中望CAD鸿蒙版则填补了移动工业设计的空白。其保留了桌面端经典操作界面和全量绘图命令,兼容DWG/DXF等主流格式文件,可通过键鼠操作完成各类复杂的工业设计操作。端云协同功能让设计文件通过云端多端同步,应用接续能力支持平板间无缝流转编辑,拆下键盘后12.2英寸大屏秒变图纸演示板,满足设计师“随时改图、随地演示”的需求。
这些专业应用大大提升了用户在各个场景中的办公、创作效率,例如设计师用手机拍摄产品草图,在平板上用中望CAD精确绘制,通过WPS生成设计报告,最后用剪映制作产品宣传视频,全流程在鸿蒙生态内闭环完成,效率提升显著。
生态优势凸显:字节等厂商为何重仓鸿蒙
剪映专业版选择鸿蒙平板作为首个移动专业版落地平台,背后是字节跳动对鸿蒙生态的深度认可。相较于iOS/安卓平台对应用功能的诸多限制,鸿蒙系统开放的底层能力让专业应用得以完整呈现:原生UI适配、键鼠交互支持、多任务窗口管理等特性,为剪映专业版打造了“移动设备上的桌面级体验”。
这种合作是双向共赢的,华为通过引入头部专业应用完善生态拼图,提升平板产品竞争力;字节跳动则借助鸿蒙系统突破移动剪辑的体验天花板,拓展专业创作市场。类似的合作模式也体现在金山办公、万兴科技、中望软件等厂商身上,形成“系统+硬件+应用”的正向循环。
对于用户而言,这种生态协同带来的是实实在在的体验升级。自媒体创作者不再需要背着沉重的电脑出差,用鸿蒙平板就能完成4K视频剪辑;职场人士用WPS处理复杂表格时不再受功能限制;设计师在现场就能通过中望CAD修改图纸。鸿蒙平板正在重新定义“移动生产力”的边界。
随着剪映专业版等一众专业应用的登陆,华为MatePadPro 12.2英寸不仅是娱乐设备,更成为能够胜任专业工作的生产力工具。鸿蒙生态“专业全面、稳定流畅”的优势逐渐显现,为移动办公、创意创作开辟了新可能。当越来越多厂商加入鸿蒙生态,我们有理由期待更丰富的专业应用落地鸿蒙平板,让移动生产力体验再上台阶。
相关问答
做自媒体视频需要什么基础设备,使用什么剪辑软件比较好?
题主你好,自媒体基础设备:手机,三脚架,稳定器剪辑软件:剪映题主你好,自媒体基础设备:手机,三脚架,稳定器剪辑软件:剪映
做生活类自媒体,需要哪些拍摄器材和剪辑工具?可以推荐下?
经常室内拍摄的有条件就用补光灯,毕竟摄影就是用光的艺术这个分便携充电的和插电的看你需求的类型和预算了,网上有很多可以便宜几百稍好一些上千的前期尽量学...
拍摄自媒体视频要用什么设备好点,不能太贵的,性价比要高?
个人都会有一个智能手机,你只要把手机从兜里拿出来,然后用手机里的录制软件来拍摄就行了,一般手机都会有前置摄像头和后置摄像头,拍摄一些素材的时候,尽量用...
做小视频需要哪些设备和软件?
本人做短视频,以前专业建筑动画专业。小视频看你说的是那种?抖音还是短视频,抖音火山类的一个手机+三脚架+鱼眼镜头足够了。如果是短视频设备:电脑:一台...功...
大家拍摄制作视频都有哪些设备和工具?
现在自媒体的产生,让拍摄视频有了最低的门槛儿。一部手机,一个自拍杆儿。或者单独一部手机都能完成视频的拍摄。我有时候拍视频走到哪里,或把手机放在地上,或...
在家拍摄制作美食视频时,都用到哪些器材?如何才能拍得更好更漂亮?
实话实说美食摄影既然归类为静物摄影,那摆拍做造型是必不可少的,既然主题谈的是“美食摄影”,那日常吃饭记录咱就不多说了。首先肯定是构图,你的主体要足够...
做短视频唱歌需要什么设备?
亲,感谢您邀请小编回答您的问题,以下为小编提供给您的建议:1、音响系统:包括声卡、麦克风、耳机或耳麦等2、视频系统:可采用高清美颜摄像头,配合歌曲场...
拍好视频基础设备必不可少,请问各位大咖,对于新手来说有哪些经济适用的设备?
强行回答最为可怕首先如果这个入门的初学者的话你至少学一个拍摄设备我觉着就单纯性价比来讲目前为止小米9应该是你能买到的最好的拍摄设备了2000多一些...
搞自媒体拍视频,使用什么设备拍摄较好?
可以用大疆的osmo或者osmomobile,这些拍摄的画面都非常稳定,而且使用非常方便。可以用大疆的osmo或者osmomobile,这些拍摄的画面都非常稳定,而且使用非常方便...
抖音视频剪辑需要哪些设备?
新手来说,拍段视频,其实只要一步手机就足够。但是,为了让视频有足够的清晰度,手机设备的像素最好在800万及以上,以苹果、华为手机为宜。手机分辨率设置为108...
