人机共创视角下短视频创作的对齐与审美决策流程优化
摘 要:随着生成式人工智能技术演进,AI正从辅助工具升格为创作协作者。如何在提升效率的同时保持人类审美主导,成为当下短视频创作的关键议题。构建能够稳定传递创作者意图的协作机制则是短视频人机共创的核心问题。本文围绕这一问题,对短视频生成流程进行结构性分析,并提出一种新的创作流程模型。
关键词:人机共创;短视频创作;人工智能;AIGC;创作流程
前言
生成式人工智能正深刻改变设计领域,AI不仅提升内容生产效率,更介入审美表达与叙事构建,“人机共创”成为新常态。然而,创作者常面临生成结果在情感表达、风格一致性与叙事节奏等方面偏离构想的困境。
人工智能技术在短视频创作领域中的对齐问题
当前AI已广泛应用于设计领域。动画与短视频领域的实践显示,AIGC在语义理解与内容契合度上存在瓶颈,无法完全捕捉微妙情感与文化理解,需人工迭代才能接近预期[1]。结合文生视频技术流程,短视频生成中的意图对齐问题可归纳为三个层面。
☆文本表达能力不足导致的意图压缩问题
在现有文生视频工作流中,创作者需将原本多环节实现的意图压缩为一次性提示词,用以同时描述画面内容、镜头语言、色彩风格与时间动态。然而,自然语言在空间结构与时间动态描述上精度有限,难以完整承载复杂的视觉与叙事信息,导致信息损失与语义压缩,影响生成准确性。
☆视频生成随机性导致的结果偏移问题
当前主流视频生成模型即便基于相同提示词,也会产生明显差异。与图像生成的可控研究相比,视频生成中复杂场景下人物动作、镜头语言等的精确控制仍是亟待解决的问题。
☆创作流程中审美决策后置问题
传统视频创作中,审美决策经由分镜设计与故事板在拍摄前完成。而在文生视频流程中,视觉风格常待生成后才评价筛选,创作者从设计决策者退为结果筛选者,审美主导地位被削弱。
基于静帧预审的交互式意图对齐模型构建
针对上述三个层面的意图对齐问题,本文提出一种基于静帧预审的交互式意图对齐模型。该模型在文本与动态生成之间引入静帧图像作为中间表征,将审美判断节点前移至动态生成之前,并以确认后的静帧为空间先验约束模型的采样过程。模型将短视频AIGC创作流程划分为三个阶段:视觉意图显性化阶段、意图锚定与精修阶段、动态扩展与合成阶段。
☆视觉意图显性化阶段
这一阶段的核心任务是将抽象的创作意图转化为可供审美判断的静态视觉表征。创作者主导叙事框架搭建与提示词表达,AI负责生成候选静帧。操作分三步:脚本构思,创作者借助大语言模型搭建叙事框架,并依分镜逻辑将意图拆解为关键场景描述;提示词撰写,将叙事性场景描述转化为面向文生图模型的专业视觉提示词;静帧批量生成,针对每个分镜生成多组候选图像。选用静帧而非直接生成视频,是因为文生图可快速视觉化并探索设计空间,且静态图像的审美判断符合创作者的专业认知习惯,能有效激活审美经验。
☆意图锚定与精修阶段
意图锚定与精修阶段是本模型的核心介入节点,也是该模型与传统单阶段生成流程最本质的区别所在。该阶段的任务是对候选静帧进行系统性审美评价与筛选,必要时进行局部调整,从而确立作为视觉先验的意图锚点。操作包括初步筛选、局部精修与锚点确认。初步筛选中,创作者从多组静帧中排除明显偏离意图的方案。局部精修则利用图生图、局部重绘等技术,对保留方案中不符合预期的局部进行定向修正,直至与视觉预期高度吻合。锚点确认意味着将最终选定的静帧明确为下一阶段的视觉先验条件。这一阶段将视觉风格的确定移至动态生成之前,使创作者把控方向而非单纯筛选结果,有效解决了审美决策后置问题。谭征宇等的研究强调,在人智共创中,需构建可控、可解释的协作方法,确保设计师能够主导审美判断与设计方向[2]。
☆动态扩展与合成阶段
该阶段以锚定静帧为视觉先验条件,驱动视频生成模型进行有条件动态扩展,并同步完成视听合成,输出完整短视频。这一阶段包含三条并行的子流程:图生视频生成,将意图锚点静帧与描述运动幅度、镜头运动方式等的提示词输入模型以生成动态片段,静帧提供了明确的空间结构约束,将生成结果限制在既定视觉框架内;音频内容生成,借助AI配音与音乐生成工具同步创作,并依画面节奏进行匹配筛选;剪辑合成,对各分镜视频片段进行筛选评价,选取最优片段,利用AI后期及剪辑工具完成合成与精修。在本模型中,空间结构由静帧提供,提示词仅需描述时间动态,大幅降低了语义负担。该阶段呈现“AI主导生成、人类主导评价”的协作模式,实现了人机优势互补。
结语
在AI深度参与内容生产的时代,意图对齐是人机协作的核心问题。本文分析了短视频人机共创中的对齐问题,并提出了新的创作流程模型。未来,应聚焦构建更高效的人机协作机制,使AI能理解并逼近人类审美意图,同时创作者需保持审美自觉。唯有在人类牢牢把握审美主导权的前提下,人机共创才能真正推动艺术与设计发展。
文章来源:《大河美术报》https://www.zzqklm.com/w/qk/35647.html
- 刚刚!2026年中科院分区,公布!本次看点:中科院分区变更为新锐分区;不再单独发布预警期刊;37种期刊“under review”~
- 这些重要报纸理论版都支持邮箱投稿!回复极快!
- GB/T 7714-2025与GB/T 7714-2015相比,变更了哪些,对期刊参考文献格式有什么影响?
- 别被这个老掉牙的报纸理论版投稿邮箱误导了!最新核实91个报纸理论版投稿邮箱通道,一次集齐
- 喜报!《中国博物馆》入选CSSCI扩展版来源期刊(最新CSSCI南大核心期刊目录2025-2026版)!新入选!
- 2025年中科院分区表已公布!Scientific Reports降至三区
- 国内核心期刊分级情况概览及说明!本篇适用人群:需要发南核、北核、CSCD、科核、AMI、SCD、RCCSE期刊的学者
- CSSCI官方早就公布了最新南核目录,有心的人已经拿到并且投入使用!附南核目录新增期刊!
- 北大核心期刊目录换届,我们应该熟知的10个知识点。
- 注意,最新期刊论文格式标准已发布,论文写作规则发生重大变化!文字版GB/T 7713.2—2022 学术论文编写规则

0373-5939925
2851259250@qq.com

