
2025 年对于 AI 内容创作是一个转折点,无论是人物场景一致性、图片中的中文支持、声音克隆和文本转语音,还是视频分辨率帧率都有了很大的突破。AI 内容已经从原来的“一眼 AI”进化到了真假难辨。
对于个人创作者或每个普通人,也许你不会编剧摄影剪辑特效,也可以用 AI 来自由的表达和创作。
开始 AI 视频创作前你需要知道:
1、AI 视频最重大的是内容和创意,并不是 AI 本身,你只是通过 AI 来实现你的创意和内容。
2、你想借助 AI 视频向观众传递什么有价值的信息,并且这些信息是你特别想分享的东西,来支撑你持续创作。
3、在整个创作流程里,最重大的是内容策划,其次是文生图。
选题策划

选题策划是整个创作最重大的部分,你需要明确的内容如下。
主题:
主题就是你创作的初衷,或者是甲方的要求。
商品创意广告:需要梳理商品特性,内容要素,列如人物,水滴,运动场景,室内场景或者故事情节等等。
知识科普:准备相关已有知识的具体文案,列如:童话故事,儿童绘本,名人往事,历史典故,生活小妙招,英语学习等。
文旅创意:具体的城市、标志建筑、文物、旅游景点的创意内容,如:穿越,转绘,文创IP创作等。
情感共鸣:励志语录,情感故事,社会正能量,治愈系内容等。
娱乐消遣:创意动画,歌曲翻唱,影视剧二创转绘,搞笑段子,数字人,萌宠视频等。
短剧电影:一个什么样的故事情节,剧情,人物特征,故事主题。
视频时长:
视频长短决定的视频的节奏,短视频的头和尾最好是视频的高潮部分,长视频则不同。
短视频:5-45秒
长视频:2-90分钟(科普短剧电影)
目标受众和风格:
根据你的主题确定视频的受众,从而选择合适的风格,列如:赛博朋克风格(科技感强烈),水彩手绘风格(温馨治愈),3D 渲染风格(真实感强),像素艺术风格(复古怀旧)。这里是风格的大致方向选择,更详细的风格特征需要在文生图环节细化。
现有参考资料:
1、参考优秀的作品必定是一个不错的开始,可以先收集相关主题的优秀视频都用的什么方式什么风格来表达内容,你有没有更好的想法。
2、整理你现有的资料,列如产品图片,建筑场景照片,虚拟人物角色多视图,科普文案,故事文案,歌曲等等。
策划示例:

故事构架示例:

使用AI完成选题策划:
整个选题策划环节我们可以用AI大语言模型来完成,例如:

各大语言模型的选择:
DeepSeek:在古文、诗歌和较长的强逻辑剧本编写上比较有优势,在政务、金融等高敏感内容生成的数据准确性较高。无法输出图片。
豆包:基于抖音平台数据训练,擅长热点追踪,能捕捉热门视频选题。适合短视频,可直接输出分镜参考图。个人感觉创意度不够。
文心一言:基于百度的数据训练,对网络流行语、地域文化的捕捉能力强,适合短视频热点选题。个人感觉创意度最高。
通义千问:支持长脚本生成,逻辑连贯性优于多数模型,适合系列剧、纪录片等复杂叙事。
总结:长叙事视频提议使用通义千问搭框架,deepseek 优化逻辑。短视频选择豆包和文心一言。不要死盯着一个豆包啦。
脚本分镜
角色造型(确保全片角色一致性)
如果你的视频中设计角色,先确定角色特征,方便生成角色多视图,作为后续文生图的参考,保持人物一致性。例如:

脚本分镜设计表:每个镜头片段的具体内容:包含时长、运镜方式、画面内容、对白/旁白、音效信息等。

分镜图片生成(文生图环节)
根据脚本分镜设计表生成每个分镜的首帧图片或者首尾帧图片(方便图生视频)。
由于每个分镜视频是通过图生视频或者首尾帧生视频,所以,每个分镜的图片就是影响视频画面质量最重大的因素,没有之一。
第一步:使用大语言模型将脚本分镜转化为文生图提示词。

第二步:如果有人物场景一致性要求的分镜,提前生成人物和场景的垫图图片。
第三步:使用文生图平台生成每个分镜的首帧图片,或首尾帧图片。
提议在豆包里直接快速的免费生成参考图片,快速的确定风格、提示词内容是否准确,完成提示词的定版,再去其他平台文生图。
文生图的平台和优势:
Midjourney:艺术创作标杆与细节狂魔,视觉效果独特,创意度高,欧美风格优势明显,中国元素风格理解差,不支持中文提示词。
即梦4.0:会员价格较低,生成速度快,高分辨率,支持多图参考。中文理解和中国元素理解能力强。适合商业海报等商业场景。
千问:免费,复杂文本渲染能力最强,支持多图参考,一致性高,超现实创作能力较弱。
Nano banana:会员价格高,多模态交互能力突出,人物特征一致性行业第一,多轮编辑后仍能保留面部轮廓和服装纹理,生成速度极快(单图仅需 3 秒),艺术风格多样性不足,复杂场景构图易出错。
总结:小项目可以使用单一模型,但大项目是必定要多模型协作,充分利用各平台优势。
分镜视频生成(图生视频环节)
利用分镜首帧图或首尾帧图片生成分镜视频。这一步实则是最简单的步骤,需要大量抽卡。
在前面的分镜脚本设计表中有运镜和画面内容的动态描述,这些描述就是图生视频的提示词。
第一步:将脚本设计表转为图生视频提示词。
提示词一般包含:参考图片描述+运镜+动态特征描述
第二步:使用图生视频平台生成分镜视频。主流平台如下:
Midjourney:对动态理解能力很强,无需提示词成功率也很高,动态效果连贯,支持循环模式(首尾帧衔接)和连续模式(尾帧作为首帧连续生成视频)。
Runway:支持文本 / 图像 / 视频多模态输入,动态画面稳定性和物理运动模拟准确率最强。
通义万相 Wan 2.5:可以实现人声、音效与画面毫秒级对齐。支持多语言及方言的配音。
即梦 AI:深度整合剪映生态,中文语义理解准确率 92%,适合生成抖音风格内容。
可灵 AI:动态效果很强,支持高速运动场景,物理感知准确。支持方言语音合成。支持视频元素替换、删除、增加。
海螺 AI:运镜很高级,但不适合多人物和复杂场景。
谷歌 Veo:支持 60 秒 1080P 视频生成,角色一致性完美(面部特征、服装元素在转场中零偏差),适合制作完整叙事短片或品牌 TVC。
Vidu AI:二维动画和中文元素是优势,三维效果和清晰度不足。
总结:
短视频与带货:即梦 AI(抖音流量适配)+ 可灵 AI(性价比)
专业影视制作:Runway Gen-3(动态稳定性)+ 通义万相 Wan2.5(音画同步)
文化 IP 与教育:通义万相 Wan2.5(文本渲染)+ Vidu AI(传统文化适配)
动态创意实验:海螺 AI(运镜创新)+ Midjourney V7(艺术风格)
长视频叙事:Veo 3.1(60 秒连贯性)+ 通义万相 Wan2.5(多场景生成)
后期剪辑优化
将分镜视频组合在一起(剪映、AE、达芬奇、PR),添加背景音乐、音效、字幕、转场特效、调色和高清化处理补帧等操作。
AI 视频最重要的是内容和创意,并不是 AI 本身,你只是通过 AI 来实现你的创意和内容。
真的就是ai的强大
你分享的文章超实用
很细致,学习了!
分析的很仔细,
Ai视频创作
好文
友友,也期待你的串门
收藏了,感谢分享