
AI视频领域有许多专业术语,文生视频、图生视频、DiT架构、首尾帧控制……
这些术语不理解清楚,在学习和使用AI视频时会常常遇到障碍。
这篇整理AI视频领域最常见的术语,用大白话解释清楚。
───
一、生成方式类
- 文生视频(Text-to-Video)

定义:直接输入文字描述,AI生成对应视频。
类比:就像给AI下了一道”文字咒语”,它读懂后变出视频。
示例:
输入:"一个穿汉服的女子在竹林中跳舞"
输出:一段女子竹林起舞的视频
常见平台:可灵、文心一格、即梦
───
- 图生视频(Image-to-Video)

定义:上传一张图片,AI将其转化为动态视频。
类比:给AI一张静态照片,它让照片里的人/物”动起来”。
示例:
输入:一张人物照片
输入提示词:人物开始行走、转身、微笑
输出:人物动态视频
常见平台:可灵、Vidu、即梦
───
- 参考生视频(Reference-to-Video)

定义:上传一张参考图,AI保持图片中的角色/场景特征生成新视频。
类比:给AI一个”角色模板”,后续视频中都保持这个角色长相。
核心价值:解决AI视频最头疼的问题——角色一致性
常见平台:Vidu Q3、可灵3.0、即梦
───
4.首尾帧控制(First-Last Frame Control)

定义:指定视频的起始画面和结束画面,AI生成中间过渡内容。
类比:像”拼图游戏”,给出起点和终点,AI填充中间过程。
用途:保证视频片段之间的衔接流畅
───
二、技术架构类
- DiT(Diffusion Transformer)
定义:一种将扩散模型(Diffusion)和Transformer架构结合的神经网络架构。
背景:最早由Sora采用,现被多数主流视频模型采用。
为什么重大:决定了AI理解和生成视频的方式,直接影响生成质量和效率。
───
- UViT架构
定义:Vidu模型采用的核心架构,由清华大学团队提出,比DiT更早。
特点:全球首个Diffusion与Transformer融合的架构,完全自主研发。
───
- 多模态(Multimodal)
定义:能同时处理多种类型数据(文字、图片、视频、声音)的大模型。
举例:可灵O1能将文字、图片、视频统一进同一生成框架。
───
三、视频质量类
- 分辨率(Resolution)
定义:视频画面的像素数量,决定清晰度。
| 分辨率 | 常见标识 | 适用场景 |
| ----- | ---- | ----- |
| 480p | 标清 | 快速测试 |
| 720p | 高清 | 社交媒体 |
| 1080p | 全高清 | 高质量内容 |
| 4K | 超高清 | 专业制作 |
───
- 帧率(FPS)
定义:每秒显示的画面数量,决定流畅度。
| 帧率 | 特点 |
| ----- | ---- |
| 24fps | 电影标准 |
| 30fps | 视频标准 |
| 60fps | 流畅动画 |
───
3.时长(Duration)
定义:单次生成视频的长度。
- 运镜/镜头运动(Camera Movement)
常见类型:
| 术语 | 含义 |
| ------------- | -------- |
| 推镜头(Push In) | 镜头逐渐靠近主体 |
| 拉镜头(Pull Out) | 镜头逐渐远离主体 |
| 环绕(Orbit) | 镜头环绕主体旋转 |
| 横移(Pan) | 镜头左右平移 |
| 竖移(Tilt) | 镜头上下平移 |
───
四、内容生成类
- 提示词/Prompt
定义:给AI的指令性描述,告知它你想生成什么。
构成要素:
• 主体(谁/什么在画面中)
• 动作(做什么)
• 场景(在哪里)
• 风格(什么感觉)
• 运镜(怎么拍)
───
- 负面提示词(Negative Prompt)
定义:告知AI”你不要生成什么”。
作用:避免不想要的元素出目前画面中。
常用负面词:
• 模糊(blurry)
• 变形(distorted)
• 噪点(noise)
• 低质量(low quality)
───
- 风格标签(Style Tags)
定义:指定视频的视觉风格。
| 风格 | 标签词 |
| ---- | --------------------- |
| 电影感 | cinematic, film grain |
| 动漫 | anime style |
| 写实 | photorealistic |
| 赛博朋克 | cyberpunk, neon |
| 复古 | vintage, retro |
───
- 特效(Visual Effects/VFX)
常见类型:
• 粒子特效:烟雾、火焰、爆炸
• 流体特效:水流动、液体飞溅
• 动力学特效:碰撞、破碎
• 光影特效:光束、光晕
Vidu Q3内置6大特效引擎:粒子、流体、动力学、运镜、转场、光影
───
- 音效(Sound Effects)
常见类型:
| 类型 | 作用 |
| --- | ------------------ |
| 环境音 | 场景氛围(风声、雨声、人群声) |
| 动态音 | 物体运动产生的声音(脚步声、开门声) |
| 氛围音 | 情绪基调(紧张BGM、温馨钢琴) |
| 拟音 | 模拟真实声音 |
| 情绪音 | 强化情绪(心跳声、呼吸声) |
───
五、一致性类
- 角色一致性(Character Consistency)
定义:同一个角色在视频的不同片段中保持一样的外貌特征。
问题:AI视频的最大难题之一,每帧独立生成容易”变脸”。
解决方案:
• 参考生(图生视频锁定角色)
• 主体库(如Vidu Q3的角色库功能)
• 固定角色描述词
───
- 场景一致性(Scene Consistency)
定义:同一场景在不同镜头中保持一样的背景、环境。
解决方案:
• 使用场景参考图
• 减少镜头切换频率
• 后期调色统一
───
- 风格一致性(Style Consistency)
定义:全片保持一样的视觉风格(色调、构图、光影)。
解决方案:
• 统一风格提示词
• 全片统一调色
• 避免混用不同风格的元素
───
六、商业化类
- API(Application Programming Interface)
定义:应用程序接口,允许开发者调用AI模型能力。
用途:将AI视频能力集成到自己的产品或工作流中。
───
- SaaS(Software as a Service)
定义:软件即服务,在线订阅使用AI工具。
举例:Vidu SaaS(Vidu Agent、Vidu Claw)
───
- MaaS(Model as a Service)
定义:模型即服务,提供AI模型调用的服务。
举例:Vidu MaaS(API调用模式)
───
- 灵感值/额度
定义:AI平台的虚拟货币或消耗单位。
机制:生成视频消耗灵感值,分辨率越高、时长越长消耗越多。
───
七、平台专属类
- 可灵(Kling)
• 快手自研视频大模型
• 全球写实视频生成第一梯队
• 支持文生视频、图生视频
- Vidu
• 生数科技自研视频大模型
• 参考生功能全球首创
• U-ViT架构,清华团队研发
- 即梦(Jimeng)
• 字节跳动旗下AI创作平台
• 与抖音生态深度整合
• 国风动漫支持强
- 万相(Wan)
• 阿里自研视频大模型
• 中文文字生成能力强
• 开源版本免费使用
- Seedance
• 字节跳动高端视频模型
• 电影感强,画质细腻
• 企业级应用为主
───
八、评测榜单类
- Artificial Analysis
全球AI基准测试机构,定期发布模型能力榜单。
- SuperClue
发布的全球首个参考生视频榜单,Vidu Q3断层登顶。
───
九、常见问题类
- “AI味儿”(AI Look)
定义:AI生成内容特有的不自然感,如动作僵硬、表情不自然等。
缘由:AI对物理世界的理解仍有局限。
解决方法:选择更强的新一代模型,后期调色优化。
───
- 跳变/跳帧(Frame Jump)
定义:视频中画面突然变化,不连贯。
缘由:AI生成的帧之间缺乏时间连续性。
解决方法:使用首尾帧衔接,减少镜头切换。
───
- 崩坏(Quality Degradation)
定义:画面出现模糊、变形、噪点等质量问题。
缘由:复杂场景、长视频、高分辨率容易出现。
解决方法:缩短时长,用简单背景,降低分辨率。
───
十、工作流类
- 管线模式(Pipeline Mode)
定义:将剧本、角色、画面、剪辑等环节整合在一条流水线上。
优势:减少工具切换成本,效率大幅提升。
───
- 批量生成(Batch Generation)
定义:同一提示词生成多个版本,选最优。
原则:不要指望一次生成完美,多生成再筛选。
───
- 素材库/资产库(Asset Library)
定义:可复用的角色、场景、风格等素材集合。
价值:建立一次,反复使用,降低成本。
───
我个人的见解是:术语不用死记,用多了自然就熟悉了。刚开始记住最核心的几个——文生视频、图生视频、参考生、一致性——就够了,其他的在实际使用中遇到再查。