基础入门:AI视频常用术语解析

全能 AI 聚合平台 免费

一站式接入主流 AI 大模型,支持对话 · 生图 · 生视频,即开即用

ChatGPT Claude Gemini Grok DeepSeek 通义千问 Ollama
AI对话 AI生图 AI视频
免费使用 →

基础入门:AI视频常用术语解析

AI视频领域有许多专业术语,文生视频、图生视频、DiT架构、首尾帧控制……

这些术语不理解清楚,在学习和使用AI视频时会常常遇到障碍。

这篇整理AI视频领域最常见的术语,用大白话解释清楚。

───

一、生成方式类

  1. 文生视频(Text-to-Video)

基础入门:AI视频常用术语解析

定义:直接输入文字描述,AI生成对应视频。

类比:就像给AI下了一道”文字咒语”,它读懂后变出视频。

示例

输入:"一个穿汉服的女子在竹林中跳舞"
输出:一段女子竹林起舞的视频

常见平台:可灵、文心一格、即梦

───

  1. 图生视频(Image-to-Video)

基础入门:AI视频常用术语解析

定义:上传一张图片,AI将其转化为动态视频。

类比:给AI一张静态照片,它让照片里的人/物”动起来”。

示例

输入:一张人物照片
输入提示词:人物开始行走、转身、微笑
输出:人物动态视频

常见平台:可灵、Vidu、即梦

───

  1. 参考生视频(Reference-to-Video)

基础入门:AI视频常用术语解析

定义:上传一张参考图,AI保持图片中的角色/场景特征生成新视频。

类比:给AI一个”角色模板”,后续视频中都保持这个角色长相。

核心价值:解决AI视频最头疼的问题——角色一致性

常见平台:Vidu Q3、可灵3.0、即梦

───

4.首尾帧控制(First-Last Frame Control)

基础入门:AI视频常用术语解析

定义:指定视频的起始画面和结束画面,AI生成中间过渡内容。

类比:像”拼图游戏”,给出起点和终点,AI填充中间过程。

用途:保证视频片段之间的衔接流畅

───

二、技术架构类

  1. DiT(Diffusion Transformer)

定义:一种将扩散模型(Diffusion)和Transformer架构结合的神经网络架构。

背景:最早由Sora采用,现被多数主流视频模型采用。

为什么重大:决定了AI理解和生成视频的方式,直接影响生成质量和效率。

───

  1. UViT架构

定义:Vidu模型采用的核心架构,由清华大学团队提出,比DiT更早。

特点:全球首个Diffusion与Transformer融合的架构,完全自主研发。

───

  1. 多模态(Multimodal)

定义:能同时处理多种类型数据(文字、图片、视频、声音)的大模型。

举例:可灵O1能将文字、图片、视频统一进同一生成框架。

───

三、视频质量类

  1. 分辨率(Resolution)

定义:视频画面的像素数量,决定清晰度。

| 分辨率   | 常见标识 | 适用场景  |
| ----- | ---- | ----- |
| 480p  | 标清   | 快速测试  |
| 720p  | 高清   | 社交媒体  |
| 1080p | 全高清  | 高质量内容 |
| 4K    | 超高清  | 专业制作  |

───

  1. 帧率(FPS)

定义:每秒显示的画面数量,决定流畅度。

| 帧率    | 特点   |
| ----- | ---- |
| 24fps | 电影标准 |
| 30fps | 视频标准 |
| 60fps | 流畅动画 |

───

3.时长(Duration)

定义:单次生成视频的长度。

  1. 运镜/镜头运动(Camera Movement)

常见类型

| 术语            | 含义       |
| ------------- | -------- |
| 推镜头(Push In)  | 镜头逐渐靠近主体 |
| 拉镜头(Pull Out) | 镜头逐渐远离主体 |
| 环绕(Orbit)     | 镜头环绕主体旋转 |
| 横移(Pan)       | 镜头左右平移   |
| 竖移(Tilt)      | 镜头上下平移   |

───

四、内容生成类

  1. 提示词/Prompt

定义:给AI的指令性描述,告知它你想生成什么。

构成要素

• 主体(谁/什么在画面中)

• 动作(做什么)

• 场景(在哪里)

• 风格(什么感觉)

• 运镜(怎么拍)

───

  1. 负面提示词(Negative Prompt)

定义:告知AI”你不要生成什么”。

作用:避免不想要的素出目前画面中。

常用负面词

• 模糊(blurry)

• 变形(distorted)

• 噪点(noise)

• 低质量(low quality)

───

  1. 风格标签(Style Tags)

定义:指定视频的视觉风格。

| 风格   | 标签词                   |
| ---- | --------------------- |
| 电影感  | cinematic, film grain |
| 动漫   | anime style           |
| 写实   | photorealistic        |
| 赛博朋克 | cyberpunk, neon       |
| 复古   | vintage, retro        |

───

  1. 特效(Visual Effects/VFX)

常见类型

• 粒子特效:烟雾、火焰、爆炸

• 流体特效:水流动、液体飞溅

• 动力学特效:碰撞、破碎

• 光影特效:光束、光晕

Vidu Q3内置6大特效引擎:粒子、流体、动力学、运镜、转场、光影

───

  1. 音效(Sound Effects)

常见类型

| 类型  | 作用                 |
| --- | ------------------ |
| 环境音 | 场景氛围(风声、雨声、人群声)    |
| 动态音 | 物体运动产生的声音(脚步声、开门声) |
| 氛围音 | 情绪基调(紧张BGM、温馨钢琴)   |
| 拟音  | 模拟真实声音             |
| 情绪音 | 强化情绪(心跳声、呼吸声)      |

───

五、一致性类

  1. 角色一致性(Character Consistency)

定义:同一个角色在视频的不同片段中保持一样的外貌特征。

问题:AI视频的最大难题之一,每帧独立生成容易”变脸”。

解决方案

• 参考生(图生视频锁定角色)

• 主体库(如Vidu Q3的角色库功能)

• 固定角色描述词

───

  1. 场景一致性(Scene Consistency)

定义:同一场景在不同镜头中保持一样的背景、环境。

解决方案

• 使用场景参考图

• 减少镜头切换频率

• 后期调色统一

───

  1. 风格一致性(Style Consistency)

定义:全片保持一样的视觉风格(色调、构图、光影)。

解决方案

• 统一风格提示词

• 全片统一调色

• 避免混用不同风格的元素

───

六、商业化类

  1. API(Application Programming Interface)

定义:应用程序接口,允许开发者调用AI模型能力。

用途:将AI视频能力集成到自己的产品或工作流中。

───

  1. SaaS(Software as a Service)

定义:软件即服务,在线订阅使用AI工具。

举例:Vidu SaaS(Vidu Agent、Vidu Claw)

───

  1. MaaS(Model as a Service)

定义:模型即服务,提供AI模型调用的服务。

举例:Vidu MaaS(API调用模式)

───

  1. 灵感值/额度

定义:AI平台的虚拟货币或消耗单位。

机制:生成视频消耗灵感值,分辨率越高、时长越长消耗越多。

───

七、平台专属类

  1. 可灵(Kling)

• 快手自研视频大模型

• 全球写实视频生成第一梯队

• 支持文生视频、图生视频

  1. Vidu

• 生数科技自研视频大模型

• 参考生功能全球首创

• U-ViT架构,清华团队研发

  1. 即梦(Jimeng)

• 字节跳动旗下AI创作平台

• 与抖音生态深度整合

• 国风动漫支持强

  1. 万相(Wan)

• 阿里自研视频大模型

• 中文文字生成能力强

• 开源版本免费使用

  1. Seedance

• 字节跳动高端视频模型

• 电影感强,画质细腻

• 企业级应用为主

───

八、评测榜单类

  1. Artificial Analysis

全球AI基准测试机构,定期发布模型能力榜单。

  1. SuperClue

发布的全球首个参考生视频榜单,Vidu Q3断层登顶。

───

九、常见问题类

  1. “AI味儿”(AI Look)

定义:AI生成内容特有的不自然感,如动作僵硬、表情不自然等。

缘由:AI对物理世界的理解仍有局限。

解决方法:选择更强的新一代模型,后期调色优化。

───

  1. 跳变/跳帧(Frame Jump)

定义:视频中画面突然变化,不连贯。

缘由:AI生成的帧之间缺乏时间连续性。

解决方法:使用首尾帧衔接,减少镜头切换。

───

  1. 崩坏(Quality Degradation)

定义:画面出现模糊、变形、噪点等质量问题。

缘由:复杂场景、长视频、高分辨率容易出现。

解决方法:缩短时长,用简单背景,降低分辨率。

───

十、工作流类

  1. 管线模式(Pipeline Mode)

定义:将剧本、角色、画面、剪辑等环节整合在一条流水线上。

优势:减少工具切换成本,效率大幅提升。

───

  1. 批量生成(Batch Generation)

定义:同一提示词生成多个版本,选最优。

原则:不要指望一次生成完美,多生成再筛选。

───

  1. 素材库/资产库(Asset Library)

定义:可复用的角色、场景、风格等素材集合。

价值:建立一次,反复使用,降低成本。

───

我个人的见解是:术语不用死记,用多了自然就熟悉了。刚开始记住最核心的几个——文生视频、图生视频、参考生、一致性——就够了,其他的在实际使用中遇到再查。

© 版权声明

相关文章

暂无评论

none
暂无评论...