基础入门：AI视频常用术语解析

内容分享2小时前发布今晚早点睡儿

0 0 0

全能 AI 聚合平台免费

一站式接入主流 AI 大模型，支持对话 · 生图 · 生视频，即开即用

ChatGPT Claude Gemini Grok DeepSeek 通义千问 Ollama

AI对话 AI生图 AI视频

免费使用 →

基础入门：AI视频常用术语解析

AI视频领域有许多专业术语，文生视频、图生视频、DiT架构、首尾帧控制……

这些术语不理解清楚，在学习和使用AI视频时会常常遇到障碍。

这篇整理AI视频领域最常见的术语，用大白话解释清楚。

───

一、生成方式类

文生视频（Text-to-Video）

基础入门：AI视频常用术语解析

定义：直接输入文字描述，AI生成对应视频。

类比：就像给AI下了一道”文字咒语”，它读懂后变出视频。

示例：

输入："一个穿汉服的女子在竹林中跳舞"
输出：一段女子竹林起舞的视频

常见平台：可灵、文心一格、即梦

───

图生视频（Image-to-Video）

基础入门：AI视频常用术语解析

定义：上传一张图片，AI将其转化为动态视频。

类比：给AI一张静态照片，它让照片里的人/物”动起来”。

示例：

输入：一张人物照片
输入提示词：人物开始行走、转身、微笑
输出：人物动态视频

常见平台：可灵、Vidu、即梦

───

参考生视频（Reference-to-Video）

基础入门：AI视频常用术语解析

定义：上传一张参考图，AI保持图片中的角色/场景特征生成新视频。

类比：给AI一个”角色模板”，后续视频中都保持这个角色长相。

核心价值：解决AI视频最头疼的问题——角色一致性

常见平台：Vidu Q3、可灵3.0、即梦

───

4.首尾帧控制（First-Last Frame Control）

基础入门：AI视频常用术语解析

定义：指定视频的起始画面和结束画面，AI生成中间过渡内容。

类比：像”拼图游戏”，给出起点和终点，AI填充中间过程。

用途：保证视频片段之间的衔接流畅

───

二、技术架构类

DiT（Diffusion Transformer）

定义：一种将扩散模型（Diffusion）和Transformer架构结合的神经网络架构。

背景：最早由Sora采用，现被多数主流视频模型采用。

为什么重大：决定了AI理解和生成视频的方式，直接影响生成质量和效率。

───

UViT架构

定义：Vidu模型采用的核心架构，由清华大学团队提出，比DiT更早。

特点：全球首个Diffusion与Transformer融合的架构，完全自主研发。

───

多模态（Multimodal）

定义：能同时处理多种类型数据（文字、图片、视频、声音）的大模型。

举例：可灵O1能将文字、图片、视频统一进同一生成框架。

───

三、视频质量类

分辨率（Resolution）

定义：视频画面的像素数量，决定清晰度。

| 分辨率   | 常见标识 | 适用场景  |
| ----- | ---- | ----- |
| 480p  | 标清   | 快速测试  |
| 720p  | 高清   | 社交媒体  |
| 1080p | 全高清  | 高质量内容 |
| 4K    | 超高清  | 专业制作  |

───

帧率（FPS）

定义：每秒显示的画面数量，决定流畅度。

| 帧率    | 特点   |
| ----- | ---- |
| 24fps | 电影标准 |
| 30fps | 视频标准 |
| 60fps | 流畅动画 |

───

3.时长（Duration）

定义：单次生成视频的长度。

运镜/镜头运动（Camera Movement）

常见类型：

| 术语            | 含义       |
| ------------- | -------- |
| 推镜头（Push In）  | 镜头逐渐靠近主体 |
| 拉镜头（Pull Out） | 镜头逐渐远离主体 |
| 环绕（Orbit）     | 镜头环绕主体旋转 |
| 横移（Pan）       | 镜头左右平移   |
| 竖移（Tilt）      | 镜头上下平移   |

───

四、内容生成类

提示词/Prompt

定义：给AI的指令性描述，告知它你想生成什么。

构成要素：

• 主体（谁/什么在画面中）

• 动作（做什么）

• 场景（在哪里）

• 风格（什么感觉）

• 运镜（怎么拍）

───

负面提示词（Negative Prompt）

定义：告知AI”你不要生成什么”。

作用：避免不想要的元素出目前画面中。

常用负面词：

• 模糊（blurry）

• 变形（distorted）

• 噪点（noise）

• 低质量（low quality）

───

风格标签（Style Tags）

定义：指定视频的视觉风格。

| 风格   | 标签词                   |
| ---- | --------------------- |
| 电影感  | cinematic, film grain |
| 动漫   | anime style           |
| 写实   | photorealistic        |
| 赛博朋克 | cyberpunk, neon       |
| 复古   | vintage, retro        |

───

特效（Visual Effects/VFX）

常见类型：

• 粒子特效：烟雾、火焰、爆炸

• 流体特效：水流动、液体飞溅

• 动力学特效：碰撞、破碎

• 光影特效：光束、光晕

Vidu Q3内置6大特效引擎：粒子、流体、动力学、运镜、转场、光影

───

音效（Sound Effects）

常见类型：

| 类型  | 作用                 |
| --- | ------------------ |
| 环境音 | 场景氛围（风声、雨声、人群声）    |
| 动态音 | 物体运动产生的声音（脚步声、开门声） |
| 氛围音 | 情绪基调（紧张BGM、温馨钢琴）   |
| 拟音  | 模拟真实声音             |
| 情绪音 | 强化情绪（心跳声、呼吸声）      |

───

五、一致性类

角色一致性（Character Consistency）

定义：同一个角色在视频的不同片段中保持一样的外貌特征。

问题：AI视频的最大难题之一，每帧独立生成容易”变脸”。

解决方案：

• 参考生（图生视频锁定角色）

• 主体库（如Vidu Q3的角色库功能）

• 固定角色描述词

───

场景一致性（Scene Consistency）

定义：同一场景在不同镜头中保持一样的背景、环境。

解决方案：

• 使用场景参考图

• 减少镜头切换频率

• 后期调色统一

───

风格一致性（Style Consistency）

定义：全片保持一样的视觉风格（色调、构图、光影）。

解决方案：

• 统一风格提示词

• 全片统一调色

• 避免混用不同风格的元素

───

六、商业化类

API（Application Programming Interface）

定义：应用程序接口，允许开发者调用AI模型能力。

用途：将AI视频能力集成到自己的产品或工作流中。

───

SaaS（Software as a Service）

定义：软件即服务，在线订阅使用AI工具。

举例：Vidu SaaS（Vidu Agent、Vidu Claw）

───

MaaS（Model as a Service）

定义：模型即服务，提供AI模型调用的服务。

举例：Vidu MaaS（API调用模式）

───

灵感值/额度

定义：AI平台的虚拟货币或消耗单位。

机制：生成视频消耗灵感值，分辨率越高、时长越长消耗越多。

───

七、平台专属类

可灵（Kling）

• 快手自研视频大模型

• 全球写实视频生成第一梯队

• 支持文生视频、图生视频

Vidu

• 生数科技自研视频大模型

• 参考生功能全球首创

• U-ViT架构，清华团队研发

即梦（Jimeng）

• 字节跳动旗下AI创作平台

• 与抖音生态深度整合

• 国风动漫支持强

万相（Wan）

• 阿里自研视频大模型

• 中文文字生成能力强

• 开源版本免费使用

Seedance

• 字节跳动高端视频模型

• 电影感强，画质细腻

• 企业级应用为主

───

八、评测榜单类

Artificial Analysis

全球AI基准测试机构，定期发布模型能力榜单。

SuperClue

发布的全球首个参考生视频榜单，Vidu Q3断层登顶。

───

九、常见问题类

“AI味儿”（AI Look）

定义：AI生成内容特有的不自然感，如动作僵硬、表情不自然等。

缘由：AI对物理世界的理解仍有局限。

解决方法：选择更强的新一代模型，后期调色优化。

───

跳变/跳帧（Frame Jump）

定义：视频中画面突然变化，不连贯。

缘由：AI生成的帧之间缺乏时间连续性。

解决方法：使用首尾帧衔接，减少镜头切换。

───

崩坏（Quality Degradation）

定义：画面出现模糊、变形、噪点等质量问题。

缘由：复杂场景、长视频、高分辨率容易出现。

解决方法：缩短时长，用简单背景，降低分辨率。

───

十、工作流类

管线模式（Pipeline Mode）

定义：将剧本、角色、画面、剪辑等环节整合在一条流水线上。

优势：减少工具切换成本，效率大幅提升。

───

批量生成（Batch Generation）

定义：同一提示词生成多个版本，选最优。

原则：不要指望一次生成完美，多生成再筛选。

───

素材库/资产库（Asset Library）

定义：可复用的角色、场景、风格等素材集合。

价值：建立一次，反复使用，降低成本。

───

我个人的见解是：术语不用死记，用多了自然就熟悉了。刚开始记住最核心的几个——文生视频、图生视频、参考生、一致性——就够了，其他的在实际使用中遇到再查。

内容分享

文章版权归作者所有，未经允许请勿转载。

XV6 操作系统入门系列-01-环境配置

内容分享

5个月前

080

上班摸鱼用MCP搭建了一个Agent系统

内容分享 # Agent # ai # MCP

8个月前

320

JavaScript常规加密技术

内容分享

6个月前

010

AI量化选股42 为了能自动化运行，特地写了一个批处理脚本

内容分享

6个月前

280

暂无评论

暂无评论...

基础入门：AI视频常用术语解析

一、生成方式类

二、技术架构类

三、视频质量类

四、内容生成类

五、一致性类

六、商业化类

七、平台专属类

八、评测榜单类

九、常见问题类

十、工作流类

AI 时代，程序员不仅不会消失，还会“一统天下”

AI 编程之禅

相关文章

XV6 操作系统入门系列-01-环境配置

上班摸鱼用MCP搭建了一个Agent系统

JavaScript常规加密技术

AI量化选股42 为了能自动化运行，特地写了一个批处理脚本

暂无评论

热门网站

3699小游戏

3699小游戏

小苹果网页助手

175dt梦幻西游答题器网页版

全网音乐免费下载

LuKuai 免费AI对话聊天平台

热门文章

昆廷夫夫日常合集：昆廷夫妇全集免费直通车1080P超速播-未删减百度云秒拉缓存-高清画质自由看-可影视全网极速播放昆廷夫夫日常合集-昆廷夫妇全集在线点播免VIP高清未删减版-可影视秒播

Kiro卡密使用登录指南

单片机最好用的程序框架，莫过于状态机了

【传奇开心果系列】基于Flet框架实现的多个窗口路由切换自定义界面框架模板特色和实现原理深度解析

这些选手，今年换了胶皮，为什么呢？

Python实战：构建集成AI大模型的抖音全自动评论系统（附源码详解）

基础入门：AI视频常用术语解析

一、生成方式类

二、技术架构类

三、视频质量类

四、内容生成类

五、一致性类

六、商业化类

七、平台专属类

八、评测榜单类

九、常见问题类

十、工作流类

AI 时代，程序员不仅不会消失，还会“一统天下”

AI 编程之禅

相关文章

热门网站

3699小游戏

3699小游戏

小苹果网页助手

175dt梦幻西游答题器网页版

全网音乐免费下载

LuKuai 免费AI对话聊天平台

热门文章

标签云