可灵 AI 发布 可灵视频 2.6 版本,核心创新为首个「音画同出(Audio-Visual Co-generation)」模型。
和 Veo 3一样,模型能直接生成声音,不再依赖外部配音或后期合成。
包括:
• 中英双鱼多人物人物对白
• 环境音效(风声、脚步、碰撞声等)
• 情绪化声音(紧张、轻松、神秘等氛围)
这意味着:
你输入一句话,AI不仅能生成画面,还会自动“配音”、生成动作音效和环境声音。
从此,AI视频不再是“无声的画面”,而是“完整的视听体验”。
声音与画面天然同步,嘴型、节奏、气氛一致。
画面和音频是同一模型的一次推理过程完成的。
不分模块、不拼接,不会出现传统 AI 视频里的“嘴型不对、情绪不连贯”。
支持 5 秒 / 10 秒 ,1080P生成
角色能做到:
• 更自然的开口说话
• 情绪与声音一致
• 表情更贴合台词内容
场景氛围音不再需要找素材库。
系统可自动给画面匹配:
• 雨声、海浪、风声
• 脚步声、门响、摩擦声
• 爆炸声、机械声等场景音效
Video 2.6 在动作、镜头衔接、故事节奏上比前一代更稳定:
• 场景切换更自然
• 角色在不同镜头中的一致性更强
• 动作不容易突然跳帧
模型亮点
1️⃣ 音画协同:声音与画面完全同步
传统AI视频常出现“嘴动不同步”“声音脱节”的问题。新版本通过深度语义对齐,让画面中的动作、语气、节奏、背景声自然对应。
例如:
-
说话的嘴型和语音完全对上;
-
动作和音效同步出现(如走路时有脚步声);
-
环境声会根据场景变化自动调整。
看起来像真人拍摄的视频,而不是拼接出来的AI视频。
2️⃣ 声音质量更高:更干净、更真实
新模型能自动生成三类声音:
-
人声:对话、旁白、唱歌、说唱等;
-
动作音效:敲击、开门、脚步、物体移动;
-
环境声:风声、街道声、室内回响、自然声音。
特点:
-
音质清晰,没有底噪;
-
声音层次丰富,有空间感;
-
混音自然,无需后期调整。
听起来更像电影或纪录片级的声音效果。
3️⃣ 语义理解更强:AI更懂内容
新的模型不仅能“说”,更能理解你想表达的内容。
它能识别剧情、人物语气、场景氛围,让生成的声音和画面都更贴合语义。
AI目前能理解更复杂的文本和情境,列如:
-
能分辨谁在说话、语气如何;
-
能根据剧情内容生成合适的语音语调;
-
能判断环境,自动匹配背景声。
列如你输入:
“她轻声笑着说:我们又见面了。”AI会自动生成:
AI不只是“说话”,而是“理解并表演”。
创作流程升级
✏️ 文生音画(从文字生成完整视频)
输入一句描述,AI就能直接输出带声音的视频。
示例:
一个年轻的女性,穿着休闲,亚洲面孔,背景是温馨的客厅,坐在沙发上轻轻的说:“I have a secret, Kling 2.6 is coming.”
AI会生成:
-
画面中的人物与场景;
-
自然的语音;
-
匹配的环境声(列如室内回声、轻微呼吸声)。
不需要再配音、剪辑,一步出片。
️ 图生音画(让图片“说话”)
上传一张人物或场景图,AI可以让画面动起来并发出声音。
适合:
-
让静态人物开口说话;
-
做产品讲解视频;
-
生成访谈或短剧场景。
简单说:
“一张图 + 一段文字 = 一条有声视频。”

一个女人和一个男人在进行播客对谈,女人先说话,说完话后停止,男人继续说话。
女人说:”Why do you always work overtime until late at night?”,这时说话人切换,男人笑着回应说:”Because I make decisions during the day, and /'mresponsible for changing those decisions at night.”,两个人一起一边鼓掌一边大笑了起来。
可灵Video 2.6 提示词指南
在使用「视频 2.6 模型」时
您只需写出【您想看到的画面】+【发生了什么动作】+【您希望出现的声音】
即可生成高质量的音画直出视频。您可以参考下列公式:

重点教学:多角色对话 Prompt 范例
P1. 结构化命名
核心原则:角色标签必须唯一且始终如一。
写法示例:
[角色A: 黑衣特工]
[角色B: 女助手]
❌ 错误做法:使用代词或同义词,如「他」「她」「特工」「那个人」等。
错误示例:
[特工] 说…… 随后,他又说……
(错误:模型可能无法区分说话者)
P2. 视觉锚定
核心原则:让每个角色的台词都与其动作绑定。
正确示例:
黑衣特工猛地拍了一下桌子。[黑衣特工, 愤怒地喊]:“真相在哪?”
错误示例:
[黑衣特工]:“真相在哪?”(模型不知道是谁拍桌子,缺乏动作线索)
P3. 音频细节
核心原则:为每个角色添加独特的音色与情绪标签。
正确示例:
[黑衣特工, 声音沙哑、低沉]:“别动。”[女助手, 声音清亮、带恐惧]:“我害怕。”
错误示例:
[男人] 说… [女人] 说…(音色描述太模糊,角色容易混淆)
P4. 时序控制
核心原则:用连接词明确控制对话顺序和节奏。
正确示例:
[黑衣特工]:“为什么?”紧接着,[女助手]:“由于时间到了。”
可选增强:
在两人间插入“此时镜头切换”、“气氛凝固”等节奏提示。
错误示例:
[黑衣特工]:“为什么?” [女助手]:“由于时间到了。”(模型可能误判为同一人连续发言)
常见音频描述关键词
(1)叙事类
-
关键词:讲述、旁白、平稳、缓慢、低沉、理性。
-
示例:
一名男子低声独白,平静地回忆自己的过去。
(2)情绪表达类
-
关键词:愤怒、惊喜、悲伤、轻柔、激动、紧张、恐惧。
-
示例:
她的声音微微颤抖,带着明显的恐惧感。
(3)语速与节奏类
-
关键词:快语速、慢语速、急促、拖音、节奏分明。
-
示例:
他说话节奏加快,语气中透着一丝焦虑。
(4)环境声类
-
关键词:室内、街道、空旷、回响、风声、水声、人群声。
-
示例:
背景传来轻微的回音,像在空旷的大厅里。
(5)音色特征
-
关键词:沙哑男声、清亮女声、少年音、机械音、电子音。
-
示例:
一个温柔的女声在耳边轻声说话,声音带着细微的颤音。
(6)音乐风格类
-
关键词:古典、爵士、摇滚、电子、民谣、说唱。
-
示例:
声音富有节奏感,带有轻微的Trap风格。
可灵Video 2.6模型价格
「视频2.6模型」提供“音画同出”与“纯视频生成”两种模式,价格依据视频时长与功能模块不同而有所差异。
会员价格:5秒片段:15点能量,10秒片段:30点能量
非会员价格:5秒:20点能量,10秒:40点能量
常见问题 FAQ
️ Q1:目前支持哪些语言的语音?
目前模型只支持中文和英文两种语音输出。如果你输入其他语言,列如法语、西班牙语之类的,系统会自动翻译成英文再生成语音,不会影响整体体验。
整在加速支持更多语言,列如日语、韩语、西语等,很快就会上线,敬请期待!
Q2:能只生成音频,不要视频吗?
当然可以!你可以去平台的 「音效生成」模块,按需求选择:
-
文生音效:输入文字描述,系统直接生成独立音频;
-
视频生音效:上传视频,自动提取或生成音效。
也就是说,不做视频也能单独搞定声音创作,适合做播客、配乐、旁白等内容。
Q3:怎么让生成效果更好?
如果你想让AI生成的内容更自然、更准确,可以注意下面几点
① 优化提示词
写得越清楚越好,别一次塞太多东西。明确场景、声音类型、风格等要点。
例如:
✅「夜晚的海边,轻风、海浪声,远处有轻柔的吉他」
❌「浪漫、夜晚、海边、音乐、人声、风声…」太杂,模型容易乱。
② 图文要匹配
如果你用图片做参考,别让图片和文字对不上。
列如你写“户外露营”,结果图是“办公室”,AI会被搞糊涂,生成内容就不对味。
③ 参数要合适
根据需求调整视频长度、画面比例、分辨率等,别直接用默认设置。
列如语音很短,但视频太长,会显得节奏拖沓。
④ 简化创作场景
每次生成别塞太多元素。列如别在一条Prompt里又加环境音、又加多人说话、又要背景音乐。聚焦一个主题,模型输出会更稳定、更好看。
加入XiaoHu.ai 日报社群 每天获取最新的AI信息

____________
End.
感 谢阅 读


