如何撰写完美的Veo 3.1提示词：新手入门指南

你已经有了一个关于视频的明确构思，但面临的难题在于：你不知道该如何撰写Veo 3.1提示，才能生成你心中理想的那个准确视频。这也是大多数创作者容易卡壳的环节。问题不在于缺乏创意，而在于不会将你的创意有效传达给AI模型。比如“有人在走路”的提示，可能仅会生成简单平淡、令人忘记的片段。而一个清晰、详细的提示，则能带来逼真、精致且具有电影质感的画面。

事实是：AI视频的质量80%取决于提示表达，20%取决于模型性能。 即使使用最先进的技术，如果提示不够明确，也会影响最终效果。

Veo 3.1为你提供了两种不同的创作路径。文本转视频主要从零构建内容，而图像转视频则可以动画化你已拥有的素材。

每种路径都对应不同的提示风格。如果混用，可能导致效果不一致。

本指南为你提供简洁明了的结构，用于撰写Veo 3.1两种创作方式的提示。你将看到示例，理解背后的逻辑，并获得可直接使用的模板。

让我们开始吧。

Veo 3.1 提示有何不同？

如果你之前使用过Veo 3，或许会想：Veo 3.1是否需要全新的写作技巧？

简洁的回答是：不一定。

结构保持一致，但模型更聪明、更精准，也更强大。以下是主要的变动内容。

更好地理解你的需求

Veo 3.1对细节的理解更加精准。如果你描述一个具体的摄像移动，比如“缓慢推镜到人物脸部”，Veo 3.1会更紧密地执行相应指令。Veo 3可能只是大致还原，而Veo 3.1则能更准确达成。

两者都支持音频。但Veo 3.1能生成更清晰的对白、更逼真的环境声。人物声音更自然，雨声、脚步声等效果也更真实可信。

你还可以做得更多

Veo 3.1允许你构建多场景序列、切换角度，并确保角色在不同场景中的连贯性。同时，你还能控制视频的开头和结尾。总而言之，Veo 3.1提供了更大的自由度和专业水准的效果。

总结： 你是在引导AI“创造什么”。Veo 3像一个好学生，Veo 3.1则是出色的学生。你用相似的方法指导它们，但Veo 3.1学习得更快、更全面，记忆的细节也更多。

Veo 3.1 文本转视频提示

在撰写Veo 3.1提示时，只需遵循一个简单的五要素结构。这五个要素的顺序非常重要，因为它们模仿了电影拍摄的思路，从摄影机到情感表达。

这五个要素是：

摄影（Cinematography） – 摄像机的构图与运动
主体（Subject） – 镜头中的人物或对象
动作（Action） – 场景中发生的内容
情境（Context） – 时间、地点、天气等环境信息
风格与氛围（Style & Ambiance） – 画面风格、色彩、音效等

首先设定摄影方式，然后描述画面中的元素。这个顺序帮助Veo 3.1理解你要表现的内容以及表达的情感。

1. 摄影——摄像机

摄影决定了视频最初的视觉冲击和观众的情感共鸣。

你可以先选择镜头类型：广角（展现空间）、中景（适合对话）或特写（表达情感）。再描述镜头的移动方式：缓慢推镜增强亲密感，平稳跟踪带出运动感，静止镜头彰显平静。

最后，说明焦点：浅景深突出主体，深焦整体清晰，适合纪录片风格。

示例提示：

广角定镜头，三脚架固定，细腻景深
缓慢推镜，从宽景到中景，浅景深突出主体，营造亲密感
缓慢推进，柔和逆光勾勒轮廓，特写捕捉雨幕中窗边青年的情感瞬间

2. 主题——谁或什么内容

主体是画面的核心，需清楚描述其表现。用简洁的特征描写人物：年龄、发型、穿着、情绪。物体或产品方面，强调质感、材质与颜色。这些细节有助于AI保持不同片段的视觉统一。

示例：

简略： 一个人
优化： 明亮工作室中的友好创始人，柔和主光照明，穿着专业装束
专业： 30多岁的男士，肩长红发，身姿自信，目光锐利，穿复古牛仔夹克，眼中带有兴奋神色

3. 行动——正在发生什么

动作描述应强调“如何做”和“为何如此”。“她走”可以是“她从容、沉稳地迈步”，表达她的心情。对白简洁自然，传达语气即可。

明确的动作让静态画面充满生机，更具生命力。

示例：

一般： 一个人在探索
优化： 在街市探索，品尝不同美食，一边行走一边交谈，偶尔望向镜头
专业： 她边尝试街头美食边讲话，偶尔望镜头，然后转身指向有趣的摊位，兴奋地讲述发现

4. 背景——地点和时间

不同姿势在豪华顶层公寓、温馨咖啡馆或热闹市场中会有截然不同的感觉。请用具体细节描述场景：这是何种场所，背景元素，时间、光线、季节或天气。这些细节能让场景生动、可信，观众能瞬间构建画面。

示例：

模糊： 外面，白天
优化： 东京繁忙的街头市场，摊位林立，氛围热烈，下午阳光在摊位间投下美丽的阴影
专业： 现代科技创业公司办公室，裸露砖墙，站立式办公桌，多屏显示器，植物点缀，巨大的落地窗外是繁忙的都市街景，金色时段，温暖阳光投下长长的影子

5. 风格与氛围——情绪与音效

风格与氛围决定你视频的视觉效果和声音环境。它们共同塑造情感色调，贯穿始终。

优先明确你想表达的视觉风格：电影感、纪录片或商用。然后描述色彩搭配：暖色调营造温馨，冷色调显干净。最后，加入音频元素，明确音乐、环境音或对白。不要使用“背景音乐”这类模糊词，而用感觉描述：柔和钢琴、活力节奏或细雨环境声。

示例：

弱：商业风，灯光还不错，音效良好
优化： 电影纪录片风格，暖色调，配合柔和卡拉OK声的背景音乐。音频：静谧办公室环境声，敲键声，她说：“原型已准备好”
专业： 豪华电影广告风格，暖香槟与冷灰色调，4K画质。音频：脚步声，远处办公环境声（电脑嗡嗡，微弱电话铃声），柔和钢琴伴奏，浅景深贯穿全片。

提示词模板

摄影：[镜头类型], [镜头运动], [镜头属性]
主题： [人物或物体详细描述]
行动： [发生的内容，动作方式，意图]
背景： [地点、时间、天气、光线方向、时间段]
风格与氛围： [视觉风格、氛围、色彩搭配]，音频：[对白/SFX/环境声]

完整示例

摄影： 逐渐推镜穿过极简风格的客厅，宽镜头切换到中景，浅景深，纯白背景
主题：一位30多岁的职业女性，外表干练，穿剪裁得体的西装外套，自信满满，目光聪慧
动作： 她坚定而有目的地走入房间，在大窗前停顿，沉思地望向外面城市景色，然后转身面对摄像头
背景：现代极简设计起居室，落地窗外是清晨阳光，投下柔和长长的阴影到橡木地板，白色墙面，现代家具，城市景色在黄金时段清晰可见
风格与氛围： 电影级豪华纪录片风格，温馨宜人，专业 4K 画质。音频：轻微的脚步声，远处城市环境音非常微弱，下方是柔和的钢琴背景音乐，无对白，无字幕。

图像到视频的制作方式

图像到视频的制作流程不同于文本转视频。你无需描述整个场景。因为图片已经展示了主题、光线和环境。

你的任务只是将其动画化。

这意味着你的提示词可以更简洁，通常50-100字，而不是文本转视频的100-180字。

CCAD 框架

你可以使用CCAD 框架来编写图像到视频的提示：

[C]amera（摄像机）——镜头应如何移动？
[C]haracter（角色）——画面中的人物或物体（简要描述——它们已在图片中展示）
[A]ction（动作）——需要发生哪些动作？
[D]ialogue（对话）——他们应该说些什么？

你不必每次都包含所有四个元素。很多优秀的短片完全没有对话，有些也没有角色线。关键是要明确需要动或听到的内容。

完整示例

专业肖像动画示例

参考图片：专业女性在办公桌前使用笔记本电脑

提示：

[C]amera： 慢速推进，三秒内由全景转为中近景
[C]haracter： 正在办公桌前工作的专业女性
[A]ction： 她敲击笔记本电脑，停顿片刻，抬头面带微笑地看向摄像头，然后又低头继续操作
[D]ialogue： 说“我这个问题交给我了”
音频： 微妙的键盘敲击声，柔和的办公室环境声

2. 产品动画（奢华手表）示例：

参考图片：放在大理石表面上的奢华手表

提示：

[C]amera： 慢速360度云台旋转，围绕手表进行中心构图
[A]ction： 手表缓慢旋转，显示所有角度，光线折射出光滑表面
[D]ialogue： 无对话，加入真实机械表的滴答声，节奏柔和

3. 旅游照片转动态示例：

参考图片：日落时运河的旅游照片

提示：

[C]amera： 镜头向前缓慢移动30%，展现微妙的视差效果
[A]ction： 保持原有构图和色调，在水面加入缓慢的涟漪效果，云朵轻轻漂浮
[D]ialogue： 无对话，加入柔和的城市环境声和水面的波纹声

时间戳提示：创建多场景视频

Veo 3.1 增加了一项强大的新功能： 时间戳提示 。

不是生成单一镜头，而是在一个八秒的视频中创建完整场景序列。你可以将视频划分成多个时间块，例如：

[00:00–00:02]
[00:02–00:04]
[00:04–00:06]

每个时间段告诉Veo 3.1在该时间点应执行的镜头运动、动作或对话内容。

这样你可以：

切换视角
引入新动作
更换场景
保持角色连贯

全部在一个提示中完成。

多镜头场景示例：

【00:00-00:02】一名背着皮包、棕色头发扎马尾的女性探险者，从背后中景，她推开一大片丛林藤蔓，露出隐秘的小路

【00:02-00:04】反拍探险者满脸雀斑的脸，她惊叹地望着远处长满苔藓的古遗迹。音效：密集树叶沙沙声，远处鸟鸣声

【00:04-00:06】跟随拍摄，探险者步入空地，手触古老的雕刻墙面。情感：惊奇与敬畏

【00:06-00:08】鸟瞰高角吊臂镜头，显示孤身一人在浩大的被遗忘的庙宇中，几乎被丛林吞没。音效：渐强的温柔交响乐

专业对话场景

【00:00-00:02】一个女性穿着商务休闲坐在现代办公室的办公桌前，操作笔记本

【00:02-00:04】特写她抬头微笑，点头示意某人进来。对话：“你准时到，非常感谢。”

【00:04-00:06】背对镜头，显示另一人在桌对面坐着

【00:06-00:08】全景拉远，显示办公室全景，两人在窗前谈话，俯瞰城市