打造成功的视频提示词
提示词创作前
不妨将提示词创作看作是向一位从未见过你故事板的摄影师下达拍摄 brief。若遗漏细节,对方会自行发挥 —— 最终结果可能与你的预期大相径庭。明确 “镜头” 需达成的效果,能让模型获得更明确的控制方向和一致性依据。
但保留部分开放细节也能发挥奇效。赋予模型更多创作自由,可能会催生令人惊喜的变体和意想不到的绝佳诠释。两种方式皆可行:详细提示词能带来可控性和一致性,简洁提示词则为创意成果留出空间。合适的平衡取决于你的目标和期望结果。把提示词当作创意愿望清单,而非必须严格遵守的合约。与 ChatGPT 类似,同一提示词多次使用会产生不同结果 —— 这是特色而非漏洞。每一次生成都是全新演绎,有时第二或第三个版本反而更出色。
最重要的是,做好反复迭代的准备。调整相机参数、光线或动作等细微之处,都可能大幅改变最终效果。与模型协作:你提供方向,模型输出创意变体。
这并非精确的科学 —— 以下指南是我们在使用模型过程中总结的实用建议。
API 参数
提示词决定视频内容,但部分属性仅由 API 参数控制。无法通过文字描述请求这些属性,必须在 API 调用中明确设置:
- model:sora-2 或 sora-2-pro
- size:格式为 {宽度} x {高度} 的字符串,支持的分辨率因模型而异:
- sora-2:1280×720、720×1280
- sora-2-pro:1280×720、720×1280、1024×1792、1792×1024
- seconds:片段时长,支持值为 “4”“8”“12”,默认值为 “4”
这些参数是视频的 “容器”—— 分辨率、时长和画质不会因 “加长一些” 这类文字描述而改变。需在 API 调用中明确设置;提示词则控制其他所有要素(主体、动作、光线、风格)。
视频分辨率
分辨率直接影响 Sora 的视觉保真度和动作连贯性。高分辨率能更精准地呈现细节、纹理和光线过渡,低分辨率则会压缩视觉信息,常导致画面柔和或出现伪影。
视频时长
模型在较短片段中通常能更可靠地遵循指令。建议尽量采用简洁镜头;若项目允许,将两个 4 秒片段在后期拼接,可能比直接生成一个 8 秒片段效果更佳。
高效提示词结构
清晰的提示词应像在故事板上勾勒镜头般描述画面:明确镜头构图、注明景深、分节拍描述动作、设定光线和色调。用几个独特细节锚定主体以保证辨识度,单一且合理的动作能让镜头更易理解。
若需呈现连续场景,在单个提示词中描述多个镜头也可行。此时需让每个镜头块清晰区分:每次仅包含一种相机设置、一个主体动作和一套光线方案。这能让你灵活选择生成独立短视频段或较长连续镜头,具体取决于项目需求。将每个镜头视为独立创意单元,可在后期拼接,也可让其连续播放。
- 简洁提示词:赋予模型更多创作自由,可期待惊喜结果
- 冗长详细提示词:限制模型创意,它会努力遵循指引,但未必总能可靠执行
简洁提示词示例
“90 年代纪录片风格访谈,一位瑞典老人坐在书房里说:‘我还记得年轻时的事。’”
该提示词效果佳的原因:
- “90 年代纪录片” 设定视频风格,模型会据此选择镜头、光线、色调等变量
- “瑞典老人坐在书房” 简要描述主体和场景,让模型在人物形象和场景布置上拥有创作空间
- “说:‘我还记得年轻时的事’” 明确对话内容,Sora 通常能精准执行
这个提示词能稳定生成符合上述要求的视频,但可能无法完全契合你的想象 —— 因为诸多细节未明确,比如时段、天气、服装、语气、人物外貌年龄、拍摄角度、剪辑、场景设计等。除非明确描述,否则这些细节将由 Sora 自行设定。
超详细提示词创作
对于复杂的电影级镜头,可突破标准提示词结构,用专业制作术语明确画面风格、相机设置、调色、音效甚至镜头设计初衷 —— 类似导演向摄影团队或视觉特效团队下达 brief 的方式。关于镜头、滤光、光线、调色和动作的详细提示,能帮助模型精准锁定特定美学风格。
例如,可描述观众第一眼关注的焦点、相机设备和镜头、光线方向、色调、纹理质感、环境音和镜头时长。这种方式适用于需匹配真实电影摄影风格(如 IMAX 航拍、35 毫米手持、复古 16 毫米纪录片)或需保证镜头间严格连贯性的场景。
超详细提示词示例
格式与风格
时长 4 秒;180° 快门;数字拍摄模拟 65 毫米胶片对比度;细颗粒质感;高光处轻微光晕;无胶片 gate weave 效果
镜头与滤光
32 毫米 / 50 毫米球面定焦镜头;1/4 黑柔滤镜;轻微旋转偏振镜以控制火车车窗玻璃反光
调色 / 色调
高光:纯净晨光,带琥珀色提亮
中间调:中性平衡,阴影处略带青绿色调
暗部:柔和中性,轻微提亮以保留雾气质感
光线与氛围
- 自然光源:相机左侧低角度晨光(早上 7:30)
- 补光:轨道旁 4×4 银色反光板
- 减光:对面墙面放置减光板
- 实景光源:站台钠灯微弱渐亮
- 氛围:轻雾;火车尾气在光束中飘散
场景与构图
- 场景:城市通勤站台,黎明时分
- 前景:黄色安全线,长椅上的咖啡杯
- 中景:雾气中乘客的剪影
- 背景:进站减速停车的火车
- 禁忌:避免出现标识或企业品牌元素
服装 / 道具 / 群演
- 主角:30 多岁旅行者,藏青色外套,单肩挎背包,手持手机自然垂于身侧
- 群演:穿着低饱和度服装的通勤者;一名推车骑行者
- 道具:纸质咖啡杯、滚轮行李箱、LED 显示屏(显示通用目的地)
音效
仅保留环境音:微弱铁轨摩擦声、火车刹车嘶嘶声、远处模糊广播(-20 响度单位)、低沉环境嗡鸣
脚步声和纸张摩擦声;无配乐或额外拟音
优化镜头列表(2 个镜头 / 总时长 4 秒)
- 0.00–2.40 — “到站漂移”(32 毫米镜头,肩扛式缓慢左移推拉):镜头滑过站台标识边缘;浅景深聚焦画面中央望向轨道的旅行者;晨光在镜头上晕染;火车头灯光透过雾气柔和闪烁。用途:建立场景与基调,暗示期待感
- 2.40–4.00 — “转身停顿”(50 毫米镜头,缓慢弧形推进):切至更紧凑的过肩弧形镜头,火车停稳;旅行者略微转向镜头,脸颊被阳光勾勒出金色轮廓,手机屏幕反光可见;目光瞥向某处未知事物。用途:以极简动作打造人文焦点时刻
镜头要点(为何有效)
- 保持视线偏低且接近镜头轴线,营造亲切感
- 保留火车玻璃产生的细微光晕作为美学质感
- 保留轻微手持抖动,提升真实感
- 避免过曝光晕破坏剪影清晰度,保留皮肤高光过渡自然
后期处理
- 叠加细颗粒与轻微色度噪点,增强真实感;实景光源光晕适度克制;采用冷暖分色 LUT,呈现晨色质感
- 混音:优先突出火车声与环境细节,弱化脚步声瞬态
封面帧
旅行者转身瞬间,金色轮廓光,背景雾气中火车柔焦呈现
引导画面风格的视觉提示
创作提示词时,风格是引导模型达成预期效果的最强有力工具之一。描述整体美学风格(如 “70 年代电影”“IMAX 级史诗场景”“16 毫米黑白胶片”),能设定统领所有其他选择的视觉基调 —— 务必尽早明确风格,让模型始终保持一致性。
同一细节在不同风格要求下呈现效果截然不同,比如指定 “好莱坞精致剧情片”“手机手持拍摄” 或 “复古颗粒广告”,效果会大相径庭。确定基调后,再逐步添加镜头、动作和光线细节。
清晰度是关键:避免 “美丽的街道” 这类模糊描述,应写 “潮湿的柏油路、斑马线、霓虹灯光映在水坑中”;不说 “快速移动”,而明确 “骑行三步后刹车,停在人行道旁”。指向可见结果的动词和名词,总能带来更清晰、更一致的输出。
| 低效提示词 | 高效提示词 |
|---|---|
| “夜晚美丽的街道” | “潮湿的柏油路、斑马线、霓虹灯光映在水坑中” |
| “有人快速移动” | “骑行者蹬车三次后刹车,停在人行道旁” |
| “电影感画面” | “2.0 倍变形镜头、浅景深、体积光” |
相机角度与构图决定镜头质感:俯拍广角镜头突出空间感与场景感,平视特写聚焦情感表达。景深是另一重要维度:浅景深让主体在模糊背景中突出,深景深则让前景与背景均保持清晰。光线对基调的影响同样显著:柔和温暖的主光营造亲切氛围,单一锐利的冷调侧光则增强戏剧张力。
引入人物时需接受一定不确定性 —— 措辞细微变化可能改变人物身份、姿态或场景焦点。确保镜头间描述一致,重复关键表述以保证连贯性,避免混合相互冲突的特征。
| 低效 | 高效 |
|---|---|
| 镜头:电影感画面 | 镜头:广角远景,低角度
景深:浅(主体清晰,背景模糊) 光线 + 色调:温暖逆光,柔和轮廓光 |
优秀构图示例
- 广角远景,平视角度
- 广角镜头,随冲锋向左向右移动跟踪拍摄
- 航拍广角,轻微下倾角
- 中近景,从后方轻微侧拍
优秀相机运动示例
- 缓慢俯仰镜头
- 电子新闻采集(ENG)手持相机
控制动作与时长
动作通常是最难精准呈现的部分,因此需力求简洁。每个镜头应包含一个明确的相机运动和一个清晰的主体动作。动作描述建议按节拍或次数拆分 —— 细微的步伐、手势或停顿,能让动作在时间维度上更具真实感。
“演员穿过房间” 这类描述信息量不足,而 “演员向窗户走四步,停顿,最后一秒拉开窗帘” 则让时长更精准、更易执行。
| 低效 | 高效 |
|---|---|
| 演员穿过房间 | 演员向窗户走四步,停顿,最后一秒拉开窗帘 |
光线与色彩一致性
光线对氛围的影响不亚于动作或场景。画面中均匀扩散的光线带来平静中性的感觉,单一强光源则产生强烈对比与紧张感。若需拼接多个片段,保持光线逻辑一致是实现无缝剪辑的关键。
同时描述光线质感和强化色调的核心色彩:避免 “明亮的房间” 这类笼统表述,应明确光源组合与色调,例如 “柔和的窗户光搭配温暖的台灯补光,走廊透出冷调边缘光”。指定 3-5 种核心色彩,有助于保持镜头间色调稳定。
| 低效 | 高效 |
|---|---|
| 光线 + 色调:明亮的房间 | 光线 + 色调:柔和的窗户光搭配温暖的台灯补光,走廊透出冷调边缘光
核心色调:琥珀色、奶油白、胡桃棕 |
利用图像输入获得更强控制
若需更精细地控制镜头构图与风格,可将图像作为视觉参考输入 —— 照片、数字艺术或 AI 生成图像均可。这能锁定人物设计、服装、场景布置或整体美学等元素:模型会以图像为第一帧基准,文本提示词则定义后续动态。
使用方法
- 在 POST /videos 请求中,将图像文件作为 input_reference 参数传入
- 图像分辨率必须与目标视频分辨率(size)一致
- 支持格式:image/jpeg、image/png、image/webp
图像输入示例
| 输入图像(OpenAI GPT 图像生成) | Sora 2 生成视频(转为 GIF) |
|---|---|
| [下载图像] | [下载 GIF] |
| 提示词:“她转过身微笑,然后缓缓走出画面” | |
| [下载图像] | [下载 GIF] |
| 提示词:“冰箱门打开,一只可爱胖乎乎的紫色怪物走了出来” |
实验技巧
若暂无视觉参考,可利用 OpenAI 的图像生成模型快速创建 —— 先生成场景和环境设计,再将其作为参考传入 Sora。这是测试美学风格、获取优质视频起点的高效方式。
对话与音频
对话需在提示词中直接描述,单独列在文字描述下方,方便模型区分视觉描述与台词。台词应简洁自然,根据片段时长控制数量(4 秒片段通常适合 1-2 轮简短对话,8 秒片段可适当增加)。长段复杂台词难以精准同步,还可能破坏节奏。
多角色场景中,需统一标注说话人,采用交替对话形式 —— 这有助于模型将台词与对应角色的手势、表情匹配。
若镜头无对话,可添加一个细微音效暗示节奏,例如 “远处车流嘶鸣” 或 “清脆的断裂声”,将其视为节奏提示而非完整配乐。
含对话的提示词示例
“一间狭小无窗的房间,墙壁是陈旧的灰烬色。天花板上悬挂着一盏裸露的灯泡,光线聚焦在中央伤痕累累的金属桌上。桌旁相对摆放着两把椅子。一侧坐着侦探,风衣搭在椅背上,目光锐利而坚定。对面的嫌疑人瘫坐着,香烟烟雾缓缓飘向天花板。沉默弥漫,只有头顶灯泡微弱的嗡鸣打破寂静。”
对话:
- 侦探:“你在撒谎,我能从你的沉默中听出来。”
- 嫌疑人:“或许我只是厌倦了说话。”
- 侦探:“不管怎样,今晚你总会开口的。”
背景音效描述示例
“浓缩咖啡机的嗡鸣与人们的低语构成背景音。”
利用 Remix 功能迭代优化
Remix 功能用于微调而非冒险尝试。每次仅做一项可控修改,并明确说明变更内容,例如 “相同镜头,切换为 85 毫米镜头” 或 “保持光线不变,新色调:青绿色、沙色、铁锈红”。若结果接近预期,可将其设为参考,仅描述需调整的部分 —— 这样能保留已满意的元素。
若某个镜头反复效果不佳,可简化处理:固定相机、精简动作、清理背景。待效果达标后,再逐步增加复杂度。
Remix 示例
| 原始视频 | Remix 生成视频 |
|---|---|
| [原始视频] | [Remix 视频] |
| 提示词:“将怪物颜色改为橙色” | |
| [原始视频] | [Remix 视频] |
| 提示词:“紧接着走出第二只怪物” |
提示词模板与示例
提示词结构
一种高效的创作方式是按信息类型分类描述 —— 这并非万能公式,但能提供清晰框架,便于保持一致性。无需包含所有细节:若某元素对镜头无关紧要,可直接省略。
事实上,保留部分开放元素能激发模型创意:对视觉选择的限制越少,模型的诠释空间越大,越可能产出新鲜独特的惊喜变体。详细提示词带来更一致可控的结果,简洁提示词则能解锁多元新颖的创意输出。
详细提示词模板
[用通俗语言描述场景:包括人物、服装、场景、天气等细节,描述越具体,生成的视频越贴近你的想象]
电影摄影:
- 镜头:[构图与角度,例如 “广角远景,平视”]
- 基调:[整体氛围,例如 “电影感与紧张感、俏皮与悬疑感、奢华期待感”]
动作:
- [动作 1:清晰具体的节拍或手势]
- [动作 2:片段内另一个独特节拍]
- [动作 3:其他动作或对话]
对话:
[若镜头包含对话,在此处或动作列表中添加简短自然的台词,确保时长与片段匹配]
提示词示例
示例 1
风格:手绘 2D/3D 混合动画,柔和笔触质感,温暖钨丝灯光线,兼具触感与定格动画质感。美学风格呼应 2000 年代中期绘本动画 —— 温馨、略带瑕疵、充满机械魅力。细微水彩晕染与绘画质感;色调冷暖平衡;电影级运动模糊提升动画真实感。
场景:杂乱的工作室里,货架上堆满齿轮、螺栓和泛黄的蓝图。中央木质工作台上坐着一个圆形小机器人,凹陷的机身拼接着不匹配的金属板和陈旧漆面。它那双发光的大眼睛闪烁着淡蓝色光芒,正紧张地摆弄着一盏嗡嗡作响的灯泡。空气中弥漫着轻柔的机械运转声,雨点敲打着窗户,时钟在背景中稳步滴答作响。
电影摄影:
- 镜头:中近景,缓慢推进,悬挂的工具形成轻微视差效果
- 镜头:35 毫米虚拟镜头;浅景深柔化背景杂物
- 光线:顶部实景光源提供温暖主光;窗户透入冷调侧光形成对比
- 基调:柔和、俏皮,略带一丝悬疑
动作:
- 机器人轻敲灯泡,火花噼啪作响
- 它受惊退缩,灯泡掉落,眼睛瞪大
- 灯泡慢动作下坠,机器人及时接住
- 胸口喷出一缕蒸汽 —— 释然又自豪
- 机器人轻声说:“差点就丢了…… 还好接住了!”
背景音效:
雨声、时钟滴答声、轻柔机械运转声、微弱灯泡嘶嘶声。
示例 2
风格:70 年代浪漫剧情片,35 毫米胶片拍摄,自然光晕、柔焦效果与温暖光晕。轻微胶片 gate weave 效果与手持轻微抖动营造复古亲切感。柯达风格温暖调色;灯泡产生轻微光晕;胶片颗粒与柔和暗角增强年代真实感。
场景:黄金时刻,砖砌公寓楼顶化作小型舞台。晾衣绳上悬挂的白床单随风飘动,捕捉着最后一缕阳光。头顶悬挂着一串样式各异的彩色小灯,发出微弱嗡鸣。一位身着飘逸红色丝绸连衣裙的年轻女子赤脚起舞,卷发在渐暗的光线中闪耀。她的舞伴 —— 袖口卷起、吊带松开 —— 跟着节拍鼓掌,笑容灿烂坦荡。楼下城市喧嚣:汽车鸣笛、地铁震动、远处笑声交织。
电影摄影:
- 镜头:中广角,从平视角度缓慢推进
- 镜头:40 毫米球面镜头;浅景深将情侣与天际线隔离
- 光线:金色自然主光搭配钨丝灯补光;彩色小灯形成边缘光
- 基调:怀旧、温柔、电影感
动作:
- 她旋转起身,裙摆飞扬,映照阳光
- 女子(笑着说):“看?就连城市今晚都在和我们共舞。”
- 他上前一步握住她的手,将她带入阴影中轻拥
- 男子(微笑着说):“只因你是领舞者。”
- 床单飘过画面,短暂遮挡天际线后缓缓散开
背景音效:
仅保留自然环境音:微弱风声、布料飘动声、街道噪音、模糊音乐声,无额外配乐。
THE END




















暂无评论内容