
Veo 3.1 Lite 图生视频:一分钟内将产品照片转为视频剪辑
如何使用 Veo 3.1 Lite 的 image-to-video 模式,从静态照片生成产品演示、社交媒体内容和品牌视频——本文包含真实案例与工作流技巧
你将学到
- ✅ image-to-video 在 Veo 3.1 Lite 中的工作原理,对比纯文本生成
- ✅ 哪些类型的产品图效果最好(哪些不行)
- ✅ 可控运动的首帧末帧技巧
- ✅ 适用于产品演示、时尚、美食和社交钩子的 Prompt 模板
- ✅ 完整工作流:照片 → 视频 → 直接发布
为什么图生视频会改变工作流
刚接触 Veo 3.1 Lite?请先阅读模型概述,了解定价、规格,以及它在 Google 视频模型阵容中的定位。
文生视频功能强大,但它具有概率性——你描述想要的内容,由模型来解读。图生视频则不同:你提供精确的视觉起点,模型从这里开始生成动画。
对于产品创作来说,这一点至关重要。你的产品有特定的形状、颜色、材质和品牌标识。文字 prompt 无法保证这些细节准确呈现,而图片可以。
Veo 3.1 Lite 支持分辨率为720p和1080p的 image-to-video,同时支持 16:9 和 9:16 格式,时长可选4秒、6秒或8秒。在 NanoBanana 上生成8秒视频仅消耗20 credits,成本足够低,你可以为单张产品图生成5–10个变体,再从中挑选最佳效果。
Veo 3.1 Lite 中图生视频的工作原理
你需要提供:
- 一张参考图 —— 即视频的第一帧
- 一条文字 prompt —— 描述运动、运镜和音频
- 时长和宽高比 —— 4秒/6秒/8秒,16:9 或 9:16
模型会从你的图片出发生成动画,向外延伸生成完整视频。图片确定视觉风格,prompt 引导后续内容。
核心结论是:图片负责「它长什么样」,prompt 负责「它做什么」。 这样拆分任务,你就能得到一致、符合预期的输出。

什么样的输入图片效果好
并非所有产品图的效果都一致。以下是模型可以稳定处理的类型,以及容易出问题的类型:
| 图片类型 | 效果良好 | 避免使用 |
|---|---|---|
| 纯色/简单背景上的干净产品图 | ✅ | |
| 单款核心产品居中摆放 | ✅ | |
| 高对比度、边缘清晰 | ✅ | |
| 一框内多个SKU | ❌ 会干扰运动焦点 | |
| 产品上有大量文字/水印 | ❌ 运动中会出现文字瑕疵 | |
| 低分辨率或高度压缩的图片 | ❌ 输出模糊 | |
| 极端广角拍摄、产品占比很小 | ❌ 产品丢失细节 |
最佳实践: 使用你最干净的产品照片——就是你用于电商商品列表的同款图片。如果可以,请去除背景。输入越干净,你对输出的控制就越强。
首帧/末帧技巧
Veo 3.1 Lite 支持仅设置首帧(将你的产品图作为开场镜头)。对于可控转场——也就是你希望视频从A点开始、到B点结束——你还可以设置末帧。
适用场景:
- 开箱展示:首帧 = 闭合的包装盒。末帧 = 打开的包装盒,产品可见。
- 前后对比:首帧 = 问题状态。末帧 = 解决后的状态。
- 旋转静置:首帧 = 倾斜角度的产品。末帧 = 正面朝向的核心展示位置。
这个技巧无需复杂的 prompt 就能给你电影级的控制能力。模型会在你设置的两个锚点之间插值生成运动。
按场景分类的 Prompt 模板
这些 prompt 是为 image-to-video 设计的。如需深入了解 Veo 3.1 Lite 的完整 prompt 语言——镜头类型、运镜、镜头控制——请查看 Veo 3.1 Lite Prompt 指南。
这些 prompt 是为 image-to-video 设计的。图片提供视觉基础,prompt 引导运动和风格。
产品:带运镜的核心展示图
The camera slowly dollies in toward the product.
Soft studio lighting, clean background.
No movement except the camera push.
SFX: silence.
Duration: 6 seconds.The product rotates slowly 45 degrees clockwise, revealing its side profile.
Tabletop surface, warm side lighting catching texture details.
Camera static, 85mm lens.
SFX: subtle ambient studio hum.产品:生活场景/使用中
A hand reaches in from the right and picks up the product naturally.
Kitchen counter environment, warm afternoon light through a window.
Handheld camera feel, slight movement.
SFX: ambient kitchen sounds, soft handling noise.The product is poured/opened/used in the natural way it's intended.
Close-up, 85mm. Soft natural light.
Focus shifts to the key moment of use.
SFX: the sound of the product being used.时尚/服饰
Vertical 9:16 format.
The garment moves gently as if in a light breeze.
Model is still; only fabric has motion.
Outdoor natural light, overcast sky for diffused shadows.
SFX: wind, distant ambient sound.Vertical 9:16 format.
A close-up of the fabric texture. Camera pulls back slowly to reveal the full garment.
Shallow depth of field, 85mm.
SFX: silence.餐饮
Steam rises gently from the dish/drink.
Overhead camera, static.
Warm practical lighting, dark background for contrast.
SFX: ambient café or kitchen sound, very low.Close-up. The liquid pours slowly into frame from above, filling the glass.
Camera static, 85mm. Black background, single side light.
SFX: the sound of liquid pouring, ice clinking.社交钩子(竖屏,0–4秒)
Vertical 9:16. Close-up.
The product spins once and comes to a stop facing the camera.
Bright, clean background. Quick, energetic motion.
SFX: a short whoosh sound as it spins, then stops.
Duration: 4 seconds.Vertical 9:16. Medium shot.
The product drops into frame from above and lands with a satisfying impact.
High-contrast background. Slight slow-motion on the impact.
SFX: a clean thud as it lands.
Duration: 4 seconds.完整工作流:从照片到发布视频
准备你的图片
请使用背景干净的高分辨率产品照片,理想规格为:短边边长1000像素以上的PNG或JPG格式,也就是标准的电商首图规格。
选择格式
适用于Instagram/TikTok/Shorts:9:16 竖屏,6秒。适用于网站嵌入或YouTube:16:9,8秒。适用于快速社交吸睛钩子:9:16,4秒。
上传到生成器
前往NanoBanana 上的 Veo 3.1 Lite,切换到图生视频模式,然后上传你的产品照片。
添加你的 prompt
你可以复制上方的任意模板,也可以自行编写。记住:图像负责呈现外观——你的 prompt 只需要指定运镜、机位和音频即可。
生成并对比效果
使用同一张图像,但微调 prompt 生成2–3个不同版本(例如,推进镜头对比静态+旋转)。每个8秒片段消耗20积分,3个版本总共消耗60积分。
下载并发布
用于社交平台无需后期处理。如果用于产品页面或广告,你可以用基础视频剪辑软件裁剪片段或设置循环。
常见问题与解决方法
一两秒后产品出现变形
模型动画过度了。你需要在 prompt 中减少动态描述:添加 camera static 或 minimal movement, only [specific element] moves。
背景意外发生变化
你的背景细节太多,模型会重新解读它。你可以换更简洁的背景重新拍摄,或者在 prompt 中添加 background unchanged, only product moves。
视频看起来像幻灯片,没有流畅的动态效果
想要连续运动,在 Prompt 中添加:smooth continuous camera move 或 fluid 360 rotation。避免描述断断续续的动作。
竖图在 9:16 输出中出现黑边 上传前将输入图像裁剪或填充为 9:16 尺寸。宽高比不匹配会导致模型生成带黑边的画面。
用于产品创作时,Veo 3.1 Lite 无法做到哪些事
- 不支持 4K 分辨率 — 最高分辨率为1080p。用于网页和社交平台完全够用,但不适合大幅面印刷或数字广告牌。
- 不支持延长时长 — Lite 版本无法将生成的片段延长到8秒以上。
- 不支持多产品对比 — 让两个产品产生互动的动画效果并不稳定。请分别生成后再剪辑到一起。
- 不支持生成文字 overlay — 不要依赖模型生成可阅读的文字/价格/标注。这些请在后期添加。
立即体验:首次生成免费
NanoBanana 的 Veo 3.1 Lite 生成器支持 image-to-video,采用一致的 prompt 界面。上传你的产品照片,粘贴上方的 prompt,选择格式,即可开始生成。
8秒仅消耗20积分,成本是 Veo 3.1 的一半。
常见问题
披露声明
视频示例使用了 Veo 3.1 模型家族的素材。工作流推荐基于对 image-to-video 生成的实际测试得出。最终结果会因输入图像质量和 prompt 的具体程度而有所不同。
更多文章

PixVerse V6 对比 V5.6:相机控制、音频与多镜头引擎
PixVerse V6 于2026年3月30日推出。与V5.6相比,它新增了20余种电影级相机控制功能、原生音频支持、多镜头引擎,并将1080p分辨率下的视频时长上限提升至15秒。以下是详细对比分析。

AI图像代理:生成一张或百张图像 — 无需切换工具
NanoBanana 的AI图像代理可在单次对话中完成从单张概念图像到批量风格迁移的所有任务,无需prompt工程技术相关操作。

Wan 2.7:阿里巴巴推出的支持首帧控制、可生成15秒视频的全新视频模型
Wan 2.7为阿里巴巴的开源视频模型系列带来了首/末帧控制、multi-reference视频输入以及基于指令的编辑能力。以下是它相较于Wan 2.6的所有更新内容。