一、从 “哇塞” 到 “心累”,初期体验的确很震撼
SEO小平抱着 “当数字导演” 的期待点开 Sora 2,第一支随机生成的视频就让我惊掉下巴:OpenAI的山姆奥特曼的中文普通话对话和口型严丝合缝,窗外雨声混着杯碟碰撞声,细节逼真到能看见玻璃上的水雾。那时候我觉得,这 AI 视频简直是魔法。

人物在视频从头到尾的人脸一致性,行走,运动的逻辑性都是很合理的。这个是值得表扬的。
但是,整个视频要表达的意图,就差点意思了。
直到我想复刻脑海里的场景 ——“一个工厂的外贸业务员从工厂大门往办公室走,镜头要跟随这个外贸业务员一起运镜到公司前台,前台有xxxx公司的公司形象墙..... ”。 这是我们外贸工厂通常的公司介绍的拍摄手法,结果试了6个视频,越搞越离谱。心累。
删掉视频时指尖都带着火气:明明描述得很清楚,怎么就成了 “四不像”?
通常这种情况我们认为是“AI幻觉” ,问题在于我们的提示词不够精细,我都有豆包AI和Gemini 还有ChatGPT 三种AI工具写了系统的提示词了,提示词非常详细,为了10秒钟的视频,每次提示词的上下文长度都是1500字到2009字的系统提示词。
结果还不行,生成的视频和预想的相差甚远,根本不敢拿来发布。

二、AI 的 “盲盒体质”,藏着技术的无奈
浪费了两天时间小小的总结一下,才发现问题不在 AI “笨”,而在我不懂它的 “逻辑”。
和生产图片的AI工具一样,Sora 2 的核心技术是潜在扩散模型,本质是从随机噪点里 “猜” 出符合指令的画面。就像让画师闭着眼画肖像,没明确要求时,随便画张五官端正的脸都算成功;可一旦指定 “丹凤眼、白衣飘飘、回眸一笑的娇羞女子”,任何细节偏差都会让人失望。
更关键的是,为了降低计算成本,AI 会在 “压缩空间” 里工作,这必然会丢失细节信息。图片生成丢点细节或许能忍,但视频里 “公司的形象墙变透明” “电脑屏幕有诡异的光影”,这些违背现实逻辑的 “幻觉”,恰恰戳破了我们对视频真实性的高期待。
最后想说:AI 是 “合伙人”,不是 “代笔”
其实和我们使用AI工具写文章一样,AI不能一步到位做出成品。但是AI写的文章的话,文字我们还可以做出部分修改,把我们要的观点,直接写入文章之中。视频AI生成的话,没办法修改中间部分,只能重新生成一个新的视频,挺浪费时间的。所以现阶段我还是认为自己来拍摄视频的话更能准确表达我们的意图,更节省时间。AI的确是快,而且节省金钱成本,但是总是“天马行空”生成一堆“意图表达不准确的视频”,这样的视频根本不能做商业拍摄使用。
现在再看 Sora 2 生成的视频,我不再期待它 “完美复刻想象”。就像当年摄影师刚出现时,画家没觉得被替代 —— 工具永远是放大创造力的武器,而非创造力本身。
文章为作者独立观点,不代表DLZ123立场。如有侵权,请联系我们。( 版权为作者所有,如需转载,请联系作者 )

网站运营至今,离不开小伙伴们的支持。 为了给小伙伴们提供一个互相交流的平台和资源的对接,特地开通了独立站交流群。
群里有不少运营大神,不时会分享一些运营技巧,更有一些资源收藏爱好者不时分享一些优质的学习资料。
现在可以扫码进群,备注【加群】。 ( 群完全免费,不广告不卖课!)
发表评论 取消回复