sora问世第7天：谷歌凶猛反击，工夫冰山下又有这5个合键题目

李小宝 2024-03-02 15:27 989

"sora问世第7天：谷歌凶猛反击，工夫冰山下又有这5个合键题目,这篇新闻报道详尽，内容丰富，非常值得一读。这篇报道的内容很有深度，让人看了之后有很多的感悟。作者对于这个话题做了深入的调查和研究，呈现了很多有价值的信息。这篇报道的观点独到，让人眼前一亮。新闻的写作风格流畅，文笔优秀，让人容易理解。这篇报道的结构严谨，逻辑清晰，让人看了很舒服。 " 账号设置我的关注我的收藏申请的报道退出登录登录搜索36氪Auto数字时氪将来消费智能涌现将来城市启动Power on36氪出海36氪研究院潮生TIDE36氪企服点评36氪财经(Finance)职场bonus36碳后浪研究所暗涌Waves硬氪媒体品牌企业号企服点评36Kr研究院36Kr创新咨询企业服务核心服务城市之窗行政部门服务创投发布LP源计划VClubVClub投资机构库投资机构职位推介投资人认证投资人服务寻求报道36氪Pro创投氪堂企业入驻创业者服务创投平台首页快讯资讯推荐财经(Finance)科技(Technology)创新城市最新创投汽车(Car)企服专精特新直播视频专题活动搜索寻求报道我要入驻城市合作Sora问世第7天：谷歌猛烈回击，技术冰山下还有这5个关键问题时代周报·2024-02-23 19:34关注国内企业可以通过文生视频打造企业生态，快速达成垂直领域的落地。

Sora的问世引发了科技(Technology)狂欢，也带来了新的争议。

日前，Meta首席AI科学家Yann LeCun杨立昆公开质疑Sora ：“Sora 的生成式技术路线注定失败(Failure)，用Sora构建世界模型不可行。”

在杨立昆看来，生成类算法适用于离散的文本，但处理高维连续感官输入中的“预测不确定性”则非常棘手，OpenAI将Sora定义为“世界模拟器”有失准确。

实际上，在2月16日Sora发布的同一天，模型领域还有两款重磅产品推出。一是Meta发布的能够以人类的理解方式看世界”的视频联合嵌入预测架构 V-JEPA，二是谷歌发布的支持100万 tokens 上下文的大模型 Gemini 1.5 Pro。

撞档之下，不论是语言模型Gemini 1.5 Pro ，还是与Sora同属视频生成模型的 V-JEPA ，都被掩盖在了Sora的信息流中。

值得一提的是，2月22日凌晨，谷歌毫无预兆地发布了开源模型Gemma，这是继其2月9日宣布Gemini Ultra免费使用、2月16日推出Gemini 1.5 Pro后，短短12天之内的第三个大动作。

△图源：GPT-4制作

一位业内人士告诉时代周报：“谷歌试图通过Gemma挑战Meta的Llama 2，并向用Sora抢了自己风头的OpenAI宣战，颇有‘打不过就开放’的味道。”

新生事物向来要接受各方面的评判和挑战，抛开技术与展现形式的升级，Sora显然还具备科技(Technology)框架以外的意义。

“麦高芬"（MacGuffin）是电影(Movie)界的一则术语，指在电影(Movie)中用于推展剧情的物件、人物可能目标，其详细的背景和发展并不重要，重要的是它对电影(Movie)剧情的发展起着关键作用。它是电影(Movie)中的一个激励因素，旨在推动情节的发展，而Sora可能许就扮演着这样的角色。

针对一款产生轰动效应的科技(Technology)产品，抛开技术底座谈行业意义是本末倒置的，摒弃宏观影响谈竞争力是狭隘的。就Sora为商业科技(Technology)领域带来的诸多思考，时代周报邀请到四位业内人士，探讨文生视频领域技术冰山下的问题。

李桢：首都信息化局教授库信息化教授，工信部人工智能内容创作师认证主讲人，商业认知研究院创始院长，西南大学(University)、成都科技(Technology)大学(University)创业导师，对外经贸大学(University)创新学科讲师。

Edward：英国(Britain)就业协会理事，人工智能行业协会会员，无束AIGC内容分享平台创始人。

Emma：香港理工大学(University)中英企业传讯硕士，无束AIGC内容分享平台联合创始人。

Yuca：远识资本董事，科技(Technology)媒体Z Potentials创始人。

如何看待杨立昆对Sora的质疑？

李桢：每一个模型的出现都具备自身的逻辑推导，都有可能成功(Success)，没有注定的事情。杨立昆对于Sora提出质疑，是因为双方所认同的技术路线存在差异。

结合ChatGPT的发展史看Sora，有种历史(History)重演的感觉。彼时，大语言模型行业经历补全类和对话类后，OpenAI利用(Use)Transformer（自然(Nature)语言传送）模型打开了新局面，人们发现，Chatgpt竟然突破了对上下文语义的理解，而不是词语之间的理解。更令人惊讶(Surprised)的是，这种理解不同于人类的理解方式，它的模式是建立在算法机制上的，通过概率的计算对文本内涵进行(Carry Out)揣测和理解。

文生视频领域所依据的两个绘画模型主要是Diffusion Model（扩散模型）和GAN（对抗学习的深度生成模型）。Diffusion Model指的是在有限材料下像学生(Students)一样去学习，不断扩散材料；GAN的角色更像是一位老师(Teacher)，通过“批改”的方式将整个模型的稳定度、画面的精确度调整至更高要求。目前(Currently)所有的文生视频就是从这样的文生图像的连续帧得来的。

对于Sora，OpenAI延续了Chatgpt的技术路线，将Transformer 模型迁移到了文生视频的 Diffusion Model中，让图片更容易被理解。在此基础上，OpenAI还做了两项迭代升级。一是在Transformer的架构上增添了对绘画意图标签的理解，二是增添了Space Time patches（空间与时间的补丁包）。

△图片由李桢提供

补丁包的功能在于，大模型在计算画面的同时，基于Transformer 的整个文本的理解方式，把空间下发生的事情的补丁先计算出来，然后推演下一秒钟的情节，随即生成时空领域内的场景数据集，进而选择生成视频所需要的、最合乎物理世界的数据帧，相较于现在的ControlNet（用于控制AI 图像生成的插件）对Diffusion Model 的视频处理技术，其能将画面做得更加稳定和逼真。

严格来说，Sora之于OpenAI原有的技术体系没有进行(Carry Out)再创造，它是一种组合创新的逻辑——把原来的模型迁移到视觉模型上，又将原有所谓时空的概念打造成了补丁包的方式，不断的去嵌入和更新。

但从某种程度上讲，杨立昆的观点是没错的。Sora所生成的所有内容都是基于概率计算出来的，事件发生的根本逻辑与物理世界确实不同。

Edward: Sora本质上不算是AI理解人类的突破，但其高质量跨越生成形态方面的突破可谓将行业推向新纪元。

其底层技术主要遵循对目的图片拆解和拼接的逻辑。类似最新发布的通用机器人Mobile Aloha。斯坦福团队曾对外表示该机器人可以完全模拟人类解决很多家务工作，但其实该机器人背后需要人为操纵两个遥控杆。

当下，AI的上限依旧是人类。人类本身对于物理世界仍处在持续探索的过程中，按照Sora的技术逻辑，暂时无法训练出比人类更智能的AI。

但Sora的进步之处在于，它将视频每一帧的图片赋予了GPT可以理解的文本，这代表着将来每一帧的图片里的元素都可以被文本描述，很大程度上提高了用户针对视频的搜索效率。

如何理解文生视频领域的中外差距？

李桢：在技术端，我认为目前(Currently)世界上能与OpenAI相匹敌的企业只有Meta。因为Meta的开源社区逻辑有着巨大的增长潜力，就像当年的苹果与安卓。

不同于Sora的技术策略，Meta推出的V-JEPA意在创造架构，随后将Space Time patches进行(Carry Out)迁移达成预测。这种路径虽然不具备Transformer所坚持的、由极大数据量支撑全局测算的条件，但架构一旦被输入足够的数据量，其实也能达到与Sora比肩的效果。

在市场端，我们(We)目前(Currently)还无法去评估Sora的具体价值。大家普遍沉浸在Sora带来的美好幻想中，却忽略了一个水面之下的现实问题。

Sora目前(Currently)没有公开报价，而对于走数据集路线的Sora来讲，势必需要强大的算力去支撑。当下所有人都在猜测它的算力，如果其所需算力的成本比一条短视频(Short Video)的制作成本高很多，它的可持续性有多强？它的效率有多高？如何定价相对合理？

目前(Currently)来看，Sora没有给报价的原因可能有两点。一是OpenAI无法评估如何定价才会受到市场广泛认可并投入使用；二是基于对手的猛烈攻势，在全面规划未落地的情况下，率先发布内测版本，可能是为了抢夺市场的资金与注意力。

Emma：国产文生视频大模型预计将面临与LLM类似的问题，与国外差距主要体现在算法、算力和算据三方面。

算力方面，英伟达凭借技术优势占据AI芯片领域主导地位，中美科技(Technology)竞赛背景下，国内厂商暂不具备优势。

算法上，自监督学习机制、模型并行和数据并行优化等核心技术等方面，国外研究团队仍保持一定的领先，不过祖国企业在模型架构优化、知识融合、多模态学习等方面也取得了一系列突破。

算据方面，GPT-4拥有100万亿个参数，基本达到人类大脑的规模，而百度的文心一言，华为的盘古大模型参数量在千亿规模的级别，与GPT-3相近。即便达到十万亿级别的阿里巴巴M6大模型，其参数规模仍与GPT-4相差一个数量级。

在文生视频领域，祖国企业该怎样定位？

李桢：这个问题涉及到了世界产业分工，国情与文化(Culture)的不同，造就了中外对基础学科与意识形态存在差异——欧美擅长打造天马行空的概念，将科技(Technology)视作食粮；国内则相对更加注重落地，以应用侧的运用见长。

电商行业中，阿里的AI大模型十分强大，其推出的Animate Anyone和Outfit Anyone开源框架，能将静态图像中的角色可能人物进行(Carry Out)动态化的展示。基于阿里海量的服装数据，用户只需上传人物照片和服装照片，就可以实时看到虚拟人的换装效果，并可通过动画中的人形动作了解衣服的摆动状况与材质。

让虚拟人按照自然(Nature)的方式运动也是非常领先的技术，但和OpenAI、Meta的AI产品显然处于不同维度。条条大路通罗马，国内很多企业都和阿里一样拥有自己的底牌，只是用法不同罢了。

Edward：师夷长技以制夷，祖国完全可以拥有祖国特色的大模型道路。当技术等级处于下风之时，我们(We)可以更加注重应用端。从这个角度来看，我反而会认为国内的文生视频企业会更具话语权，国内拥有庞大的创作者群体，拥有短视频(Short Video)爆发的土壤，相应地具备了更多视频类语料库。如果AI可以理解视频指令，每天不间断通过刷视频充实语料库，那么所呈现的算力是惊人的。

此外，国内企业可以通过文生视频打造企业生态，快速达成垂直领域的落地。拿谷歌举例，虽然技术无法与OpneAI相提并论，但谷歌围绕自身生态推出的AI产品不断反哺生态，应用前景往往更加清晰。当行业步入中后期，企业之间的技术差距通常不会太大，手握优质生态的企业便容易脱颖而出。

从LLM的发展路径来看，国内文生视频可借鉴哪些经验？

Yuca：行业初期，企业需根据自身实力提前做好考量与布局规划，根据细分的要求培养竞争力。

比如，大模型企业需具备一定的数据、算力、资金实力，内容创作企业则需具备IP打造能力和创意能力，分发型企业需在合规、准确和效率上提出更高要求。

将来视频模型层迭代速度会很快，大部分人会聚焦在基于视频生成模型的应用场景，产品型和创意型公司会更受关注。

李桢：按照时间线纵向对比，我认为文生视频领域的企业，尤其是国内的企业可以更加开放。但往往国内市场竞争更加激烈，同时中外文化(Culture)母体不同，对价值的理解程度也不同。

作为全球第一的CRM（企业智能数据平台）公司，Salesforce祖国水土不服，原因在于中外对数据资产管理的理解方式不同。大家对“什么东西该开源”“什么东西该收费”的定义无法达成一致，所以只能从长期视角对企业提出建议，无法苛刻地要求企业短期内做出改变。

透过预制菜与厨师的矛盾，怎样看待文生视频与人类的关系？

李桢：今年(This Year)AIGC生成视频很火，但鲜有公司真正将AIGC 文生视频落地。作为为公司提升效率的一个重要手段，直到今年(This Year)，AIGC赛道才出现一些进展，且进展的主力军局限在文本生成以及文本的自动化工具，因为这部分足够稳定，可以形成生产力，可以实际提升企业工作效率。

对文生视频来讲，要“让子弹飞一会”，当我们(We)真正研究透彻提示词，才可真正调动AIGC。否则就算Sora的报价合理，且出图准确，我们(We)依然会存在将大笔金钱投入在提示词不精准的算力消耗上。

Emma：这种舆论的方向跑在了我们(We)对AI大模型产生足够的认知之前。对于普通人来讲，通过优质提示词使用大模型提升工作效率仍存在门槛，当我们(We)的认知还不足以支撑对工具的使用时，探讨“视频大模型是否能取代人类工作”还为时尚(Fashion)早。

Edward：文生视频会对现有工作岗位进行(Carry Out)升级，可能衍生出更多的新岗位，最终应用到各种丰富的场景中解决民生问题，如农业、培育等，我认为应当把人类的将来交给相应的技术。

本文来自微信公众号“时代周报”（ID：timeweekly），作者：申谨睿，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

+16

好文章，需要你的鼓励

时代周报特邀作者0收藏+10评论打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮微博沉浸阅读返回顶部参与评论评论千万条，友善第一条登录后参与讨论(Discuss)提交评论0/1000你可能也喜欢这些文章机器人做手术，38亿美元市场谁在分羹？文生视频时代已到，百度、讯飞、字节谁能率先做出“国产Sora”？OpenAI和谷歌，AI对线中的飞驰人生华为再度超越iPad，但AI才是平板电脑(Computer)的将来？国产大模型，不会开启“烧钱游戏(Game)”Stable Diffusion 3 惊艳亮相，还与 Sora 是同架构，生成图像真假难辨反垄断体坛：米国数字巨头与AI公司合作要接受欧盟反垄断监管？“困在”服务器里的浪潮信息，还能搭上AI风口吗？OpenAI 最早的投资机构 Khosla Ventures 谈 AI 投资：我绝对不想成为恐龙”最新文章推荐贾玲瘦下的100斤，喂饱了各地的健身房Sora问世第7天：谷歌猛烈回击，技术冰山下还有这5个关键问题好利来“杀”进宠物市场，200元的宠物蛋糕有人买吗？出海速递 | 亚马逊的AI变革，重塑流量分配 / 储能电芯“变阵”：宁王再领跑，日韩品牌失势颂钵拯救了我迪士尼终于忍不住，要用流媒体带货了机器人做手术，38亿美元市场谁在分羹？AI芯片黑马Groq走红，英伟达又多了一个挑战者成龙前东家被300万元“绊倒”？文生视频时代已到，百度、讯飞、字节谁能率先做出“国产Sora”？

时代周报特邀作者

广东时代传媒集团旗下，以专业视角解读祖国资本趋势和产业变革。

发表文章1336篇最近内容Sora问世第7天：谷歌猛烈回击，技术冰山下还有这5个关键问题25分钟前我在新加坡看到的祖国茶咖：瑞幸门店订单不断，喜茶大排长龙昨天(Yesterday)李彦宏弟子赵世奇离开华为，百度10年老将回归，可能重掌搜索业务昨天(Yesterday)阅读更多内容，狠戳这里下一篇好利来“杀”进宠物市场，200元的宠物蛋糕有人买吗？

好利来“杀”进宠物市场，200元的宠物蛋糕有人买吗？

25分钟前

热门标签葱油饼投资担保融资监管资金安危安危平台疯狂动物城变形金刚5特种部队2血战钢锯岭龙之战南朝鲜影视电话电视(Television)加里宁格勒无线3d地图空间数据郑州租房张喜平湖南卫视王菲窦靖童收视建筑结构超高层卢志强魔都奚梦瑶维密emoji表情符号关于36氪城市合作寻求报道我要入驻投资者关系商务合作关于我们(We)联系我们(We)加入我们(We)网站谣言信息举报入口热门推荐热门资讯热门产品文章标签快讯标签合作伙伴