下载客户端

OpenAI重磅文生视频模型Sora发布，我们的差距有多远？

2024-02-20 15:29

来源：澎湃新闻·澎湃号·湃客

听全文

原创欧田明嗨牛财经

继去年ChatGPT火了一整年之后，OpenAI在今年开年又发布重磅文生视频模型——Sora模型，将大模型又向前推进了一步。

不同于此前许多AI大模型文生图或视频时，使用特定场景简单对口型，以及人物形象前后不一致的问题，Sora生成的视频人物，场景都又高度的一致性，支持60秒的视频一镜到底，视频背景细节丰富，成片效果令人很难分辨是虚拟的还是现实的。

不少人疾呼，传统视频制作行业将会被“革命”。此外，也可以看到虽然目前国内大模型数量众多，但尚未具备该能力，与ChatGPT和Sora相比，还有一定的差距。

自生成式人工智能ChatGPT发布以来，全球范围内掀起了一股强劲的人工智能热潮。在国内市场，人工智能犹如春笋般快速涌现。然而，我国的人工智能大模型相较于ChatGPT仍存在显著差距。百度作为国内较早涉足AI领域的领军企业，其推出的文心一言在文本和代码生成方面尚未能媲美ChatGPT的用户体验，同时，在图片生成效果上也被Midjourney拉开差距。

如今Sora模型推出，国内暂未有与之跟进的大模型出来。一些人也因此认为，和OpenAI相比，我们的大模型能力差距没有缩小，反而在扩大。

赛道火热，产品欠佳。中国的人工智能发展进入至暗时刻。缺的不仅是有实力的大模型，还有与之直接相关的人才和AI“三算”，即算力、算法、算据。

在算据上，国产大模型也与GPT-4存在差距。在自然语言大模型中，参数是衡量一个深度学习模型复杂度和能力的重要指标。参数多，意味着模型能够处理更多的数据，学习更多的知识。国外公司在训练数据的质量和多样性方面往往占有优势，能够获取到更丰富、跨语言、跨领域的全球数据资源。而国内企业受限于数据隐私保护政策、地域性等因素，可能在数据质量和规模上面临挑战，尽管国内数据总量庞大，但在数据处理规范、标注质量等方面需要进一步提升。

国外有研究人员将GPT参数规模与大脑神经元做类比，GPT-3的规模与刺猬大脑类似，GPT-4拥有100万亿个参数，基本达到人类大脑的规模。

再看国产大模型，目前百度的文心一言，华为的盘古大模型参数量在千亿规模的级别，与GPT-3相近，而即使是排名靠前的阿里巴巴的M6大模型，其参数规模也仍与GPT-4相差一个数量级，更多的大模型仍在“原始阶段”。

在算法创新方面，虽然中国企业在算法领域有显著进步，尤其在模型架构优化、知识融合、多模态学习等方面取得了一系列重要成果，但在某些核心技术突破上，如自监督学习机制、模型并行和数据并行优化技术等方面，国外研究团队仍保持一定的领先优势。

算力，同样是AI的核心竞争要素，核心的核心是芯片。在当前的AI芯片领域竞争中，英伟达凭借其卓越的技术优势占据主导地位，推出的A100与H100 GPU是数据中心领域无可争议的性能翘楚，市面上鲜有能与之匹敌的替代方案。

值得一提的是，ChatGPT在训练阶段就采用了英伟达顶级配置的A100芯片。然而，在中美科技竞赛背景下，美国已对A100和H100向中国实施出口限制，迫使中国厂商不得不采用性能受限的阉割版A800芯片，该芯片的数据传输速率较原版降低了30%，这无疑削弱了AI集群的训练效率和整体表现。

尽管国产优秀芯片正在逐步发展，能够为大模型预训练提供一定算力支持，但与国际领先水平之间仍存在显著差距。投身人工智能行业不仅需要巨额的前期研发投入，确保企业具备雄厚的资金实力，而且必须掌握世界顶尖的研发技术能力。

目前来看，构建和运营AI大模型依然是科技巨头们角逐的专属领地。而OpenAI正以日新月异的速度不断推进技术创新，令全球互联网巨头及资本投资者面临一场高强度、高投入的持久战。

自ChatGPT开启新AI时代以来，AIGC生态系统在文生图大模型领域取得了前所未有的迅猛发展。国际上，诸如Midjourney和Stable-Diffusion等作为先驱引领潮流；

而国内的文生图大模型亦借势蓬勃发展，犹如雨后春笋般涌现并迅速壮大。类似地，文生视频技术预计也将对视频产业及其从业人员产生深远影响，但谈及全面取代人类工作，目前看来仍言之尚早。

无论是文生图还是文生视频，其创作核心都在于人为设定的关键要素，而人类的想象力与创新潜能具有无限可能，只要我们持续学习、不断思考，就难以被AI所替代。

尽管文生图技术看似高度智能化，但在实际应用过程中需要用户掌握各种参数调整和操作步骤，故并非无任何门槛，只不过门槛高低不一，更易于使用的界面将有助于吸引更多用户参与。

同时，不同的AI大模型在生成文生图性能方面各有优劣，因此至今为止，外界一度担忧的绘画及设计职业被AI完全取代的现象并未成为现实。相反，AI大模型为设计从业者开辟了更多元的思维路径和创意空间。

当前，随着文生视频技术的成功实现，关于视频工作者未来是否会面临失业危机的讨论再度升温。行业内部对此观点各异。

曾任百度产品委员会主席的宋健指出，Sora等先进AI技术的确令人瞩目，但如果设想三年内人类将彻底告别视频拍摄，抖音和Tiktok等平台会被快速颠覆，则这样的看法未免过于超前。

360集团创始人周鸿祎同样认为，今天Sora可能给广告业、电影预告片、短视频行业带来巨大的颠覆，但速度不一定那么快。

文生视频虽然将深刻影响视频行业和视频工作者，然而真正取代人类工作的可能性在现阶段仍是遥远的推测，因为关键创意和指导仍然是人类智慧的产物，而人类的想象力和创造力有着无法估量的价值。只要人类保持学习和思考的习惯，就不会轻易被AI所替代。

从去年爆火的ChatGPT到今年的Sora，我们可以体会到当前这一波AI技术的发展势头更为迅猛，迭代速度达到了前所未有的三个月至半年为一个周期。相较于十年前，彼时的移动互联网行业其发展步伐是以大半年甚至以年为单位来衡量的。

回溯历史，我们可以清晰看到移动互联网时代的启航标志：Android与iOS操作系统的诞生拉开了序幕，随后智能手机的普及以及3G网络的崛起；紧随其后的是App Store的创立，再由4G和5G网络的广泛推广进一步推动了行业的繁荣。从2007年第一代iPhone面世到2012年国内移动互联网市场的全面爆发，这五年间，整个行业主要在进行基础设施建设和技术基础的持续迭代升级。

然而，在ChatGPT、Midjourney、Sora等为代表的新一代AI技术产物面前，其快速迭代的速率明显超越了上一轮技术周期。在我看来，这是科技领域一种显著的进化现象，它正以前所未有的力量推动着社会进步的步伐。

在这新一轮的技术变革周期中，我们有理由相信将孕育出一批全新的产品和服务形态，而这些创新突破可能无法简单地套用上个技术周期的逻辑去理解和预见。

面对那些尚处于未知状态、尚未具象化的科技创新，只有极少数人会凭借敏锐的洞察力和想象力去揣摩未来趋势，去探索那些潜藏的可能性。对于大多数人来说，新事物只有当它们变得直观可见、触手可及、实用可用时，才会真正意识到新时代的到来。

那么，把握机遇的关键节点在哪里呢？

对于个人而言，在新技术还处于不可见、未成形的阶段，或许应尽早培养这样的前瞻性习惯，无需精通每项新技术，但务必要接触、了解、使用和体验。

驾驭Sora这类AI工具的能力，实质上是指人的能力——如何创造性地运用这些工具，发掘它们在实际应用场景中的潜力，并以此开拓崭新的创意疆界。

而对于大模型行业行业而言，我们的发展之路任重道远，但也充满无限可能。只有通过持续加大研发投入、深化产学研一体化改革、积极参与国际竞争与合作，才能在与美国以及其他发达国家的较量中不断缩小差距，直至实现真正的超越。未来的中国大模型不仅要解决“从无到有”的问题，更要致力于“从有到优”，最终成为引领全球人工智能创新浪潮的核心驱动力之一。