多模态推理场景拉动算力网络

来源：斯诺克直播球迷网发布时间：2024-02-22 12:06:53

近期，OpenAI与谷歌分别推出了AI视频模型Sora和多模态大模型Gemini1.5，多项技术均实现创纪录的突破。其中，OpenAI发布文生视频模型Sora，开创AI视频新时代;谷歌Gemini1.5震撼上线万极限上下文纪录。

业内人士表示，随着近期北美云商及部分AI产业链公司明确上调资本开支以及积极投资AI的态度，修复了国内投资者对于AI及算力板块的信心，光模块作为算力基建重要环节，对其2024年至2025年的需求持续保持乐观，叠加行业马太效应增强，头部光模块厂商业绩有望维持高增长。

2月16日，OpenAI推出了一款能根据文字指令即时生成短视频的模型，命名为Sora。根据介绍，Sora使用扩散模型技术，完美继承了DALL·E3的画质和遵循指令能力，能够从文本说明中生成长达60秒的视频，并可提供具有多个角色，特定类型的动作和详细背景细节的场景。借助GPT的能力，Sora实现对语言的深入理解，使其能够准确地解释提示词，并生成引人注目的字符来表达充满了许多活力的情感。

Sora还能在一个生成的视频中创建多个镜头，体现人物和视觉风格。OpenAI表示，通过让模型一次生成多帧画面，Sora解决了一个具有挑战性的问题，即：即使生成的主体暂时离开视线内，也能确保主体不变。除文生视频外，Sora还具有更多功能：根据图像生成动画;在时间上向前或向后扩展视频;编辑输入的视频;在两个输入视频之间逐渐进行插值，从而在具有完全不同主题和场景构成的视频之间创建无缝过渡;根据文字生成图像。

同日，谷歌发布“下一代AI模型”——Gemini1.5。Gemini1.5建立在谷歌基础模型开发和基础设施的研究与工程创新的基础上，包括通过新的专家混合(MoE)架构使Gemini1.5的训练和服务更高效。MoE模型由众多小型的“专家”神经网络组成，这些模型能够准确的通过不同的输入类型，学会仅激活最相关的专家网络路径。在此架构下，Gemini1.5在许多方面都实现了突破，最令人眼前一亮的是超长的上下文窗口。Gemi-ni1.5版本中首个登场的多模态通用模型Gemini1.5Pro，把稳定处理上下文的上限扩大至100万tokens，并且支持处理文字、代码，以及图片、语音、视频等多模态内容。

通俗的来说，Gemini1.5Pro可以一次性处理超过70万个单词的文本、3万行代码、11个小时的音频，或1个小时的视频。根据谷歌的报告，Gemini1.5Pro对于100万tokens的文本、音频、视频可以在一定程度上完成100%的检索完整性，对于更长的上下文，也有着优秀的检索效果。与之对比鲜明的是，GPT-4Turbo的性能则飞速下降，无法处理超过12.8万个token的文本。目前谷歌开放给开发者的测试版本中，Gemi-ni1.5Pro的token限制只有12.8万个，后续会推出新的收费层级，供解锁100万tokens的版本。

据OpenAI的Sora文档，Sora基于DiT(diffusiontransformer)等设计。DiT原作者SainingXie第二作者总结，DiT模型的架构即VAEencoder+ViT+DDPM+VAEde-coder，视频的可扩展性是Sora的重要亮点。训练数据的来源、构建、视频生成的能力是Sora的重要产业增量，而非过去讨论LLM的参数量。据DiT模型论文，较大模型的计算效率更加高，较小模型即使拉长训练时间，最终计算效率也会下降;通过使transformer更深、更宽，训练效果会提升;通过增加DiT处理token数量，训练效果会显著改善。

Sora的推出启示我们，多模态推理的产业节奏正在加快。过去市场对算力网络的需求测算，主要聚焦在模型训练阶段，关注模型路径、技术格局、参数量、芯片创新等。更长期的AGI应用爆发，推理需求指数增长，需求量开始上涨的持续性是下一步光通信等算力网络定价的关键。

相比训练，推理阶段更重视内存+网络平衡。大模型推理过程，模型参数和KVcache是主要的内存使用者，尽管相比训练阶段减少了梯度、优化器等占用，但最大瓶颈在于显存，且随着模型增大需要减少并行或优化并行通信。

以英伟达H200芯片为例，产业硬件侧慢慢的开始重视长期推理需求。英伟达H200重要硬件变化是HBM3升级至HBM3e，容量带宽显著优化;重要软件变化是大幅强化了推理性能 (匹配TensorRT-LLM)和HPC性能;明显降低能耗和整体成本。相比H100，H200几乎提升了Llama270B推理性能1.9x，提升GPT3175B推理性能1.6x;从单位成本和模型复杂度角度考虑，对未来旗舰AI芯片在推理场景的应用判断应当更乐观，相应的光网络需求亦同步。

广发证券觉得，前期导致AI算力板块持续调整的根本原因是国内外投资者对于AI应用的前景有明显预期差，A股投资者对于AI应用偏向保守，担心算力板块的增长难以延续。随着近期北美云商及部分AI产业链公司明确上调资本开支以及积极投资AI的态度，修复了国内投资者对于AI及算力板块的信心，光模块作为算力基建重要环节，对其2024年至2025年的需求持续保持乐观，叠加行业马太效应增强，头部光模块厂商业绩有望维持高增长。

此外，广发证券判断，2025年高速光模块将主要受到三重共振的牵引：第一，2025年将是传统以太网数据中心800G光模块升级大年;第二，AWS、Meta、特斯拉等其他AI主要玩家也将会在2025年加速建设;第三，AI使得GPU带宽迅速增加，带动光模块迭代加速，新一代1.6T光模块也将会在2025年放量。伴随光模块迭代升级，光模块产品定制化程度更高，光模块公司和下游客户绑定更强，马太效应更加强烈。建议持续关注信息、算力基建产业链的相关标的。建议关注整体方案商环节中兴通讯;算力网络运营商中国移动、中国电信、中国联通;光模块、光器件环节的新易盛、天孚通信;高速数据通信电缆领域的兆龙互连;交换机环节的锐捷网络、菲菱科思。

平安证券表示，当前，全世界内大模型领域的竞争依然白热化，这将持续拔升大模型的整体能力水平。大模型需要大算力，大模型算法的迭代升级将为全球和中国AI算力市场的增长提供强劲动力。在美国对华半导体出口管制升级的背景下，我国国产AI芯片产业链将加快成熟，相关AI芯片与服务器厂商将深度受益。另外，在应用端，我国国产大模型能力持续升级，AIGC产业未来发展前途广阔。算力方面，推荐浪潮信息、中科曙光、紫光股份、海光信息，建议关注工业富联、寒武纪、景嘉微;算法方面，推荐科大讯飞;应用场景方面，强烈推荐中科创达、恒生电子、盛视科技，推荐金山办公，建议关注万兴科技、同花顺、彩讯股份;网络安全方面，强烈推荐启明星辰。

申万宏源证券提出，Sora为代表的多模态推理场景，会极大拉动高速算力网络、尤其光通信的需求持续提升。叠加此前云服务厂商资本支出预增及芯片加速迭代体现海外算网高需求，国内光通信厂商基于出海逻辑有望充分获益;高速趋势下，关注1.6T、硅光等落地情况。关注光通信产业链之中际旭创、新易盛、天孚通信、华工科技、源杰科技等;算力设备产业链之紫光股份、锐捷网络、中兴通讯、盛科通信等。

上一篇:平衡数字接口 - 数字音频主流接口简介

下一篇:【48812】水泵上市公司龙头股有哪些水泵龙头概念股票一览