谷歌Gemini模型开启“AI多模态”时代！映射A股哪些机会？ #模态

谷歌Gemini模型开启“AI多模态”时代！映射A股哪些机会？

听音频 🔊 . 看视频 🎦

... 2023-12-09 00:20 .. 上超越人类专家的模型。
    Gemini的多模态能力使其不仅能够理解和生成文本、代码，还能够看懂和生成图像。
    Gemini将陆续出现在谷歌体系内更多产品和服务中，如搜索、广告、Chrome和DuetAI。
    短期来看，Gemini的发布将进一步带来对多模态模型的更多期待，对产业而言，多模态料将带动算力需求的提升；而在中长期来看，预计多模态模型的升级将丰富相关产品的使用场景，叠加硬件升级、算法优化带来的成本优化，2C产品的进展值得期待。
    持续看好本轮生成式AI浪潮对科技产业的长周期影响和改变，继续关注算力、算法、数据、应用等环节的领先厂商。
    多模态大模型能够提升用户交互体验，促进AIGC应用产品形态和功能的创新，提升用户付费意愿。
    对于整个行业，Gemini问世为业界贡献大模型泛化能力的全新范式，头部大模型公司的多模态道路有望加速推进，AI生态企业的垂直应用有望受益于语音、图像 .. UfqiNews ↓ 1

-loading-

4416139189

...视频展示了端到端神经网络的应用（end-to-endneuralnetworks）.
    在此过程中没有使用遥控器（teleop）.
    视频是以实际速度（1.0倍速）拍摄的，并且是连续不断的.
    如您在视频中看到的，机器人的速度有了显著的提升，我们正在逐步达到与人类相似的速度.
    无需遥控，自学成才那么Figure01是怎么做到的呢？FigureAI团队负责人CoreyLynch在X上解释了一番.
    具体来说，视频中展示的所有行为都是通过学习获得的（非遥控操作），并且以实际速度（1.0倍速）执行.
    FigureAI将机器人摄像头拍摄的图像和通过板载麦克风记录的语音转录文本输入到一个由OpenAI训练的多模态模型中，这个模型能够同时理解图像和文本信息.
    该模型会处理整个对话的历史记录，包括以往的图像，以生成语言响应，并通过文本到语音的方式向人类回话.
    同一个模型还负责决定执行哪种已学习的.. 03-14 03:10 ↓ 34

...李剑与同事也正在酝酿“大动作”.
    “人形机器人目前有三大应用场景，分别为工业制造、商用服务和家庭陪伴.
    当前全球人形机器人主要聚焦在B端（企业平台用户端），如何推动从B端至C端（个人用户端）的量产推广，将是未来长期的重要课题.”
    龙年伊始，OpenAI发布的首个文生视频大模型——Sora，依靠多模态大模型全面打开AI的想象力，引爆全球关注.
    李剑认为，多模态大模型+人形机器人，将成为生成式AI终极应用方向.
    “3月起，我们计划联动武汉市教育系统、高校，以及武汉当地合作企业，在合适的时间启动教育领域的垂直大模型研发.”
    李剑介绍，这一人工智能教育解决方案，类似于ChatGPT在教育领域的细分应用，将改写传统一体化教育模式.
    2021年10月，优必选在江汉区正式落户其人工智能教育创新总部项目，建设人工智能研究院、人工智能应用示范基地、人工智能教育示范区，将人工智能、智能电子、.. 02-24 02:20 ↓ 14 ..UfqiNews