一图对比Gemini和GPT

听音频 🔊 . 看视频 🎦

... 2023-12-09 07:50 .. 谷歌发布迄今为止谷歌能力最强的通用人工智能模型Gemini1.0，再次打响和OpenAI的追逐大战。
    本次发布的Gemini1.0共分为Ultra、Pro和Nano三个版本。
    Ultra的规模最大、能力最强，能够处理复杂困难的任务，Pro能力稍弱，适用于各种任务的扩展，Nano则更注重于端侧（on-device）任务，可以在手机等设备上运行。
    模型发布后，无论是谷歌方面的官方表态，还是自媒体的评测，都将Gemini和GPT-4进行逐一比对，有的更直言“Gemini打爆GPT-4”。
    谷歌表示，在根据行业标准进行的一系列测试中，GeminiUltra表现超过了OpenAI的GPT-4。
    具体而言，从自然图像、音视频理解到数学推理，GeminiUltra在32种学术基准中，有30种的性能表现超过了目前的先进水平。
    在MMLU（大规模多任务语言理解）方面，GeminiUltr .. UfqiNews ↓ 1

-loading-

...大模型依旧是“一条路走到头”、只搞Decoder-Only的OpenAI占据上风：△图中有个bug，ALBERT是谷歌开发的然而与此相对，我们也能发现，大模型整体呈现出“越来越封闭”的状态，而这很大程度上要归功于“Open”AI的表现.
    不过在这些大厂里，Meta开源还是做得不错的，只有几十人的HuggingFace也成了重要力量：当然，这并不意味着“BERT派”已经整体落于下风，毕竟编解码器这个分支发展得也还不错，包括清华GLM和谷歌T5都是这个领域的代表开源模型.
    未来这几大LLM路线的发展速度是否会发生变化，还是一个未知数.
    那么，影响大模型性能的关键因素究竟是什么呢？如何判断LLM性能好坏？论文认为，影响LLM性能的关键因素依旧是数据.
    什么样的数据？根据LLM不同阶段，数据类型也主要分为三种，包括预训练数据、微调数据和测试/用户数据.
    数据类型不同，对模型的.. 05-07 06:20 ↓ 21

...Appen内部文件显示承包商需要审查AI聊天机器人所提供的回应质量.
    这些承包商通常会帮助评估谷歌搜索算法和搜索结果中广告的相关性，还会标记有害网站，使得这些网站不会出现在搜索结果中.
    四名接受采访的承包商表示，自1月份以来，他们的大部分工作已经转向审查AI聊天机器人的提示.
    在评估过程中，承包商们对聊天机器人的表现感到失望，并称他们没有足够时间准确评估聊天机器人对提示的响应是否正确，有时只能凭借猜测.
    不过他们仍然可以拿到报酬.
    Bard在一次演示活动中因为给出错误答案而受到批评.
    谷歌对此表示，聊天机器人会随着时间的推移而变得越来越好，它不应该被视为搜索的替代品.
    在正式发布前，谷歌曾在2月份要求其员工每天用两到四个小时帮助测试这款聊天机器人，包括向它提问，并标记出不符合公司准确性标准和其他衡量标准的答案.
    员工可以重写任何问题的回答，以供Bard从中学习.
    谷歌和App.. 04-07 00:20 ↓ 4 ..UfqiNews