上新大模型2.5版阿里云紧追慢赶

-loading-

听音频 🔊 . 看视频 🎦

... 2024-05-10 03:20 .. 阿里云和同行的操作一致——援引评测结果：在权威基准OpenCompass上，通义千问2.5得分追平GPT-4Turbo；通义千问视觉理解模型Qwen-VL-Max在多个多模态标准测试中超越GeminiUltra和GPT-4V，目前已在多家企业落地应用；通义千问代码大模型CodeQwen1.5-7B则是HuggingFace代码模型榜单BigCode的头名选手，是智能编码助手通义灵码的底座。
    按照通义千问官网的归纳，其基于大模型的服务共有10项，包括大模型服务平台阿里云百炼、AI阅读助手通义智文、刚发布企业版的通义灵码等。
    企业客户和开发者可以通过API（应用程序编程接口）调用、模型下载等方式接入通义，个人用户可从通义App、官网和小程序免费使用通义家族全栈服务。
    N合一这些垂直领域的产品也在不断调整。
    5月9日，“通义千问App”更名为“通义App”。
    升级前，通义A .. UfqiNews ↓ 1

...

03-19 00:32 , 8056 , 190 ..
[编按：转载于腾讯微信/ 阳志平心智工具箱， 2023-03-18.
     文心一言的理性思维能力距离 GPT-4 差多少？我们第一时间测试了一下.
    ]

百度公司的人工智能文心一言的理性思维能力距离美国OpenAI公司GPT-4差多少?

背景
如果将大语言模型想象成一个人，那么，通过对它的人格、智商、理性与社会情绪能力进行心理测量，是不是可以清晰地描绘出大语言模型的心智成熟程度.
    这就是新兴的人工智能心理测量学.
    只是，在人工智能心理测量学中，我们不再测查人类，而是测查大语言模型以及各类机器人.

在 GPT-4 发布之后，我们第一时间测查了它在理性思维能力测验上的表现，并将其与 GPT-3.5 的结果、253 位受过高等教育的人进行对比.
    结果发现，GPT-4 实现了大跃迁，达到了一个超越人类的水准.

详情参见：理性思维超越人类？GPT-4真正大杀八方的是这项能力
测试流程
在百度文心一言发布之后，我们第一时间获得邀请码，选择了在前文中测试 GPT-3.5 与 GPT-4 一致的题目、流程.
    详细说明请参考前文.
    这里不再啰嗦.

简而言之，我们挑选了认知科学家用来评定人类理性思维的四类经典测试任务：语义错觉类任务；认知反射类任务；证伪选择类任务；心智程序类任务.
    四类任务总计 26 道题目.

在测试之前，我们已经预估文心一言的表现会不如 GPT-4，但最终实际测试结果还是令人大跌眼镜，可能与百度开发团队的认知有关系.
    在下文中，我会略作分析.


需要提醒的是，本报告仅仅是一个早期工作，并不完善.
    测试流程有无数可以改善之处.
    结论未来随时可能被修正、被推翻.
    各位读者请理解.

现在，让我们来详细看看测试结果.

分项测试结果 ... 百度公司的人工智能文心一言的理性思维能力距离美国OpenAI公司GPT-4差多少? ⟶

... 02-10 06:35 , 7459 , 169 ..
[编按：转载于网易网/蒲公英互联， 2023-02-10. ]

ChatGPT 编年史
我们如何错过GPT盛宴
GPT大语言模型能实现AGI吗？

----
ChatGPT编年史----
我们来梳理一个时间轴.
    ChatGPT是对话式UI + GPT–3.5系列模型，我们以最具代表性的论文、模型、API为主线，梳理到今天.

2020之前
- 2017年6月，Google发布Transformer论文.

- 2017年6月，7月，OpenAI发布人类喜好的强化学习算法、PPO算法，都是ChatGPT用到的算法.

- 2018年6月，OpenAI发布GPT-1.
- 2018年11月，Google发布BERT，此后NLP领域主要基于这个框架研究下游任务.

- 2019年2月，OpenAI发布GPT-2，OpenAI获得了自信，此后专注于GPT.
2020年
- 年初，Covid-19爆发.
    中国闭关.

- 1月，OpenAI发布语言模型的Scaling Law（概念：模型能力跟参数规模、数据规模强相关），OpenAI获得了在数据和参数规模上Scaling-up的信心.

- 5月，GPT-3论文发布.

- 6月，GPT-3 API发布.

- 9月，ChatGPT的关键原型算法相关论文发布.

- 12月，欧洲机构发布用于GPT-3复现的开源数据集.

2021年
- 7月，OpenAI发布Copilot原型算法.

- 8月，Codex API发布.

- 11月，GPT-3 API Public Release，不对中国开 ... 中国如何缺席类ChatGPT人工智能AI盛宴 ⟶