企业界追忆：“见了几百次，从未见过宗庆后生气”

-loading-

听音频 🔊 . 看视频 🎦

... 2024-02-27 03:10 .. 360集团创始人周鸿祎则把宗庆后看作“前辈”“邻家大叔”，并因为看过一本介绍娃哈哈营销案例的书而产生醍醐灌顶的感觉。
    宗庆后逝世后，中新经纬采访了多位与他有过接触的企业家及相关人士，他们通过点滴小事来追忆这位知名企业家的生平过往。
    企业家悼念周鸿祎：一位朴素的“邻家大叔”2月22日，有媒体报道称宗庆后正在入院治疗。
    当日，娃哈哈集团就公告称，宗庆后确因身体原因正在医院接受治疗，并称情况稳定。
    22日，均瑶集团副董事长兼总裁王均豪在微博上说：“祝早日康复！又一位第一代企业家(出现)健康问题，还好(宗)馥莉已接班多年。
    他只以事业为重，也没安排时间欣赏祖国大好河山，建议过没用，希望更多第一代企业家能劳逸结合，安排安享晚年……”但谁也没想到，仅仅三天后的25日10时30分，宗庆后因病逝世，生命定格在79岁。
    王均豪随后在微博上称：“一路走好.”
    对于如何评价宗庆后，王均豪在微信 .. UfqiNews ↓ 1

...

02-08 06:09 , 7430 , 163 ..
迈向通用人工智能AGI之路：大型语言模型LLM技术精要-4 影响一：让LLM适配人的新型交互接口
在理想LLM的背景下，我们再来看（美国OpenAI公司的）ChatGPT，能更好理解它的技术贡献.
    ChatGPT应该是目前所有的现有技术里，最接近理想LLM的技术方法.
    如果归纳下ChatGPT最突出特点的话，我会用下面八个字： “能力强大，善解人意”.

“能力强大”这一点，我相信应该主要归功于ChatGPT所依托的基础LLM GPT3.5.
    因为ChatGPT 尽管加入了人工标注数据，但是量级只有数万，这个规模的数据量，和训练GPT 3.5模型使用的几千亿token级别的数据量相比，包含的世界知识（数据中包含的事实与常识）可谓沧海一粟，几可忽略，基本不会对增强GPT 3.5的基础能力发挥什么作用.
    所以它的强大功能，应该主要来自于隐藏在背后的GPT 3.5.

GPT 3.5对标理想LLM模型中的那个巨无霸模型.

那么，ChatGPT向GPT 3.5模型注入新知识了吗？应该是注入了，这些知识就包含在几万人工标注数据里，不过注入的不是世界知识，而是人类偏好知识.
    所谓 “人类偏好”，包含几方面的含义：首先，是人类表达一个任务的习惯说法.

比如，人习惯说：“把下面句子从中文翻译成英文”，以此表达一个“机器翻译”的需求，但是LLM又不是人，它怎么会理解这句话到底是什么意思呢？你得想办法让LLM理解这句命令的含义，并正确执行.
    所以，ChatGPT通过人工标注数据，向GPT 3.5注入了这类知识，方便LLM理解人的命令，这是它“善解人意”的关键.

其次，对于什么是好的回答，什么是不好的回答，人类有自己的标准，例如比较详细的回答是好的，带有歧视内容的回答是不好的，诸如此类.
    这是人类自身对回答质量好坏的偏好.
    人通过Reward Model反馈给LLM的数据里，包含这类 ... 迈向通用人工智能AGI之路：大型语言模型LLM技术精要-4 ⟶

... 02-08 06:19 , 7437 , 159 ..
迈向通用人工智能AGI之路：大型语言模型LLM技术精要-11

取经之路：复刻ChatGPT时要注意些什么
如果希望能复刻类似ChatGPT这种效果令人惊艳的LLM模型，综合目前的各种研究结论，在做技术选型时需要重点权衡如下问题：
首先，在预训练模式上，我们有三种选择：GPT这种自回归语言模型，Bert这种双向语言模型，以及T5这种混合模式(Encoder-Decoder架构，在Encoder采取双向语言模型，Decoder采取自回归语言模型，所以是一种混合结构，但其本质仍属于Bert模式).
    我们应选择GPT这种自回归语言模型，其原因在本文范式转换部分有做分析.
    目前看，国内LLM在做这方面技术选型的时候，貌似很多都走了Bert双向语言模型或T5混合语言模型的技术路线，很可能方向走偏了.

第二，强大的推理能力是让用户认可LLM的重要心理基础，而如果希望LLM能够具备强大的推理能力，根据目前经验，最好在做预训练的时候，要引入大量代码和文本一起进行LLM训练.
    至于其中的道理，在本文前面相关部分有对应分析.

第三，如果希望模型参数规模不要那么巨大，但又希望效果仍然足够好，此时有两个技术选项可做配置：要么增强高质量数据收集、挖掘、清理等方面的工作，意思是我模型参数可以是ChatGPT/GPT 4的一半，但是要想达到类似的效果，那么高质量训练数据的数量就需要是ChatGPT/GPT 4模型的一倍（Chinchilla的路子）；另外一个可以有效减小模型规模的路线是采取文本检索（Retrieval based）模型+LLM的路线，这样也可以在效果相当的前提下，极大减少LLM模型的参数规模.
    这两个技术选型不互斥，反而是互补的，也即是说，可以同时采取这两个技术，在模型规模相对比较小的前提下，达到超级大模型类似的效果.


... 迈向通用人工智能AGI之路：大型语言模型LLM技术精要-11 ⟶