跑ChatGPT体量模型，从此只需一块GPU：加速百倍的方法来了

-loading-

听音频 🔊 . 看视频 🎦

... 2023-03-03 21:00 .. 总训练成本达1200万美元。
    除了训练，推理也很花钱。
    有人估算，现在OpenAI运行ChatGPT的算力费用每天就有10万美元。
    在发展技术，让大模型掌握更多能力的同时，也有人在尝试降低AI所需的算力资源。
    最近，一种名为FlexGen的技术因为「一块RTX3090跑ChatGPT体量模型」而获得了人们的关注。
    虽然FlexGen加速后的大模型看起来仍然很慢——跑1750亿参数的语言模型时每秒1个token，但令人印象深刻的是，它已经把不可能变成了可能。
    传统上，大语言模型（LLM）推理的高计算和内存要求使人们必须使用多个高端AI加速器进行训练。
    本研究探索了如何将LLM推理的要求降低到一个消费级GPU并实现实用性能。
    近日，来自斯坦福大学、UCBerkeley、苏黎世联邦理工学院、Yandex、莫斯科国立高等经济学院、Meta、卡耐基梅隆大学等机构的新研究提出了Flex .. UfqiNews ↓ 1