Karpathy点赞，这份报告教你如何用 LLaMa 3创建高质量网络数据集,模型,训练

Karpathy点赞，这份报告教你如何用 LLaMa 3创建高质量网络数据集

+数据
 -训练 -模型
 +团队 +文本

06-04 22:30...数据集获取地址：这两个数据集均根据许可的ODC-By1.0协议发布。在对应的长篇报告中，团队深入探讨了如何创建一个用于LLM预训练的大型高质量网络规模数据集，并讨论了大规模数据质量的处理和评估、FineWeb配方（列出并解释了所有的设计选择）以及创建FineWeb-Edu子集的过程。大规模数据质量的处理和评估关于用于训... 0
中国移动开放三大人工智能基地

-模型 +评测
 +中国移动 -训练
 +基地

05-26 03:30...大模型训练基地是中国移动为大模型提供训练所需智算资源及训推一站式工具链的服务平台。基于超万卡智算集群，可为全社会提供超大规模、超长稳定、超高效率的大模型训练服务，并推出两大优惠政策，一个是已经向社会全面开放九天众擎百亿大模型，后续将陆续开放千亿大模型；另一个是提供一定规模普惠算力用于模型共建。针对千亿、万亿大模型训练所... 0
准入门槛降低？中国移动宣布开放大模型训练、测评、产业创新三大基地

-模型 -训练
 +中国移动 +评测
 +基地

05-25 22:00...召开的中国移动人工智能生态大会上，中国移动宣布开放大模型训练基地、大模型评测基地、大模型产业创新基地等三大人工智能基地，面向全社会提供大模型从训到推、AI+原生应用孵化等的一站式产业融通带动服务。除了开放基地，中国移动还发布了23款AI+产品及20个AI+DICT行业应用，以及由万卡级智算集群、千亿多模态大模型、汇聚百... 0
LoRA数学编程任务不敌全量微调

+微调 +全量
 +任务 +矩阵
 +编程

05-21 03:10...监督微调实验则是在训练1、2、4、8、16个epochs时取样；LoRA的rank取值为16和256，适配对象包括Attention、MLP和All。结果不难看出，无论是持续预训练还是监督微调，LoRA在编程上的表现从未追上过全量微调，而且在持续预训练中，随着token数量的增加，差距越来越悬殊。而在数学任务上的持续预... 0
Meta首发「变色龙」挑战GPT

+模态
 -模型 +文本
 -训练 +图像

05-19 19:40...甚至还有人称，在GPT-4o诞生之后发布的非常扎实的研究，OOS将迎头赶上。不过，目前Chameleon模型支持生成的模态，主要是图像文本。缺少了GPT-4o中的语音能力。网友称，然后只需添加另一种模态（音频），扩大训练数据集，「烹饪」一段时间，我们就会得到GPT-4o...?Meta的产品管理总监称，「我非常自豪能够... 0
国产千卡集群训练优化技术AdaPipe发布

-训练 +国产
 +集群 +鹏城
 +优化

05-08 16:40...受到了学术界和工业界的广泛关注。然而，随着大规模语言模型逐渐朝着更多的参数量和更长的文本进行演化，对计算设备的存储和处理能力也提出了更高要求。当前，传统的流水线并行训练方法在处理百、千亿参数的模型时会产生存储和计算负载不均衡的现象，直接影响了资源利用率和整体训练效率；同时，由于现有国产算力卡存在高速内存容量和通信能力不... 0
一块钱100万token，超强MoE模型开源，性能直逼GPT

+开源
 -模型 +性能
 -训练 +中文

05-08 14:00...在LiveCodeBench(0901-0401「一个专为实时编码挑战而设计的基准」)上，DeepSeek-V2获得了较高的Pass@1分数。DeepSeek-V2与不同模型在中文推理、中文语言上的表现：在价格方面，DeepSeek-V2API的定价如下：每百万token输入0.14美元（约1元人民币）、输出0.28美... 2
国内首家！阿里云全方位支持Llama 3训练推理：提供免费算力

-训练
 -模型 +算力
 +云百炼 +开发者

04-23 00:40...无需担心繁琐的训练和部署流程。Llama3作为Meta推出的新一代开源大语言模型，其80亿及700亿参数版本均展现出了强大的性能。然而，对于特定语言或垂直领域的需求，通常需要对这些开源模型进行进一步的训练或微调。这一过程在过去可能较为复杂，但现在，阿里云百炼平台提供的一键式解决方案让这一切变得简单。阿里云百炼平台不仅提... 0
走近全球汽车产业链上的中国创新

 +词表 +开源
 +结构 +西湖
 +蛋白

04-22 05:30...新华社记者许畅摄一条新能源汽车轮胎与传统汽车轮胎有什么不同？在著名轮胎制造商德国大陆马牌轮胎设在安徽省合肥市的生产基地，负责人耐心地向记者解释，相比传统汽车，新能源汽车对轮胎噪音和抓地力要求更高，在轮胎滚阻、耐磨性等指标上都提出新要求。大陆马牌在华研发团队开发了针对中国市场实际需求的新能源汽车专款轮胎，并同步到大陆马牌... 0
4000万蛋白结构训练，西湖大学开发基于结构词表的蛋白质通用大模型，已开源

+结构
 +蛋白质 +词表
 -模型 -训练

04-22 05:30...生成了一维的3Di结构序列（使用了Foldseek的结构词表，每种3Ditoken代表不同的局部结构），这样的结构序列与氨基酸序列是等长的。因此本文使用了一种简单而有效的结构嵌入方式：将结构词表和氨基酸词表计算笛卡尔积（即两两组合），形成新的结构感知词表。这样对于蛋白质的每个位点，其氨基酸类型和对应的局部结构都能组合成... 0
谷歌报复性砸出5620亿参数大模型！机器人都能用，学术圈已刷屏

-模型 +谷歌
 +刷屏 +报复性
 +机器人

03-10 09:40...其实就是如上两个模型参数量相加而来（5400亿+220亿）。PaLM是谷歌在22年发布的语言大模型，它是Pathways架构训练出来的，能通过“思考过程提示”获得更准确的逻辑推理能力，减少AI生成内容中的错误和胡言乱语。Pathways是一种稀疏模型架构，是谷歌AI这两年重点发展方向之一，目标就是训练出可执行成千上百种... 1
美媒关注：训练出ChatGPT需要消耗多少电力？

+电力 +消耗
 +卢西奥 +透明度
 +比特币

03-10 09:00...量化了她旗下公司Bloom的碳排放情况，Bloom是OpenAI模型GPT-3的竞争对手。卢西奥尼还试图根据一组有限的公开数据，对OpenAI聊天机器人ChatGPT的碳排放情况进行评估。提高透明度卢西奥尼等研究人员表示，在AI模型的电力使用和排放方面，需要提高透明度。有了这些信息，政府和公司可能会决定，使用GPT-3... 1
如何对标ChatGPT？专家：打造普适模型，助力形成新业态

 -模型 +人工智能
 +业态 -训练
 +商业化

03-06 04:20...或采用少量数据进行二次训练，就可以满足新应用场景的需要。”中国新一代人工智能发展战略研究院首席经济学家、南开大学数字经济研究中心主任刘刚在接受央广网记者采访时指出，ChatGPT的推出，意味着大模型正式进入商业化、产业化时代，而大模型商业化运作成功，将会变成商业运用的产业集群，“因为一个大模型后面涉及大量下游的研发运用... 17
跑ChatGPT体量模型，从此只需一块GPU：加速百倍的方法来了

-模型 +体量
 +算力 -训练
 +方法

03-03 21:00...总训练成本达1200万美元。除了训练，推理也很花钱。有人估算，现在OpenAI运行ChatGPT的算力费用每天就有10万美元。在发展技术，让大模型掌握更多能力的同时，也有人在尝试降低AI所需的算力资源。最近，一种名为FlexGen的技术因为「一块RTX3090跑ChatGPT体量模型」而获得了人们的关注。虽然FlexG... 1
ChatGPT能考上美国医生吗？

+得分率
 +考试 +医生
 +临床 -模型

03-03 19:50...也有诸如判断病因之类的选择题。两名评审人员负责阅卷打分。结果显示，在三个考试部分，去除模糊不清的回答后，ChatGPT得分率在52.4%至75%之间，而得分率60%左右即可视为通过考试。值得注意的是，ChatGPT有88.9%的主观回答包括“至少一个重要的见解”，即见解较新颖、临床上有效果且并非人人能看出来。相比之下，... 8
网易2022年研发投入150亿元，已自研数十个大规模预训练模型

+营收
 -模型 -训练
 +模态 +游戏

02-24 02:50...非公认会计准则下，归属于公司股东的持续经营净利润48亿元。公司2022全年研发投入超过150亿元，占比营收15.6%。其中，Q4研发投入41亿元，创下历史新高。2022年，网易连续四个季度加码研发，持续推进AIGC等前沿技术自研突破，在游戏、教育、音乐等领域表现出巨大应用潜力。据了解，自2018年启动GPT（生成式预训... 3
复旦MOSS距离ChatGPT还有多远？

+复旦
 -模型 -训练
 +基座 +距离

02-23 04:00...MOSS还能够挑战不正确的前提，并且拒绝不适当的请求。那么相对于美国OpenAI的ChatGPT，中国的MOSS有何特别之处呢？记者在主页看到了这样的介绍：MOSS和ChatGPT的区别——如MOSS的参数量比ChatGPT少得多；MOSS通过与人类和其他AI模型交谈来学习，而ChatGPT是使用来自人类反馈的强化学习... 1
国内公立医院拥抱ChatGPT技术未来将会迎来哪些改变？

+技术
 +国内 -模型
 +黄虹 -训练

02-21 14:20...需要人力和机器学习技术方面的投入。”她说道，“怎样找场景，把能落地的场景模型先搭建起来，我们也都开始了研究探索。”在谈到训练一个医疗大模型需要多长时间时，黄虹说道：“训练模型的时长和训练的内容、规模以及计算算力都密切相关，在初期阶段，如果控制在几天到1-2周内能完成一次训练，对模型的迭代升级会比较有利。”黄虹表示，不同... 22
专家：ChatGPT尚不具备自主的“心智”

+心智 -模型
 -训练 +句子
 +专家

02-21 09:20...传统的语言处理模型一般只能根据字词的前后相邻词语来找它们之间的关系，因此有很大的局限性。Transformer引入了自注意力机制后，它就能很灵活地找出不单是某一个句子，而是不同句子，甚至是整篇文章或不同的文章之间词的相互关系，学习能力就增强了很多。横空出世非一日之功对于ChatGPT的横空出世，金耀初强调这仅仅是大众的... 29
“火爆”的ChatGPT尚没有“自主心智”

+心智 +答案
 -训练 +监督
 +人类

02-15 15:10...甚至是整篇文章或不同的文章之间词的相互关系，学习能力就增强了很多。横空出世非一日之功对于ChatGPT的横空出世，金耀初强调这仅仅是大众的感受。从科研的角度看，ChatGPT也是一步一步演进而来的。根据OpenAI发表的论文，ChatGPT是花了很长时间，用了各种学习方法不断训练和微调出来的。生成式模型给出的答案并不是... 28
ChatGPT概念走红对我们有何启示

+概念
 +满屏 -模型
 -训练 +众生相

02-13 22:40...ChatGPT的走红勾勒出一幅资本市场的众生相——有相关人工智能核心企业被冷落多时，一朝乘风扬眉吐气，公司股价短时间内实现大涨甚至翻番；也有公司第一时间迅速澄清，表明与热点无关，主动退出“是非之地”；当然，还有一部分公司将“蹭”的艺术发挥到极致，利用投资者交流平台“欲说还休”，给人“若有若无”之感。投资机构开始排队进场... 11
科大讯飞：具备长期深厚人工智能技术积累

+智能
 +中文 +技术
 +领域 -模型

02-13 20:20...科大讯飞在投资者互动平台表示，ChatGPT主要涉及到自然语言处理相关技术，属于认知智能领域的应用之一，公司在该方向技术和应用具备长期深厚的积累。科大讯飞主导承建了认知智能全国重点实验室(科技部首批20家标杆全国重点实验室之一)，多年来始终保持关键核心技术处于世界前沿水平(例如，科大讯飞于2022年就获得Commons... 2

« 1 2 »