颠覆认知：大模型不可靠，越大越不可靠？最新研究登上 Nature,正确率

颠覆认知：大模型不可靠，越大越不可靠？最新研究登上 Nature

+模型 +任务
 +研究 +错误率
 +优化

09-28 02:30...错得越多？”一个令人意外的关键发现是，模型在面对复杂任务时表现显著提升，但在简单任务上的错误率却有明显上升。这种现象称为“难度不一致（DifficultyInconsistency）”，即扩展后的模型在复杂任务上逐步提升了正确率，但在简单任务上却容易出错。以加法任务为例，虽然模型能够解决复杂的多位数加法，但在简单的两位... 3
AI会「说谎」，RLHF竟是帮凶

+人类
 +评估 +错误
 +研究 +奖励

09-23 22:20...并且这种行为的产生是自然地从标准的、无害的做法中产生的，研究者想要知道U-SOPHISTRY在实践中是否重要，LM如何误导人类，以及哪些缓解措施是有效的。论文地址：论文标题：LANGUAGEMODELSLEARNTOMISLEADHUMANSVIARLHF作者在两项任务上进行了实验：长篇问答和算法编程。实验中要求人类在... 1
地质灾害预警数智升级

+精准 +齐鲁
 +山东 +桥梁
 +科学院

08-31 21:10...群测群防员很难做到24小时实时在岗，特别是有些山高坡陡的高位灾害处人力难以到达，需从此前以“人防”为主向“人防+技防”转变。数据显示，全国目前已有5万多处隐患点安装了自动化监测预警设备，全天候不间断产生监测数据和预警信息，并自动接入全国地质灾害监测预警系统。通过监测感知、综合分析、预警预报等功能，实现全国范围内数据快速... 2
四六级分数什么时候可以查

+分数
 +考试网 +报告单
 +教育 +证书

08-28 21:40...二、使用微信APP扫描下方小程序码或搜索“中国教育考试网”小程序进行查询。三、使用百度APP扫描下方小程序码或搜索“中国教育考试网”小程序进行查询。四、使用支付宝APP扫描下方小程序码或搜索“中国教育考试网”小程序进行查询。考生如对考试成绩有疑问，可在成绩公布后1个月内向全国大学英语四、六级考试委员会办公室提出复查申请... 0
地质灾害预警数智升级

+新车
 +影响 +汽车
 +地质灾害 +隐患

08-18 20:20...群测群防员很难做到24小时实时在岗，特别是有些山高坡陡的高位灾害处人力难以到达，需从此前以“人防”为主向“人防+技防”转变。数据显示，全国目前已有5万多处隐患点安装了自动化监测预警设备，全天候不间断产生监测数据和预警信息，并自动接入全国地质灾害监测预警系统。通过监测感知、综合分析、预警预报等功能，实现全国范围内数据快速... 0
ChatGPT们，正在污染学术圈

+检测工具
 +工具 +论文
 +学术 +研究

08-01 11:50...按年计算约为每年15万篇论文。这一研究团队分析了2010年-2024年生物医学领域数据库PubMed中1400万篇论文的摘要，他们发现以ChatGPT为代表的生成式AI工具的出现后，特定修饰性文体词汇的使用量出现异常的激增。研究团队用这些词汇的出现频率估计了使用AI写作的摘要的比例。研究人员还发现，AI写作工具的使用在... 0
农民也得“培训上岗” 蔬菜专项培训开班

+上岗 +专项
 +农民 +培训
 +蔬菜

07-24 05:10...聘请了来自中国农业大学、中国农科院、北京市农林科学院、北京市农业技术推广站等单位具有丰富理论及生产实践经验的专家进行了授课，通过蔬菜土壤消毒、育苗管理、高品质绿色栽培、病虫害防控、产后保鲜贮藏等理论知识与生产技术的系统传授及现场培训，培训质量得到了有效提升，培训前测试平均答题正确率65.6%，培训后测试平均答题正确率9... 0
答对12天就能抽取惊喜大奖？你还有机会！

+答题 -正确率
 +大奖 +大会
 +互联网

07-05 19:10...正文答对12天就能抽取惊喜大奖？你还有机会！来源：2024-07-0517:35从6月24日到今天世界互联网大会成立两周年线上答题有奖活动已进入第12天衷心感谢广大网友的热心参与！也感谢WIC的老朋友们一路相伴！只要您答题满12天且正确率为100%即可抽取惊喜大奖：大疆OsmoPocket3相机此外还有机会获得鼠标键盘... 1
考核前自信满满却最终“落败”，班长的这番话点醒了他

 +班长
 +考核 +眼高手低
 +实操 +教员

06-22 14:20...直接关系到实弹射击的准确率。正因如此，指挥班的战士需要具备较好的数学水平和较强的学习能力。我大学读的是数学专业，分配到指挥班，属于专业对口。得益于扎实的数学基础，开始学习基本运算后，我如鱼得水，经常受到教员表扬。“这么简单，一眼就能看出答案。”专业学习顺利起步让我自信心膨胀，逐渐觉得教学内容太过简单，上课时注意力经常不... 3
沙坪坝区举办第四届病案首页填写知识竞赛

+电力设施
 +病案 +沙坪坝
 +病历 +竞赛

05-23 20:30...本届大赛分为初赛和决赛两个阶段进行。在初赛中，来自全区卫生健康系统46家医疗机构的260余名选手进行了激烈的角逐，重庆大学附属沙坪坝医院、陈家桥医院、新桥社区卫生服务中心等12家参赛单位的36名选手晋级。在决赛现场，经过必答、抢答和选答三个环节的精彩比拼，最终，重庆大学附属沙坪坝医院（沙坪坝区人民医院）代表队获得一等奖... 1
考研要多一些平常心，莫被“偷感”“装感”束缚

 +考研
 +装感 +平常心
 +专业书籍 +束缚

05-22 05:40...恨不得让全世界都知道自己在备考。据了解，“偷感考研人”主要是形容在图书馆学习时要坐不起眼的角落，在寝室学习时也是偷偷摸摸地学习，害怕别人发现自己在学习的一类考研人，其中有的人还会给专业书籍“穿上衣服”，以防被人看出自己在学习什么，或是怕别人觉得自己在“内卷”；而“装感考研人”，则会大张旗鼓地表明自己在备考，他们可能会故... 4
李开复谈AI时代：“把一个超级天才放到你身边”

+李开复
 +天才 +模型
 +身边 +智商

04-30 04:30...类比过去的几个重要节点，李开复说，PC时代“给每个办公桌上放了一台电脑”；移动互联网时代让我们随身携带一个可以“连接信息、连接人，且知道我在什么地方”的移动设备；AI时代则相当于把一个智商(IQ)300的天才放到每个人身边，帮人思考、回答问题、解决难题，这一定会带来更高的生产力提升。回顾大模型的发展，李开复说，刚开始时... 2
中小学生迎来“新型补课”，AI自习室悄然兴起，专家持有不同意见

+意见 +学生
 +家长 +自习室
 +辅导

04-16 18:50...AI自习室悄然兴起浙江等地中小学校周边，涌现出不少“AI自习室”，取代了托管班，备受家长的青睐。通过家长的口口相传，已经有不少学生报名参加。杭州一家AI自习室里已经座无虚席，教室里坐着各个年龄段的学生，从小学、初中、高中都有，每人一台学习设备，各学各的互不打扰。每间自习室都有一名督学老师，可以在后台看到每位学生的学习进... 2
吴恩达：AI智能体工作流今年将有巨大进展，可能超过下一代基础模型

+负债表
 +资产 +智能
 +吴恩达 +模型

03-23 00:10...我们主要在零样本模式下使用LLM，提供prompt，逐个token地生成最终输出，没有进行调整。这类似于要求某人从头到尾写一篇文章，直接打字，不允许退格，并期望得到高质量的结果。尽管有困难，LLM在这项任务上仍然表现得非常好！然而，通过智能体工作流，我们可以要求LLM多次迭代文档。例如，它可能需要执行一系列步骤：规划大... 0
一年狂揽73亿美元投资，Anthropic点燃硅谷大模型“战火”

+模型 +陈冉
 +硅谷 +战火
 -正确率

03-10 08:50...Claude3的整体性能相比GPT-4平均提升了50%以上，包括“幻觉”、正确率和非正确率方面的表现等。从大模型胡乱回答问题的“幻觉”这一项来看，Claude3相比GPT-4要好很多，另外，在GPT-4中，有些问题不会被回答，但在Claude3中其回答的正确率提高了。在代码能力和推理上，陈冉测试了贪吃蛇游戏、扑克游戏等... 4
一年狂揽73亿美元投资，Anthropic点燃硅谷大模型“战火”

+模型
 +陈冉 +硅谷
 +战火 -正确率

03-10 03:40...他认为，Claude3的整体性能相比GPT-4平均提升了50%以上，包括“幻觉”、正确率和非正确率方面的表现等。从大模型胡乱回答问题的“幻觉”这一项来看，Claude3相比GPT-4要好很多，另外，在GPT-4中，有些问题不会被回答，但在Claude3中其回答的正确率提高了。在代码能力和推理上，陈冉测试了贪吃蛇游戏、扑... 3
有魏晨这样的男人，婚姻的门槛都要踏破，不信就看他的3大优点！

+重磅
 +乌克兰 +派兵
 +荷兰 +魏晨

02-29 21:20...更何况在假唱遍地的如今，更是尤为珍贵。也难怪，当假唱被观众熟知且愤怒的时候，魏晨的这一段“专业歌手不假唱”的事迹，被多次翻出来作为范本。不弄虚作假，是魏晨始终如一的态度，提升自己的专业水准，是魏晨十年如一日的坚持。虽然获得了快男的季军，但魏晨的歌手之路也不是一帆风顺，发表过的单曲，都淹没在了时间的潮水里。可即便如此落魄... 5
有魏晨这样的男人，婚姻的门槛都要踏破，不信就看他的3大优点！

+魏晨
 +于玮 +男人
 +观众 +妻子

02-21 18:50...更何况在假唱遍地的如今，更是尤为珍贵。也难怪，当假唱被观众熟知且愤怒的时候，魏晨的这一段“专业歌手不假唱”的事迹，被多次翻出来作为范本。不弄虚作假，是魏晨始终如一的态度，提升自己的专业水准，是魏晨十年如一日的坚持。虽然获得了快男的季军，但魏晨的歌手之路也不是一帆风顺，发表过的单曲，都淹没在了时间的潮水里。可即便如此落魄... 1
国考笔试开考！河南16.2万考生考场角逐！

+笔试 +河南
 +刘汉卿 +考场
 +题干

11-29 13:10...2024年国考河南在郑州、开封等18地市均设置考区，共144个考点，5410个考场，其中5个公安专业课、3个银保监专业课考点均设置在郑州。全省预计参加考试的考生有16.2万人（由于国考考生可自由选择考点，本数据含报考外省职位在河南考试的考生）！比拼正确率！国考笔试难度增加11月26日上午，行测考试刚结束，有考生一脸懊恼... 1
苹果 iPhone 15 / Pro 和 M3 Mac 爆料回顾

+爆料
 -正确率 +苹果
 +新机 +数量

11-07 18:00...其中正确的爆料数量为116条，正确率为93.55%。彭博社记者MarkGurman共爆料79条，覆盖iPhone新机的方方面面，在硬件参数、发布会时间爆料方面都较为准确，其中正确的爆料数量为76条，正确率为96.2%。显示屏方面的分析师RossYoung共爆料49条，包括全系“灵动岛”挖孔屏幕、标准版仍不支持等，其中正... 0
摄像头前，他们如何代考招聘笔试？

+笔试
 +考试 +答案
 +远程 +摄像头

11-03 19:00...缺点是考试全程都要忙忙碌碌的，不像远程代做，坐在那里直到考试结束就行。”这位做题老师解释了两种服务的优缺点，“简单来说，就是省钱的方式不省事，省事的方式不省钱”。做题老师还提到，80%以上的正确率就是10题中错2题以内，考试结束后，考生可以随机抽取10-20题复核一下，“不出成绩的考试只能用这种笨办法，大家肯定也有一些... 2
他和手术机器人成了合作无间的“老搭档”

+周学通
 +机器人 +手术
 +达芬奇 +省立医院

09-29 05:10...而周学通全程参与了手术物品准备、设备安装、器械摆放等工作。“就像要来一位新同事，为了迎接他，我们做足了各种准备工作，也对他充满了好奇，把他的资料看了又看，就盼望着他早日‘上岗’”周学通说。初识：很新奇但操作起来有点难2019年7月中旬，山东省立医院迎来首例达芬奇机器人手术，周学通是跟台的器械护士。首台达芬奇机器人手术成... 5

« 1 2 »