两部门启动2026年“模数共振”行动依托重点城市打造智能体工厂,评测

两部门启动2026年“模数共振”行动依托重点城市打造智能体工厂

+模型 +行业
 +数据 +人工智能
 +模数

04-29 11:30...推动人工智能模型与数据资源协同互促、同频共振，工业和信息化部、国家数据局联合开展2026年“模数共振”行动。有关事项通知如下：一、工作目标重点面向钢铁、石化化工、有色金属、建材、工业母机、汽车、医疗装备、电力装备、船舶、航空航天、家居、医药、生物制造、历史经典、电子元器件、消费电子、新型显示、软件、信息通信、网络安全等... 0
终等到DeepSeek V4：1.6万亿参数、百万上下文，牵手华为，价格依然“屠夫级“

+婴儿车 +新手
 +入口 +高端
 +决策

05-09 21:30...每个模型又分成三档推理强度：Non-think、ThinkHigh、ThinkMax。也就是说，这次DeepSeek给出的不只是两个模型，而是一整套可以按场景分层调用的能力结构。从产品上看，这个思路已经很明确了：Pro负责冲能力上限，Flash负责铺性价比；非思考负责效率，Max负责榨干推理能力。官方也直接说了，“从现... 0
搭子DuMate一天连登PinchBench与DeepResearch双榜首，成全球最能打的龙虾

+搭子 +龙虾
 +连登 +榜首
 +任务

05-09 18:50...超越Anthropic和OpenAI拿下全球龙虾执行争霸赛冠军。在另外一项DeepResearch深度研究榜单中，DuMate同样位列第一。PinchBench是OpenClaw赛道最能体现Agent真实工作能力的评测基准，重点考察Agent在23个真实工作场景下147个任务的多步推理、工具调用和任务闭环能力，并从成功... 0
银行业首个“数据分类分级”行业级大模型正式亮相

+模型 +分级
 +数据 +分类
 -评测

05-08 11:00...会上，广发银行就模型评测工作进行了汇报分享。本次发布的“数据分类分级”人工智能大模型，旨在探索解决金融机构在数据分类分级工作中面临的标准理解不一、执行尺度不齐、自动化水平不足等痛点。该项目由中国人民银行牵头组织，广发银行作为项目参与机构之一，负责模型评测工作。结合本次模型的应用场景与技术特点，广发银行依托人工智能技术、... 0
老股民整理的配资平台清单，2026年十大股票杠杆平台真实评测

 +配资 +杠杆
 +环宇 +备案号
 +机制

05-08 10:30...管理费、服务费、账户维护费等隐性部分叠加起来，才是你真正要付出的配资成本。带着这三个问题，来看206年的十大排名。2026年十大股票配资平台第一位：泓川证券（备案号：77770309）在资深配资用户的讨论区里，泓川证券的出现频率相当高。备案号77770309在业内属于可核查的正规资质，这在当前监管趋严的背景下具有明显分... 0
全球27国526支战队巅峰竞技：AGIBOT WORLD CHALLENGE @ICRA 2026线上赛成绩出炉

+团队
 +赛道 +机器人
 +成绩 -评测

05-05 05:20...在行业内首创并设置了唯一的双硬核赛道：ReasoningtoAction(推理—操作)赛道与WorldModel(世界模型)赛道。二者分别对应机器人能力进化中的两个关键问题：机器人如何把任务理解转化为可执行动作，以及机器人如何建立对物理世界变化的预测能力。其中，ReasoningtoAction赛道重点考察模型在复杂任... 0
光大银行App是否美好加倍？客服互动形式多元，两张明细列表仍待提升

 +光大银行
 +客服 +优化
 +功能 +体验

05-04 19:50...“活动”频道扩展了活动和权益两大服务，整体布局更加聚焦银行业务。但底边栏作为App核心交互骨架，不建议频繁调整，避免影响用户使用习惯。搜索互动方面，光大银行App搜索入口比较好找，用户可以查看搜索历史和热门榜单，支持对功能、产品、活动、光彩号、看点、常见问题等进行搜索。在多轮关键词测试中，模糊搜索的匹配精准程度、搜索结... 1
数字峰会探新“智”为AI装上“质检员”，浪潮软件集团发布大模型“体检”方案

 +质检员
 +装上 +峰会
 +方案 +模型

05-04 18:20...我国《生成式人工智能服务管理暂行办法》《生成式人工智能服务安全基本要求》等一系列规范，均明确要求大模型须通过专业测评方可合规上线。测评不再是“选做题”，而是市场准入、风险规避、业务落地的“必答题”。四维一体，打造大模型“体检中心”依托二十余年软件测评积淀，公司软件评测实验室拥有CNAS国家级资质、等保测评、信息安全风险... 0
第20回乡村戏剧节：一亩地里的戏台，一辈子的戏缘

 +装企
 +口碑 +出众
 -评测 +深度

05-04 14:20...最让牟昌非心里暖乎乎、也最感慨的事，莫过于村里终于有了个属于自己的、固定的戏曲戏台。以前办戏剧节，戏台都是临时租来的，戏一唱完，班子一走，台子就得拆得干干净净。想再听戏，就得等来年再搭临时的架子，村里人听戏、唱戏，总没个安稳的去处。这回不一样了，这方稳稳当当的戏台，是村里80岁的牟秀荣老人，掏了自己攒下的一万元钱，亲手... 0
2026上海装修市场全面评测：五家综合实力出众且口碑稳固的装企深度观察

+口碑 +聚龙
 +业主 +施工
 +家装

05-04 14:20...-增项解约：若施工中出现非业主主动提出的增项，或增项理由不充分（如前期测量失误、报价漏项），业主可立即叫停，单方解约。-质量解约：若对施工质量不满意，经核实后优先整改；整改仍不达标，业主可单方解约。底气来源：零增项率99.99%；满意度99.99%，9年透明化装修，8600+户家庭验证业主价值：签约不是“套牢”，而是“... 0
德适发布医疗AI评测平台DoctorBench，智诊科技、谷歌、OpenAl位列三甲

+科技 -评测
 +医疗 +智诊
 +模型

05-01 02:20...全球医疗大模型正加速从实验室走向临床应用，但行业始终缺乏一套能够真正衡量模型“看病能力”的评测标准。现有的评测大多聚焦于医学知识问答，难以反映模型在复杂临床情境中的综合表现——这种评测与临床实践之间的鸿沟，正在成为制约医疗AI落地应用的全球性挑战。此前，OpenAI发布HealthBench，标志着领先企业开始重视这一... 0
刷屏！DeepSeek V4成本暴降73%，梁文锋联手华为寒武纪，源神归位全体起立

+模型 +开源
 +刷屏 +能力
 +源神

04-30 19:20...显著降低长链路任务的算力与显存成本。同时，官方公布了DeepSeek-V4系列的API定价：DeepSeek-V4-Pro在输入命中缓存的情况下为1元/百万tokens，输入未命中缓存则为12元/百万tokens，输出为24元/百万tokens；DeepSeek-V4-Flash在输入命中缓存仅0.2元/百万token... 0
遂宁：49种“遂州伴手礼”诚邀八方来客

+遂宁
 +遂州 +八方来客
 -评测

01-22 21:00...首届遂宁特色伴手礼“遂州伴手礼”评测活动自2024年7月启动以来，得到了社会各界的广泛关注与积极参与，收到40家企业的90个产品报名申请，遂宁市保护消费者权益委员会经过评测，从中选出27家企业的49种产品进入“遂州伴手礼”运营平台，全面展示了遂宁丰富的物产资源和深厚的文化底蕴。遂宁红薯、大安舒牛肉、沱牌舍得酒、天然柠檬... 8
IT之家评测室AMD 锐龙 5 9500F 首发评测：低温高性能的千元游戏神 U

+性能 +处理器
 +游戏 +小米
 +荣耀

04-27 20:10...5%，1%Low帧低了约2.5%。锐龙59500F处理器在游戏测试中表现优异，最终拿下了8胜、1平、1负的成绩，综合游戏性能领先幅度约8.8%。大多数游戏的1%Low帧表现上也是锐龙59500F更高、更稳定。通过烤机测试，锐龙59500F处理器在FPU烤机30分钟后，温度稳定在71.6℃，功耗为100W。相比之下，酷睿... 0
创大模型价格新低！DeepSeek API输入缓存降至首发价十分之一

+模型 +开源
 +算力 -评测
 +价格

04-27 11:40...据悉，目前DeepSeek-V4已成为DeepSeek内部员工使用的AgenticCoding模型，据评测反馈使用体验优于Sonnet4.5，交付质量接近ClaudeOpus4.6非思考模式，但仍与Opus4.6思考模式存在一定差距。在世界知识测评中，DeepSeek-V4-Pro大幅领先其他开源模型，稍逊于顶尖闭源模... 0
2026年全屋定制新一线轻高定品牌评测榜单公布！

+工艺
 +维度 +品牌
 +全屋 +精密度

04-27 03:50...：全国布局、门店/线上渠道、落地交付、售后体系品牌硬实力（20分）：行业资历、供应链合作、品牌荣誉、核心理念落地二、2026新一线轻高定全屋定制品牌最终排名第1名：博西尼｜私宅定制（综合得分：96分）各维度得分：产品核心力19分、工艺精密度19分、生产交付力20分、服务覆盖度19分、品牌硬实力19分标杆测评点评作为本次... 0
特斯拉开源机器人的“手”之后，这家深圳企业开源了机器人的“大脑”

+通车
 +协同 +运河
 +北京 +开源

04-26 10:20...导致开发者大量时间消耗在重复的工程搭建上。开发者想做真正的创新，往往要从数据处理开始，一路搭建训练流程、对接不同模型、手动完成评测验证。AlphaBrainPlatform尝试解决这一问题，将“数据—训练—模型—评测”整条链路打通，一次性开源了当前具身智能领域最前沿的三条技术路线。三大“全球首创”技术路线集中开源·全球... 0
海外评测DeepSeek

+模型 +开源
 +华为 -评测
 +幻觉

04-25 21:20...但幻觉发生率上升。V4-Pro在全知综合评测指标（AA-Omniscience）中得分为-10，较V3.2推理版提升11分，核心得益于知识回答准确率的显著优化。V4-Flash得分为-23，整体水平与V3.2基本持平。相较于V3.2的幻觉率（82%），V4两款模型的幻觉问题突出：V4-Pro幻觉率为94%、V4-Fla... 0
GPT5.5深夜炸场，这次OpenAI又行了

+炸场 +测试
 +编程 +智能
 +任务

04-25 18:20...针对20小时长周期软件工程的Expert-SWE测评中，GPT-5.5的成功率来到了惊人的73.1%，显著高于上一代GPT5.4的68.5%。在衡量复杂命令行工作流的Terminal-Bench2.0的测试中，GPT5.5的评分达到82.7%，远高于Claude的69.4%。在知识工作任务GDPval、高级数学测试Fr... 0
GPT5.5深夜炸场，这次OpenAI又行了

+新风
 +正气 +部队
 +炸场 +测试

04-25 18:10...在OpenAI内部设立的，针对20小时长周期软件工程的Expert-SWE测评中，GPT-5.5的成功率来到了惊人的73.1%，显著高于上一代GPT5.4的68.5%。在衡量复杂命令行工作流的Terminal-Bench2.0的测试中，GPT5.5的评分达到82.7%，远高于Claude的69.4%。在知识工作任务GD... 0
终等到DeepSeek V4：1.6万亿参数、百万上下文，牵手华为，价格依然“屠夫级“

+模型 +参数
 +算力 +注意力
 +能力

04-25 18:10...这次DeepSeek给出的不只是两个模型，而是一整套可以按场景分层调用的能力结构。从产品上看，这个思路已经很明确了：Pro负责冲能力上限，Flash负责铺性价比；非思考负责效率，Max负责榨干推理能力。官方也直接说了，“从现在开始，一百万上下文将是DeepSeek所有官方服务的标配。”这句话表面上是在强调上下文长度，实... 0
全新一汽奥迪Q5L日常实用性测试报告

+一域
 +建议 +测试
 -评测 +后视镜

04-19 16:40...前后可调节距离为65mm，均处于同级别中上游水平。评测车的后排座椅提供三个独立头枕，均支持上下调节，中间头枕的尺寸与两侧头枕相差不大，并且内部填充物较软，乘坐舒适性表现令人满意。前排中央扶手箱采用上掀式设计，整体面积较大，并且采用软质材料包覆，触感舒适。实测中央扶手箱盖板支持角度调节，在正常驾驶坐姿下，能够为驾驶员的手... 1

« 1 2 3 »