↖  大模型发展提速 中文语料够“吃”吗 #语料 ..


-loading- -loading- -loading-

听音频 🔊 . 看视频 🎦

... 2024-07-02 20:10 .. 大模型厂商需要高质量数据支撑,以解“巧妇难为无米之炊”的困境;另一方面,高质量中文语料库的数据拥有者,如拥有各类图书、文献的出版商等,也期望在智能化时代实现数据增值。
    因此,探索数据供需双方合作模式是关键。
    然而,要推动数据供需双方建立合作并非易事。
    “拦路虎”到底是什么?当前,大模型数据获取主要有合理爬取、版权采购等途径。
    张行程透露,商汤目前的解决方案是联合各机构尽量挖取、寻找现存的中文高质量语料,比如精心编校过的书本、论文等,以及向供应商购买版权语料。
    “虽然购买数量有限,但质量很高.”
    张行程说。
    这是以前置协商付费方式来获取版权类语料的传统商业模式。
    阿里巴巴“通义千问”大模型也采取了类似做法。
    王铮还提到第二种潜在的方式,即与版权方协商,以训练后的模型为版权方提供服务的方式进行对价。
    然而,关于版权类语料使用,数据提供者和大模型厂商持有不同见解。
    王峥认为,大模型对版 .. UfqiNews 3

...探讨通用大模型和垂类大模型创新研发、落地应用与商业推广的产业新范式.
    展览现场将呈现国内外百款大模型涌现的生动图景,文生文、文生图、文生视频模型、端侧模型、开源模型等集体亮相,展现赋能千行百业的最新实践探索.
    而在具身智能、人机交互与自监督学习等前沿赛道,本届大会将举办人形机器人与具身智能发展论坛,并发布国内首款开源人形机器人原型机产品、首个全尺寸人形机器人开源社区,启动世界人形机器人与具身智能大赛,展示柔性机器人、服务机器人、特种机器人和人形机器人四大赛道的最新成果.
    上海市副市长陈杰介绍上海人工智能产业发展情况时表示,目前首轮人工智能“上海方案”重点任务全部落地,已形成从软件模型到智能终端、从基础研究到创新应用的全产业链布局.
    上海市规上企业从2018年183家增长到2023年的348家,产业规模从1340亿元增长到超3800亿元,居全国前列.
    全国首个大模型创新.. 06-23 18:00 16

...认知大模型的深度赋能时代已经到来,安全可控、场景驱动和专属定制是大模型在企业深度应用的三个关键要素.
    其中,安全可控包含内容和算力两个维度,是企业大模型的底线.
    在内容安全方面,星火一体机基于讯飞星火认知大模型,针对污语料和幻觉问题,形成立体化的“内容安全机制”.
    无监督的互联网语料,经过语句、质量、隐私、安全判别器等关卡,得到清洗后的高质量文本;为了解决“幻觉问题”,讯飞针对各类型任务构建专业知识库,以类搜索插件技术实现知识获取,基于大模型的理解和概括摘要能力给出答案.
    而在算力安全上,星火一体机基于昇腾AI硬件、昇思AI开源框架,提供业界领先的大模型训练、推理能力,为大模型全流程创新提供坚实的自主创新算力底座.
    此次科大讯飞与华为的合作是如何在算力底座的整体性上实现“1+12”的效果?刘庆峰介绍,“华为跟科大讯飞共同在昇腾AI的软硬件平台和软件的支撑工具上,把高算.. 08-17 19:30 16 ..UfqiNews

朋友圈的风景: 美妙时光美景风光:山河湖水风土人情-9

本页Url


👍5 仁智互见 👎0
  • 还没有评论. → +评论
  • -loading- -loading- -loading-


    🤖 智能推荐

    移民出国是当下普通家孩子改

    三一九的枪声: 中共中央政

    期货股指交易投资半神: 半

    佟浩然: 我妈是北大教授,

     


    + 粤式 粤式
    AddToFav   
    常在 经典 官宣