↖  大模型发展提速 中文语料够“吃”吗..


-loading- -loading- -loading-

听音频 🔊 . 看视频 🎦

... 2024-07-02 20:10 .. 大模型厂商需要高质量数据支撑,以解“巧妇难为无米之炊”的困境;另一方面,高质量中文语料库的数据拥有者,如拥有各类图书、文献的出版商等,也期望在智能化时代实现数据增值。
    因此,探索数据供需双方合作模式是关键。
    然而,要推动数据供需双方建立合作并非易事。
    “拦路虎”到底是什么?当前,大模型数据获取主要有合理爬取、版权采购等途径。
    张行程透露,商汤目前的解决方案是联合各机构尽量挖取、寻找现存的中文高质量语料,比如精心编校过的书本、论文等,以及向供应商购买版权语料。
    “虽然购买数量有限,但质量很高.”
    张行程说。
    这是以前置协商付费方式来获取版权类语料的传统商业模式。
    阿里巴巴“通义千问”大模型也采取了类似做法。
    王铮还提到第二种潜在的方式,即与版权方协商,以训练后的模型为版权方提供服务的方式进行对价。
    然而,关于版权类语料使用,数据提供者和大模型厂商持有不同见解。
    王峥认为,大模型对版 .. UfqiNews 1

美妙时光美景风光——山川河流大西北新疆风景-8

本页Url


👍9 仁智互见 👎0
  • 还没有评论. → +评论
  • -loading- -loading- -loading-


    🤖 智能推荐

    -loading- -loading- -loading-

     


    + 点击率 点击率
    AddToFav   
    常在 经典 官宣