... 2024-07-02 20:10 .. 大模型厂商需要高质量数据支撑,以解“巧妇难为无米之炊”的困境;另一方面,高质量中文语料库的数据拥有者,如拥有各类图书、文献的出版商等,也期望在智能化时代实现数据增值。
因此,探索数据供需双方合作模式是关键。
然而,要推动数据供需双方建立合作并非易事。
“拦路虎”到底是什么?当前,大模型数据获取主要有合理爬取、版权采购等途径。
张行程透露,商汤目前的解决方案是联合各机构尽量挖取、寻找现存的中文高质量语料,比如精心编校过的书本、论文等,以及向供应商购买版权语料。
“虽然购买数量有限,但质量很高.”
张行程说。
这是以前置协商付费方式来获取版权类语料的传统商业模式。
阿里巴巴“通义千问”大模型也采取了类似做法。
王铮还提到第二种潜在的方式,即与版权方协商,以训练后的模型为版权方提供服务的方式进行对价。
然而,关于版权类语料使用,数据提供者和大模型厂商持有不同见解。
王峥认为,大模型对版 .. UfqiNews ↓
1
本页Url
🤖 智能推荐