↖  模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分..


-loading- -loading- -loading-

听音频 🔊 . 看视频 🎦

... 2024-03-02 06:40 .. 对承认自身局限导致拒绝回答的情况有明显的厌恶,且偏好那些支持他们主观立场的回复。
    而像GPT-4-Turbo这样的高级大模型则更偏好于那些没有错误,表达清晰且安全无害的回复。
    尺寸接近的大模型会展现出相似的偏好,而大模型对齐微调前后几乎不会改变其偏好组成,仅仅会改变其表达偏好的强度。
    基于偏好的评估可以被有意地操纵。
    鼓励待测模型以评估者喜欢的属性进行回复可以提高得分,而注入最不受欢迎的属性则会降低得分。
    图1:人类,GPT-4-Turbo与LLaMA-2-70B-Chat在“日常交流”场景下的偏好解析结果,数值越大代表越偏好该属性,而小于50则表示对该属性的厌恶。
    本项目已经开源了丰富的内容与资源:可交互式演示:包含了所有分析的可视化及更多论文中未详尽展示的细致结果,同时也支持上传新的模型偏好以进行定量分析。
    数据集:包含了本研究中所收集的用户-模型成对对话数据,包括来 .. UfqiNews 2

优美的自然景色壮观的世界风光-7

本页Url


👍9 仁智互见 👎0
  • 还没有评论. → +评论
  • -loading- -loading- -loading-


    🤖 智能推荐

    -loading- -loading- -loading-


    专制独裁统治者为何一定要禁

    中国地方警察异地远洋捕捞式

    网络平台算法典型问题治理

    Elon Musk马斯克发

     


    + 训练馆 训练馆
    AddToFav   
    常在 经典 官宣