... 2024-03-02 06:40 .. 对承认自身局限导致拒绝回答的情况有明显的厌恶,且偏好那些支持他们主观立场的回复。
而像GPT-4-Turbo这样的高级大模型则更偏好于那些没有错误,表达清晰且安全无害的回复。
尺寸接近的大模型会展现出相似的偏好,而大模型对齐微调前后几乎不会改变其偏好组成,仅仅会改变其表达偏好的强度。
基于偏好的评估可以被有意地操纵。
鼓励待测模型以评估者喜欢的属性进行回复可以提高得分,而注入最不受欢迎的属性则会降低得分。
图1:人类,GPT-4-Turbo与LLaMA-2-70B-Chat在“日常交流”场景下的偏好解析结果,数值越大代表越偏好该属性,而小于50则表示对该属性的厌恶。
本项目已经开源了丰富的内容与资源:可交互式演示:包含了所有分析的可视化及更多论文中未详尽展示的细致结果,同时也支持上传新的模型偏好以进行定量分析。
数据集:包含了本研究中所收集的用户-模型成对对话数据,包括来 .. UfqiNews ↓
2
本页Url
🤖 智能推荐