文生图新SOTA！Pika北大斯坦福联合推出RPG，多模态助力解决文生图两大难题

-loading-

听音频 🔊 . 看视频 🎦

... 2024-02-17 03:40 .. 模型给出的整个画面的结构、人与物品的关系都非常合理，使观者眼前一亮。
而对于同样的提示，我们来看一下当前最先进的SDXL和DALL·E3的表现：再看一下新框架面对多个对象绑定多个属性时的表现：Fromlefttoright,ablondeponytailEuropegirlinwhiteshirt,abrowncurlyhairAfricangirlinblueshirtprintedwithabird,anAsianyoungmanwithblackshorthairinsuitarewalkinginthecampushappily.从左到右，一个穿着白色衬衫、扎着金发马尾辫的欧洲女孩，一个穿着印着小鸟的蓝色衬衫、棕色卷发的非洲女孩，一个穿着西装、黑色短发的亚洲年轻人正开心地在校园里散步。
研究人员将这个框架命名为RPG（Recaption，PlanandG .. UfqiNews ↓ 3

...

08-18 00:03 , 4082 , 134 ..
[编按：转载于虎嗅网/爱范儿, 2022-08-16. 原作者：张成晨.
     ]

“我不是机器人”，本应是不言自明的事情.

但在计算机承认你是人类之前，你可能会被要求点击包含红绿灯或人行道的图像.

当你靠近屏幕眯起眼睛，思考一个微乎其微的边角算不算时，你就会知道，这并不像听起来那么容易.
    这种难以自证的感觉，2015 年在 12306 抢票的春运人应该就有领略.

多年过去了，不断翻新花样的验证码，依然迫使你思考古老的哲学问题——我是谁？

一、微笑的狗，云做的马，自证是人更难了

“请点击每张包含微笑的狗的图片.”

某创意营销机构创始人 Jared Bauman 最近被验证码难住了.
    他疑惑的是，狗真的会笑吗？大多数狗看起来既不高兴也不难过，有些在做鬼脸，有些只是张着嘴.

（2022年）8 月 2 日，他又被要求找出 “用云做成的马”，9 张图里有 2 张用云做成的大象，他第一次点击时不幸败北.

Jared Bauman 意识到了一个严重的问题——找出红绿灯、公交车或烟囱已经过时了，验证码系统开始设置下一个级别的挑战了.

这些验证码出自 hCaptcha，开发者称，它比 Google 的验证码系统 reCAPTCHA 更注重隐私，只收集最低限度的必要个人数据.

而验证码为什么会越来越难，还是要从验证码是什么，以及 Google 的验证码系统 reCAPTCHA 是什么说起.

验证码（CAPTCHA），全称是 “全自动区分计算机和人类的公开图灵测试”.

由于它是用计算机来考人类，而不是标准图灵测试中那样由人类来考计算机，所以验证码也被视为一种反向图灵测试.

验证码的设计初衷是，保护网站免受有害机器人的侵害，包括传播恶意软件、散布虚假 ... 反人类的人机验证码早应该被干掉 ⟶

...还支持图像内容的输入，成为一个能够理解照片的人工智能.
    虽然ChatGPT-4未能实现音频解析，但新功能让人兴奋不已.
    同时根据OpenAI介绍，GPT-4是一个多模态大型语言模型，即支持图像和文本输入，以文本形式输出；扩写能力增强，能处理超过25000个单词的文本.
    OpenAI表示，新模型将产生更少的错误答案，更少地偏离谈话轨道，更少地谈论禁忌话题，甚至在许多标准化测试中比人类表现得更好.
    例如，GPT-4模拟律师考试的成绩在考生中排名前10%左右，在SAT阅读考试中排名前7%左右，在SAT数学考试中排名前11%左右.
    虽然GPT-4更具创造力，并且能够处理更细微的指令，但官方也警告说，这些系统保留了许多与早期语言模型相同的问题，包括编造信息的倾向以及生成暴力和有害文本的能力，尽管如此，用户们还是为之振奋.
    北京商报记者向GPT-4和GPT-3.5中输入“帮我出一个.. 03-15 21:50 ↓ 18 ..UfqiNews