值得你花时间看的扩散模型教程，来自普渡大学,图像,模型

值得你花时间看的扩散模型教程，来自普渡大学

+普渡大学 -模型
 +教程 -图像
 +算法

04-06 00:30...生成式AI的惊人增长为文本到图像生成、视频生成领域等许多令人兴奋的应用提供了支持。这些生成工具背后的基本原理是扩散的概念，这是一种特殊的采样机制，克服了以前的方法中被认为难以解决的一些缺点。最近，来自普渡大学的StanleyH.Chan发布了一份扩散模型的教程《TutorialonDiffusionModelsforI... 0
多模态大模型Monkey发布升级版

-模型
 +模态 -图像
 +图表 +办公

03-27 15:50...Monkey突破了通用文档理解能力边界。它在场景文字识别、办公文档摘要生成、数学问题问答、文档版式分析、表格理解、图表问答、电子文档关键信息抽取等12项文档权威数据集，以及国际上规模最大的文档图像智能数据集OCRBench上取得显著突破，通用文档理解性能大幅超越现有模型。据介绍，多模态大模型是一类可以同时处理和整合多种... 0
CMU朱俊彦、Adobe新作：512x512图像推理，A100只用0.11秒

+车成
 +烫手山芋 +二手车
 +新能源 -图像

03-23 00:00...他们将vanilla潜在扩散模型的各个模块整合到拥有小的可训练权重的单个端到端生成器网络，从而增强模型保留输入图像结构的能力，同时减少过拟合。研究者推出了CycleGAN-Turbo模型，在未成对设置下，该模型可以在各种场景转换任务中优于现有基于GAN和扩散的方法，比如昼夜转换、添加或移除雾雪雨等天气效果。同时，为了验... 0
Claude 3为何能媲美GPT

-模型 +人工智能
 +测试 -图像
 +基准

03-13 20:20...Claude问世，7月Claude2发布，但是彼时并未引起太大的水花。因为每次，Anthropic在性能方面都略微落后于OpenAI的最佳模型，但在上下文窗口长度方面超过OpenAI。随着Claude3的发布，Anthropic的性能或许可以与OpenAI一较高下了。根据Anthropic的说法，Claude3Opus... 12
怒斥Sora之后，LeCun放出「视觉世界模型」论文，揭示AI学习物理世界的关键

-模型
 +世界 +预测器
 -图像 +研究者

03-05 23:40...而等变的世界模型与更好的世界模型微调相关。这就在易适应性和原始性能之间做出了权衡。因此，通过学习世界模型来学习表征，能灵活掌握表征的属性，从而使其成为一个极具吸引力的表征学习框架。接下来，我们来看一些具体的研究细节。方法图像世界模型（ImageWorldModels，IWM）采用JEPA的框架，类似于I-JEPA。该框... 0
Claude 3为何能媲美GPT

-模型
 +人工智能 +测试
 -图像 +基准

03-05 19:40...Claude问世，7月Claude2发布，但是彼时并未引起太大的水花。因为每次，Anthropic在性能方面都略微落后于OpenAI的最佳模型，但在上下文窗口长度方面超过OpenAI。随着Claude3的发布，Anthropic的性能或许可以与OpenAI一较高下了。根据Anthropic的说法，Claude3Opus... 0
深度拆解 Sora：技术的惊喜与失望，「世界模型」的可能与想象｜此话当真 EP19

-模型 +深度
 +世界 +数据
 +真格

02-28 23:40...时间轴03:05SoraVSVideoPoet：胜在时长和分辨率05:02语言模型规模扩大之后：走向多模态基础模型的一大步10:06Sora的核心贡献：高质量的数据集12:25新近研究结果：超长transformer或可在成本增长可控的情况下实现17:37CompressionNetwork为什么重要？学习空间的生成逻... 0
AI模型“生成不了白人”，谷歌高级副总裁道歉

 -图像 +谷歌
 -模型 +白人
 +副总裁

02-26 18:40...有用户认为，该模型在生成图像的过程中存在“反白人”问题。对此，谷歌称，将暂时停止Gemini运行生成人物图像的功能。当地时间2月23日，拉加万在谷歌博客网站发文称，“很明显，该功能未能达到预期效果，生成的一些图像不准确或者甚至令人不快。我们感谢用户的反馈，对该功能未能很好发挥作用感到抱歉”。“当我们在Gemini中设置... 0
揭秘Sora：用大语言模型的方法理解视频

 -模型
 +文本 +语言
 +技术 -图像

02-18 02:30...这是一个能够根据文本指令或静态图像生成长达1分钟视频的扩散模型，而且视频中还包含精细复杂的场景、生动的角色表情以及复杂的镜头运动——它做到了目前市面上视频模型做不到的东西。那么Sora是如何做到的？在中，我们曾第一时间基于仅有的信息给出了一个判断：简单粗暴的理解，就是语言能力足够强大之后，它带来的泛化能力直接可以学习图... 0
浙商证券：OpenAI&谷歌相继发力有望引领多模态大模型浪潮

-模型
 +证券 +模态
 +谷歌 +文本

02-17 02:50...OpenAI发布Sora文生视频模型，可生成最长一分钟视频北京时间2024年2月16日，OpenAI发布文生视频模型Sora，可遵循用户的指示生成长达一分钟的视频，并保持视觉质量。Sora能够生成包含多个角色、特定类型的动作以及主体和背景的准确细节的复杂场景。在OpenAI官网上可看到多个由Sora模型生成的视频案例，... 0
奥尔特曼选取网友提示词，用OpenAI新款大模型Sora生成视频

-模型 +视觉
 -图像 +新款
 +文本

02-16 16:00...同时保证视觉质量和符合用户提示的要求。OpenAI创始人兼CEOSamAltman（奥尔特曼）太会玩了，让网友评论回复Prompt（大语言模型中的提示词），他选一些用Sora生成视频。截至发稿，奥尔特曼连发多条根据网友提示词生成的视频，包括不同动物在海上进行自行车比赛、发布自制面疙瘩烹饪教学视频的祖母、两只金毛犬在山顶... 0
生成速度快SDXL一倍，9GB GPU也能运行，Stable Cascade来搞性价比了

+军哥 +读点
 +大学生 -图像
 -模型

02-16 15:00...图源：用户@AIWarper尝试了一些不同的艺术家风格测试。prompt：NightmareonElmStreet。艺术家风格参考如下：左上为MakotoShinkai，左下为TomerHanuka，右上为RaphaelKirchner，右下为TakatoYamamoto。不过，生成人物面部时可以发现，人物的皮肤细节并... 0
OpenAI推出文本转视频AI模型Sora：允许创建长达一分钟逼真视频

 +文本
 -模型 +场景
 +人工智能 -图像

02-16 14:40...Sora能够创建具有多个角色、特定运动类型以及主题和背景的准确细节的复杂场景。该公司还指出，该模型可以理解物体在物理世界中如何存在，以及准确地解释道具并生成引人注目的角色来表达充满活力的情感。该模型还可以基于静止图像生成视频，以及填充现有视频上缺失的帧或扩展它。OpenAI博客文章中包含的Sora生成的演示包括淘金热期... 0
Stability AI 推出新一代文生图模型 Stable Cascade

-模型 +文生
 +新闻稿 +官方
 +声称

02-15 21:50...号称可以在消费级硬件上进行简单的训练和微调。▲图源StabilityAI官方新闻稿（下同）官方声称，相对于业界熟悉的SDXL，全新的StableCascade模型在性能及声称内容质量上均有所提升，目前StableCascade模型的相关数据已经在GitHub页面上公开，但仅允许非商业用途使用。IT之家注意到，在用户输入... 0
“垂直领域大模型论坛”分享合合信息智能文档处理技术

-模型
 +合合 +领域
 +智能 +技术

01-05 19:10...文字字体、颜色多样等因素的影响，文档图像智能分析与理解能力的大幅度提升面临着挑战。合合信息智能技术平台事业部副总经理、高级工程师丁凯博士，在此次论坛上分享，“在智能文档处理领域，大模型支持识别和理解的文档元素类型，远超传统算法，大幅度拓展了AI技术在文档分析与识别领域的能力边界，端到端实现了文档从识别到理解的全过程。不... 1
Midjourney V6刷屏，但它最可怕的地方居然不是那些神图？

-模型
 +能力 +语言
 +连贯性 -图像

12-25 07:20...而B说的“我去！”在这里则表示惊讶，能够准确理解这个对话，就叫连贯性。它确保了模型在处理用户哪怕很复杂的指令输入时，也能够逻辑一致地响应。Midjourneyv6生成，李奥纳多在网飞出演电视剧的海报，图片源自reddit这两个自然语言能力上的改进，Midjourney具体是如何做的？在跟随能力方面的改进，主要基于三个方... 0
谷歌发布最新大模型

 +谷歌 -模型
 +模态 +得分率
 +能力

12-16 16:10...将包括三种不同的套件：GeminiUltra、GeminiPro和GeminiNano。其中Ultra的能力最强，复杂度最高，能够处理最为困难的任务；Pro能力稍弱，可以用来处理多任务；Nano则更注重于端侧的处理能力。和市面上现有大模型相比，Gemini从一开始就被创建为多模态的模型。因为从最初的预训练数据开始，Ge... 0
逐浪AIGC丨谷歌大模型终于迈开大步 Gemini对决GPT

+谷歌
 -模型 +模态
 +测试 +皮查伊

12-08 22:00...是人工智能发展的一个重要里程碑，也是谷歌新时代的开始。超越GPT-4？据谷歌DeepMind首席执行官黛米斯·哈萨比斯（DemisHassabis）介绍，Gemini是由谷歌团队从头开始构建的多模态模型，这意味着它可以概括并无缝理解、处理不同类型的信息，包括文本、代码、音频、图像和视频。在性能测试上，GeminiUlt... 0
首超人类专家！OpenAI“混乱”之际，谷歌多模态大模型Gemini“大杀四方”

+古逸
 +沧海遗珠 +人物画
 +世纪 -模型

12-07 23:10...也是我们今年早些时候成立GoogleDeepMind时的愿景的首次实现。他还对未来以及Gemini将为全世界的人们带来的机遇感到由衷的兴奋。具体来讲，Gemini是包括GoogleResearch在内的Google各团队间进行广泛合作的成果。它从一开始就被创建为多模态的模型，这意味着它可以归纳并流畅地理解、操作以及组合... 0
SDXL Turbo、LCM相继发布，AI画图进入实时生成时代：字打多快，出图就有多快

-模型 -图像
 +画图 +方法
 +论文

11-30 08:00...获得了2fps的风格迁移画面：据官方博客介绍，在A100上，SDXLTurbo可在207毫秒内生成512x512图像（即时编码+单个去噪步骤+解码，fp16），其中单个UNet前向评估占用了67毫秒。如此，我们可以判断，文生图已经进入「实时」时代。这样的「即时生成」效率，与前不久爆火的清华LCM模型看起来有些相似，但是... 0
AIGC行业报告：从文生图到文生视频，技术框架与商业化

+反诈
 +重阳节 +锦囊
 +量身 +老人

11-22 09:40...逐步优化过程。CLIP：实现文本和图像特征提取和映射，训练效果依赖大规模数据集CLIP（ContrastiveLanguage-imagePre-training）是基于对比学习的文本-图像跨模态预训练模型，由文本编码器（TextEncoder）和图像编码器（ImageEncoder）组成，编码器分别对文本和图像进行特... 1
集成大模型，或者被大模型集成

-模型
 +插件 +开发者
 +用户数 +创业者

11-08 11:10...-GPT-4Turbo：支持相当于300多页文本的上下文输入、支持图像和语音的输入输出、更多更精细的控制选项，调用价格便宜约，速度提升；-ChatGPTAllTools：ChatGPT会自动选择合适的插件、工具执行任务。去年11月30日OpenAI推出ChatGPT，两个月后（今年1月），用户数超过1亿；3月，Open... 0

« 1 2 »