-
04-06 00:30...生成式AI的惊人增长为文本到图像生成、视频生成领域等许多令人兴奋的应用提供了支持。这些生成工具背后的基本原理是扩散的概念,这是一种特殊的采样机制,克服了以前的方法中被认为难以解决的一些缺点。最近,来自普渡大学的StanleyH.Chan发布了一份扩散模型的教程《TutorialonDiffusionModelsforI... 0
-
03-27 15:50...Monkey突破了通用文档理解能力边界。它在场景文字识别、办公文档摘要生成、数学问题问答、文档版式分析、表格理解、图表问答、电子文档关键信息抽取等12项文档权威数据集,以及国际上规模最大的文档图像智能数据集OCRBench上取得显著突破,通用文档理解性能大幅超越现有模型。据介绍,多模态大模型是一类可以同时处理和整合多种... 0
-
03-23 00:00...他们将vanilla潜在扩散模型的各个模块整合到拥有小的可训练权重的单个端到端生成器网络,从而增强模型保留输入图像结构的能力,同时减少过拟合。研究者推出了CycleGAN-Turbo模型,在未成对设置下,该模型可以在各种场景转换任务中优于现有基于GAN和扩散的方法,比如昼夜转换、添加或移除雾雪雨等天气效果。同时,为了验... 0
-
03-13 20:20...Claude问世,7月Claude2发布,但是彼时并未引起太大的水花。因为每次,Anthropic在性能方面都略微落后于OpenAI的最佳模型,但在上下文窗口长度方面超过OpenAI。随着Claude3的发布,Anthropic的性能或许可以与OpenAI一较高下了。根据Anthropic的说法,Claude3Opus... 12
-
03-05 23:40...而等变的世界模型与更好的世界模型微调相关。这就在易适应性和原始性能之间做出了权衡。因此,通过学习世界模型来学习表征,能灵活掌握表征的属性,从而使其成为一个极具吸引力的表征学习框架。接下来,我们来看一些具体的研究细节。方法图像世界模型(ImageWorldModels,IWM)采用JEPA的框架,类似于I-JEPA。该框... 0
-
03-05 19:40...Claude问世,7月Claude2发布,但是彼时并未引起太大的水花。因为每次,Anthropic在性能方面都略微落后于OpenAI的最佳模型,但在上下文窗口长度方面超过OpenAI。随着Claude3的发布,Anthropic的性能或许可以与OpenAI一较高下了。根据Anthropic的说法,Claude3Opus... 0
-
-
02-28 23:40...时间轴03:05SoraVSVideoPoet:胜在时长和分辨率05:02语言模型规模扩大之后:走向多模态基础模型的一大步10:06Sora的核心贡献:高质量的数据集12:25新近研究结果:超长transformer或可在成本增长可控的情况下实现17:37CompressionNetwork为什么重要?学习空间的生成逻... 0
-
02-26 18:40...有用户认为,该模型在生成图像的过程中存在“反白人”问题。对此,谷歌称,将暂时停止Gemini运行生成人物图像的功能。当地时间2月23日,拉加万在谷歌博客网站发文称,“很明显,该功能未能达到预期效果,生成的一些图像不准确或者甚至令人不快。我们感谢用户的反馈,对该功能未能很好发挥作用感到抱歉”。“当我们在Gemini中设置... 0
-
02-18 02:30...这是一个能够根据文本指令或静态图像生成长达1分钟视频的扩散模型,而且视频中还包含精细复杂的场景、生动的角色表情以及复杂的镜头运动——它做到了目前市面上视频模型做不到的东西。那么Sora是如何做到的?在中,我们曾第一时间基于仅有的信息给出了一个判断:简单粗暴的理解,就是语言能力足够强大之后,它带来的泛化能力直接可以学习图... 0
-
02-17 02:50...OpenAI发布Sora文生视频模型,可生成最长一分钟视频北京时间2024年2月16日,OpenAI发布文生视频模型Sora,可遵循用户的指示生成长达一分钟的视频,并保持视觉质量。Sora能够生成包含多个角色、特定类型的动作以及主体和背景的准确细节的复杂场景。在OpenAI官网上可看到多个由Sora模型生成的视频案例,... 0
-
02-16 16:00...同时保证视觉质量和符合用户提示的要求。OpenAI创始人兼CEOSamAltman(奥尔特曼)太会玩了,让网友评论回复Prompt(大语言模型中的提示词),他选一些用Sora生成视频。截至发稿,奥尔特曼连发多条根据网友提示词生成的视频,包括不同动物在海上进行自行车比赛、发布自制面疙瘩烹饪教学视频的祖母、两只金毛犬在山顶... 0
-
02-16 15:00...图源:用户@AIWarper尝试了一些不同的艺术家风格测试。prompt:NightmareonElmStreet。艺术家风格参考如下:左上为MakotoShinkai,左下为TomerHanuka,右上为RaphaelKirchner,右下为TakatoYamamoto。不过,生成人物面部时可以发现,人物的皮肤细节并... 0
-
-
02-16 14:40...Sora能够创建具有多个角色、特定运动类型以及主题和背景的准确细节的复杂场景。该公司还指出,该模型可以理解物体在物理世界中如何存在,以及准确地解释道具并生成引人注目的角色来表达充满活力的情感。该模型还可以基于静止图像生成视频,以及填充现有视频上缺失的帧或扩展它。OpenAI博客文章中包含的Sora生成的演示包括淘金热期... 0
-
02-15 21:50...号称可以在消费级硬件上进行简单的训练和微调。▲图源StabilityAI官方新闻稿(下同)官方声称,相对于业界熟悉的SDXL,全新的StableCascade模型在性能及声称内容质量上均有所提升,目前StableCascade模型的相关数据已经在GitHub页面上公开,但仅允许非商业用途使用。IT之家注意到,在用户输入... 0
-
01-05 19:10...文字字体、颜色多样等因素的影响,文档图像智能分析与理解能力的大幅度提升面临着挑战。合合信息智能技术平台事业部副总经理、高级工程师丁凯博士,在此次论坛上分享,“在智能文档处理领域,大模型支持识别和理解的文档元素类型,远超传统算法,大幅度拓展了AI技术在文档分析与识别领域的能力边界,端到端实现了文档从识别到理解的全过程。不... 1
-
12-25 07:20...而B说的“我去!”在这里则表示惊讶,能够准确理解这个对话,就叫连贯性。它确保了模型在处理用户哪怕很复杂的指令输入时,也能够逻辑一致地响应。Midjourneyv6生成,李奥纳多在网飞出演电视剧的海报,图片源自reddit这两个自然语言能力上的改进,Midjourney具体是如何做的?在跟随能力方面的改进,主要基于三个方... 0
-
12-16 16:10...将包括三种不同的套件:GeminiUltra、GeminiPro和GeminiNano。其中Ultra的能力最强,复杂度最高,能够处理最为困难的任务;Pro能力稍弱,可以用来处理多任务;Nano则更注重于端侧的处理能力。和市面上现有大模型相比,Gemini从一开始就被创建为多模态的模型。因为从最初的预训练数据开始,Ge... 0
-
12-08 22:00...是人工智能发展的一个重要里程碑,也是谷歌新时代的开始。超越GPT-4?据谷歌DeepMind首席执行官黛米斯·哈萨比斯(DemisHassabis)介绍,Gemini是由谷歌团队从头开始构建的多模态模型,这意味着它可以概括并无缝理解、处理不同类型的信息,包括文本、代码、音频、图像和视频。在性能测试上,GeminiUlt... 0
-
-
12-07 23:10...也是我们今年早些时候成立GoogleDeepMind时的愿景的首次实现。他还对未来以及Gemini将为全世界的人们带来的机遇感到由衷的兴奋。具体来讲,Gemini是包括GoogleResearch在内的Google各团队间进行广泛合作的成果。它从一开始就被创建为多模态的模型,这意味着它可以归纳并流畅地理解、操作以及组合... 0
-
11-30 08:00...获得了2fps的风格迁移画面:据官方博客介绍,在A100上,SDXLTurbo可在207毫秒内生成512x512图像(即时编码+单个去噪步骤+解码,fp16),其中单个UNet前向评估占用了67毫秒。如此,我们可以判断,文生图已经进入「实时」时代。这样的「即时生成」效率,与前不久爆火的清华LCM模型看起来有些相似,但是... 0
-
11-22 09:40...逐步优化过程。CLIP:实现文本和图像特征提取和映射,训练效果依赖大规模数据集CLIP(ContrastiveLanguage-imagePre-training)是基于对比学习的文本-图像跨模态预训练模型,由文本编码器(TextEncoder)和图像编码器(ImageEncoder)组成,编码器分别对文本和图像进行特... 1
-
11-08 11:10...-GPT-4Turbo:支持相当于300多页文本的上下文输入、支持图像和语音的输入输出、更多更精细的控制选项,调用价格便宜约,速度提升;-ChatGPTAllTools:ChatGPT会自动选择合适的插件、工具执行任务。去年11月30日OpenAI推出ChatGPT,两个月后(今年1月),用户数超过1亿;3月,Open... 0
-
-
-
本页Url:
-
2024-04-30-19:47 GMT . 添加到桌面浏览更方便.
-