复旦团队造“实验神器”：显微镜秒变高清相机,模型,图像

复旦团队造“实验神器”：显微镜秒变高清相机

+显微镜 +荧光
 +图像增强 -模型
 +高清

04-14 15:40...以及通过染色让本不具有该特性的物质发出荧光，可以观察细胞内物质的吸收、运输、化学物质的分布及定位等。在分辨率方面，它远超普通光学显微镜0.2微米极限，到达观测分子的纳米尺度，是生命科学领域不可或缺的研究工具。自2006年横空出世，荧光显微镜已帮助全球科学家研制出了对帕金森氏症、阿尔茨海默氏症和亨廷顿氏症等神经退行性疾病... 0
CVPR 2024

-图像
 +场景 +文本
 +训练 +区域

04-14 15:20...基于预训练扩散模型进行3D场景编辑的主流方法主要分为两类。其一，是使用图像编辑模型迭代地更新数据集中的图像，但是受限于图像编辑模型的能力，会在部分编辑情形下失效。其二，则是利用分数蒸馏采样（SDS）损失对场景进行编辑，但由于文本和场景之间的对齐问题，这类方法在真实场景中无法直接适配，会对非编辑区域造成不必要的修改，往往... 0
二次元专用超分AI模型APISR：在线可用，入选CVPR

+动漫 -图像
 +分辨率 -模型
 +团队

04-09 01:40...然后再把这些图像连起来嘛！于是他们决定使用基于图像的方法和数据集打造一个适用于图像和视频的统一的超分辨率和恢复框架。新提出的方法面向动漫制作的图像超分辨率（APISR）数据集该团队提出了APISR数据集，这里简单介绍一下其收集整理方法。该方法利用了动漫视频的特点（见图2），可以从视频中选出被压缩最少且信息最丰富的帧。基... 0
值得你花时间看的扩散模型教程，来自普渡大学

+普渡大学 -模型
 +教程 -图像
 +算法

04-06 00:30...生成式AI的惊人增长为文本到图像生成、视频生成领域等许多令人兴奋的应用提供了支持。这些生成工具背后的基本原理是扩散的概念，这是一种特殊的采样机制，克服了以前的方法中被认为难以解决的一些缺点。最近，来自普渡大学的StanleyH.Chan发布了一份扩散模型的教程《TutorialonDiffusionModelsforI... 0
十年内，AI可能彻底改变医疗领域？

+帕德诺 +领域
 +医疗 +医生
 +算法

03-30 03:00...AI应用的风险也不容小觑。AI在医学领域的应用仍有限“我们确信AI将成为临床医疗实践的一部分，目前的挑战在于我们何时能在临床实践中持续应用AI，并找到一种安全应用AI的方式。”帕德诺说，“比如，AI在头颈部肿瘤学领域的应用有限。放射学中的计算机视觉模型是第一个应用于医学的AI算法，是第一批获得FDA批准的AI医疗产品，... 0
Sora神话：迄今最具破坏性的网络威胁？

-模型 +人工智能
 +制作 +物理
 +文本

03-27 17:30...OpenAI将视频片段分解成视觉的“时空补丁”(spacetimepatches)，Sora的转换器架构可以对其进行处理。然而，与任何突破性技术一样，Sora也有自己的局限性。尽管该模型具有先进的功能，但有时仍难以准确模拟更为复杂的场景的物理特性。这可能导致视觉效果虽给人留下深刻印象，但偶尔也会违背物理定律或无法准确呈... 0
多模态大模型Monkey发布升级版

-模型
 +模态 -图像
 +图表 +办公

03-27 15:50...Monkey突破了通用文档理解能力边界。它在场景文字识别、办公文档摘要生成、数学问题问答、文档版式分析、表格理解、图表问答、电子文档关键信息抽取等12项文档权威数据集，以及国际上规模最大的文档图像智能数据集OCRBench上取得显著突破，通用文档理解性能大幅超越现有模型。据介绍，多模态大模型是一类可以同时处理和整合多种... 0
CMU朱俊彦、Adobe新作：512x512图像推理，A100只用0.11秒

+车成
 +烫手山芋 +二手车
 +新能源 -图像

03-23 00:00...他们将vanilla潜在扩散模型的各个模块整合到拥有小的可训练权重的单个端到端生成器网络，从而增强模型保留输入图像结构的能力，同时减少过拟合。研究者推出了CycleGAN-Turbo模型，在未成对设置下，该模型可以在各种场景转换任务中优于现有基于GAN和扩散的方法，比如昼夜转换、添加或移除雾雪雨等天气效果。同时，为了验... 0
苹果AI发展滞后拟联手谷歌脱困

+苹果
 +谷歌 +手机
 +功能 -模型

03-19 19:30...苹果最近也与研发聊天机器人ChatGPT的OpenAI进行了讨论，并在考虑使用该公司的AI模型。美媒报道称，苹果和谷歌在搜索引擎上的多年合作，有望成为促成两者达成协议的基础。多年来，谷歌每年向苹果支付数十亿美元，以使其搜索引擎成为iPhone等设备上Safari网络浏览器的预设选项。不过，报道指出，苹果在6月举行的年度... 0
Sora神话：迄今最具破坏性的网络威胁？

-模型
 +人工智能 +制作
 +物理 +文本

03-19 05:30...OpenAI将视频片段分解成视觉的“时空补丁”(spacetimepatches)，Sora的转换器架构可以对其进行处理。然而，与任何突破性技术一样，Sora也有自己的局限性。尽管该模型具有先进的功能，但有时仍难以准确模拟更为复杂的场景的物理特性。这可能导致视觉效果虽给人留下深刻印象，但偶尔也会违背物理定律或无法准确呈... 0
腾讯、清华大学、港科大，有大动作！

-模型
 +混元 +动作
 +游戏 +领域

03-16 10:50...腾讯混元大模型团队、清华和港科大的联合项目组提出了更实用和可控的图像到视频生成模型Follow-Your-Click，带来更加便捷的交互，也让图片“一键点，万物动”成为现实。据了解，腾讯混元大模型团队，正在持续研究和探索多模态技术，拥有行业领先的视频生成能力。此前，腾讯混元大模型作为技术合作伙伴，支持《人民日报》打造原... 0
跟科幻片一样！OpenAI只用13天给机器人加上了GPT，从此无比“接近人类”

+机器人 +沥水
 -模型 +苹果
 +科幻片

03-14 03:20...到现在面前这个科技感满满的“人形GPT”仅仅用了13天。而且据FigureAI创始人BrattAdcock称，所有这些行为都没有经过远程操作，而是通过机器人的自我学习而来。并且以正常的1.0倍速连续拍摄，没有加速、没有剪辑，所见即所得。可以感受到视频中Figure01的速度已经快要接近人类。具体来看，此次Figure0... 0
OpenAI 机器人炸裂登场！ChatGPT 终于有身体了，能说会看还能做家务

+机器人
 -模型 +模态
 +家务 -图像

03-14 03:10...视频展示了端到端神经网络的应用（end-to-endneuralnetworks）。在此过程中没有使用遥控器（teleop）。视频是以实际速度（1.0倍速）拍摄的，并且是连续不断的。如您在视频中看到的，机器人的速度有了显著的提升，我们正在逐步达到与人类相似的速度。无需遥控，自学成才那么Figure01是怎么做到的呢？F... 12
Claude 3为何能媲美GPT

-模型 +人工智能
 +测试 -图像
 +基准

03-13 20:20...Claude问世，7月Claude2发布，但是彼时并未引起太大的水花。因为每次，Anthropic在性能方面都略微落后于OpenAI的最佳模型，但在上下文窗口长度方面超过OpenAI。随着Claude3的发布，Anthropic的性能或许可以与OpenAI一较高下了。根据Anthropic的说法，Claude3Opus... 12
人工智能赋能原位结构生物学提出冷冻电镜颗粒挑选新方法

 +颗粒 +原位
 +冷冻电 +人工智能
 +生物学

03-13 04:20...原位结构生物学是在接近自然生理状态下研究生物大分子结构和功能的科学，而原位冷冻电镜技术（cryo-electrontomography,Cryo-ET）以其高分辨率和在接近生理条件下观察样品的特点，成为原位结构生物学研究中的关键手段。原位冷冻电镜的技术流程涉及样品制备、数据采集、电子断层重建、颗粒挑选、粒子平均等多个步... 0
视频生成新模型Sora的突破与风险

+人工智能 -模型
 +文本 +领域
 -图像

03-13 02:30...人工智能在视频生成领域的巨大发展前景，为塑造影视产业新业态打开大门，同时恐将颠覆现存影视产业。好莱坞去年遭遇了63年来首次编剧和演员全行业罢工，因为该行业的部分工作机会可能被人工智能取代。Sora横空出世让这一威胁变得更迫近和真切。其面世第二天，主营图像处理、视频制作软件的奥多比公司（Adobe）股价应声下跌超过7%。... 0
科学家尝试打造人工智能“梦境”

+试管婴儿 +全过程
 +女性 -图像
 +神经网络

03-09 03:30...该模型在清醒阶段像普通AI一样接受训练：研究人员将鹦鹉或青蛙的图像输入神经网络。随后，神经网络将人工神经元连接起来，学习识别图像。这样，当它再看到其他包含鹦鹉或青蛙的图像时，就能非常肯定地识别它们。第二步，研究人员通过计算机指令让系统进入一种睡眠状态。他们不再向它展示新图像，而只展示它以前看过的图像。这种重复操作看起来... 0
一句话让图片动起来，苹果发力大模型动画生成，可直接编辑结果

+动画 +结果
 +设计 +编辑器
 +苹果

03-06 00:10...用户还可以通过连续提示和请求LLM生成的设计变体来迭代他们的设计，以在新的设计方向上进行构思。不过，Keyframer尚未公开。之所以做这项研究，苹果表示LLM在动画中的应用尚未得到充分探索，并带来了新的挑战，例如用户如何有效地用自然语言描述运动。现阶段虽然文生图工具如Dall・E和Midjourney等效果出色，但动... 1
复旦等发布AnyGPT：任意模态输入输出，图像、音乐、文本、语音都支持

+模态 -模型
 -图像 +语音
 +文本

03-06 00:00...例如给出一段语音prompt，AnyGPT能够生成语音、图像、音乐形式的综合响应：其中，AnyGPT生成的两段音乐如下：给出文本+图像形式的prompt，AnyGPT能够按照prompt要求生成音乐：其中，AnyGPT生成的三段音乐如下：论文地址：项目主页：方法简介AnyGPT利用离散表征来统一处理各种模态，包括语音、... 1
怒斥Sora之后，LeCun放出「视觉世界模型」论文，揭示AI学习物理世界的关键

-模型
 +世界 +预测器
 -图像 +研究者

03-05 23:40...而等变的世界模型与更好的世界模型微调相关。这就在易适应性和原始性能之间做出了权衡。因此，通过学习世界模型来学习表征，能灵活掌握表征的属性，从而使其成为一个极具吸引力的表征学习框架。接下来，我们来看一些具体的研究细节。方法图像世界模型（ImageWorldModels，IWM）采用JEPA的框架，类似于I-JEPA。该框... 0
谷歌创始人罕见露面：狠批Gemini图像生成功能“翻车得很彻底”

+中华文明 +习近平
 +布林 +谷歌
 -图像

03-05 22:00...布林谈到了AI对搜索行业的影响，以及随着AI的不断发展，谷歌应当如何在其核心市场上保持领先地位。谢尔盖·布林来源：社交媒体布林还对谷歌旗下大模型Gemini的图像生成器工具发表了评论，“我们在图像生成方面搞砸得很彻底，我认为这主要由于没有进行彻底的测试。出发点是好的，但结果却让很多人感到沮丧。”一个月前，谷歌为Gemi... 2
Claude 3为何能媲美GPT

-模型
 +人工智能 +测试
 -图像 +基准

03-05 19:40...Claude问世，7月Claude2发布，但是彼时并未引起太大的水花。因为每次，Anthropic在性能方面都略微落后于OpenAI的最佳模型，但在上下文窗口长度方面超过OpenAI。随着Claude3的发布，Anthropic的性能或许可以与OpenAI一较高下了。根据Anthropic的说法，Claude3Opus... 0

« 1 2 »