科技魔方
  • 图像最新相关新闻
  • Meta新模型NLLB获Nature盛赞,200种濒危语言高质量翻译,「不让任何语言掉队」

    MetaAI的NLLB-200登上Nature,「不让任何一门语言掉队」,能翻译200种语言的大模型获得Nature社论的盛赞——复兴了濒临灭绝的语言,但是Nature研究人员也郑重提醒Meta,必须将使用这些语言的社区也纳入进来,才会真正减缓语言

  • 新智元公众号 Meta大模型图像语言
  • 571 0
  • 阿里图片编辑项目MimicBrush 可通过AI技术完美融合两张图片

    MimicBrush是阿里巴巴推出的一款创新的图片编辑项目,它通过先进的AI技术,能够将一张图片的某一部分融合到另一张图片上。这项技术在电商商品展示、图片编辑和内容迁移等多个领域具有广泛的应用潜力。

  • 站长之家 阿里图片AI技术图像
  • 641 0
  • 英特尔团队提出L-MAGIC新技术 通过结合语言模型让图像扩散模型生成高质量360度场景

    在CVPR2024上,美国英特尔研究院的蔡志鹏博士及其团队提出了一种名为L-MAGIC(Language Model Assisted Generation of Images with Coherence)的新技术。

  • 站长之家 英特尔大模型图像模型
  • 526 0
  • NVIDIA 自动引导技术:改善扩散模型中的图像质量和变化

    NVIDIA 近期提出了一种名为自动引导的新方法,旨在改善扩散模型中图像的质量和变化,而不影响其与给定条件(如类标签或文本提示)的一致性。

  • 站长之家 Nvidia大模型图像
  • 684 0
  • 即梦全量上线实时画布功能 简单涂抹加提示词即可生成定制形状的图像

    今天,即梦(前身为剪映Dreamina)官方宣布全量上线实时画布功能,目前,所有人都可以免费体验。

  • 站长之家 即梦画布图像大模型
  • 637 0
  • Ouroboros3D:通过3D感知实现图像到3D的生成

    近日,研究人员提出了一种名为 Ouroboros3D 的新方法,可以通过递归扩散实现图像到3D 的生成。这项研究集成了多视角图像生成和3D 重建技术,构建了一个统一的3D 生成框架。

  • 站长之家 Ouroboros3D图像大模型
  • 558 0
  • 用GPT-3.5生成数据集!北大天工等团队图像编辑新SOTA,可精准模拟物理世界场景

    高质量图像编辑的方法有很多,但都很难准确表达出真实的物理世界。

  • 量子位公众号 GPT-4大模型图像
  • 566 0
  • Aria搭载Google Gemini:用于图像生成和语音功能

    经过与GoogleCloud的合作,今日Aria宣布融入了Google的Gemini模型,为其AI浏览器带来了一次重大升级。

  • 站长之家 Aria图像大模型
  • 543 0
  • 新SDXL蒸馏模型SDXL Flash 速度相对LCM更慢些图像质量更好

    SDXLFlash是一个由SDXL团队与Project Fluently合作推出的新型快速高质量文本到图像转换模型。

  • 站长之家 大模型模型图像
  • 686 0
  • AI图案生成器Ideogram Tile:文本生成无缝重复的图案

    人工智能初创公司 Ideogram 以其先进的文本转图像生成功能而闻名,如今宣布其平台迎来重大升级:Ideogram Tile。这一新功能允许用户从单个文本提示中创建无缝重复的图案,为设计师、艺术家和企业开辟了无限可能。

    AI 框架Ambient Diffusion:从图像中获取灵感,而非复制

    强大的人工智能模型有时会出现错误,包括虚构错误信息或将他人作品作为自己的。为了解决后者的问题,德克萨斯大学奥斯汀分校的研究团队开发了一种名为 "Ambient Diffusion" 的框架。

    谷歌发布开源视觉语言模型PaliGemma 支持多视觉语言任务

    谷歌推出了一款名为PaliGemma的开源视觉语言模型,该模型结合了图像处理和语言理解的能力,旨在支持多种视觉语言任务,如图像和短视频字幕生成、视觉问答、图像文本理解、物体检测、文件图表解读以及图像分割等。

  • 站长之家 谷歌大模型语言图像
  • 582 0
  • OpenAI 发布最新旗舰大模型 GPT-4o
    OpenAI 发布最新旗舰大模型 GPT-4o

    OpenAI 发布最新旗舰大模型 GPT-4o,所有用户都可以免费使用!该模型提供了 GPT-4 级别的 AI 能力,接受文本、音频和图像的任意组合输入,并能够生成文本、音频和图像的任意组合输出。

  • Donews OpenAI大模型图像
  • 663 0
  • 新一代多模态内容生成模型Lumina-T2X 生成质量更高,成本更低

    Lumina-T2X 是一个创新的内容生成系列模型,它采用了统一的 DiT(Diffusion Model)架构,能够通过文本生成图像、视频、多视角3D 对象以及音频剪辑。

  • 站长之家 大模型文本图像视频
  • 649 0
  • StyleMamba:一种高效的文本驱动图像风格转换的ai模型

    近期,来自伦敦帝国理工学院和戴尔的研究团队推出了 StyleMamba,这是一种有效的框架,用于转移图片风格,通过使用文本来指导风格化过程,同时保持原始图像内容。

  • 站长之家 StyleMamba大模型图像
  • 662 0
  • OpenAI开发全新AI人机对话技术 支持识别物体和图像

    据The Information消息,OpenAI正筹备展示一种革命性的人机对话技术。据可靠消息,这一技术将结合声音和文本,不仅能与用户进行流畅的交流,还具备识别物体和图像的能力,为用户带来前所未有的交互体验。

  • 站长之家 OpenAIAI人机对话图像
  • 570 0
  • 华为PixArt-Σ放出模型文件 可在Comfyui使用

    最近,华为的4K图像模型PixArt-Σ放出了模型文件,而且diffusers也支持了这个架构,用户可以在Comfyui上尝试。

  • 站长之家 华为图像大模型
  • 556 0
  • Cog-Become-Image:将任意人物图像转换成指定风格的图

    GitHub 上的 fofr/cog-become-image 项目是一个创新的图像转换工具,它能够将任意人物的面部图像转换成另一种风格的图片。这项技术的应用范围非常广泛,包括但不限于艺术创作、媒体制作和娱乐行业。

  • 站长之家 图像大模型
  • 606 0
  • 新ID保持项目PuLID:图像背景、光线、风格等均保持高度一致

    PuLID是一个新兴的ID保持项目,它在提升ID保持效果的同时,还致力于最小化对原始模型的影响。

  • 站长之家 图像大模型模型
  • 704 0
  • Photoshop重大更新!集成Adobe Firefly Image 3 Model 图像灵活度提升

    AdobePhotoshop迎来了一次重大更新,通过集成Adobe Firefly Image3Model,引入了多项新的AI功能,这些功能大幅提升了图像编辑的深度与灵活性。

  • 站长之家 PhotoshopAdobe图像大模型
  • 616 0
  • Adobe发布新一代图像生成模型Firefly Image3,号称迄今为止最好

    Adobe 发布了 Firefly 图像生成模型的最新版本,名为 Firefly Image3,声称具有 “摄影细节” 的图像生成能力。

  • 站长之家 Adobe图像大模型
  • 528 0
  • 新视频分割技术SAM 可高效识别移动物体

    在视频分割领域,Segment Anything 模型(SAM)被用于探索新的视频对象分割技术。研究团队测试了两种不同的模型,旨在结合 SAM 的分割能力和光流技术的优势,以提高视频分割的性能。

  • 站长之家 视频大模型图像
  • 551 0
  • Midjourney发布random功能 可基于提示词生成完全随机的图像风格

    今天,Midjourney发布了一个有趣的功能,可以基于提示词生成完全随机的图像风格。使用方式:在提示词后添加 --sref random,如果找到了喜欢的风格可以通过 --sref url 将风格迁移到新图片上。

  • 站长之家 Midjourney图像大模型
  • 608 0
  • 字节跳动发布图像模型蒸馏算法Hyper-SD 推理速度更快更完美

    字节跳动的Lightning团队发布的新图像模型蒸馏算法Hyper-SD,是一项在图像处理和机器学习领域的重要进展。这项技术通过创新的方法提升了模型在不同推理步骤下的性能,同时保持了模型大小的精简。

     68    1 2 3 下一页 尾页

    -------------没有了-------------

    图赏更多>