三星在昨晚的 Galaxy Unpacked 发布会上带来了 Galaxy Z Fold6 / Flip6 等手机新品,两款新机都将内置基于 Android 14的 One UI 6.1.1。
MetaAI的NLLB-200登上Nature,「不让任何一门语言掉队」,能翻译200种语言的大模型获得Nature社论的盛赞——复兴了濒临灭绝的语言,但是Nature研究人员也郑重提醒Meta,必须将使用这些语言的社区也纳入进来,才会真正减缓语言
在CVPR2024上,美国英特尔研究院的蔡志鹏博士及其团队提出了一种名为L-MAGIC(Language Model Assisted Generation of Images with Coherence)的新技术。
NVIDIA 近期提出了一种名为自动引导的新方法,旨在改善扩散模型中图像的质量和变化,而不影响其与给定条件(如类标签或文本提示)的一致性。
近日,研究人员提出了一种名为 Ouroboros3D 的新方法,可以通过递归扩散实现图像到3D 的生成。这项研究集成了多视角图像生成和3D 重建技术,构建了一个统一的3D 生成框架。
经过与GoogleCloud的合作,今日Aria宣布融入了Google的Gemini模型,为其AI浏览器带来了一次重大升级。
SDXLFlash是一个由SDXL团队与Project Fluently合作推出的新型快速高质量文本到图像转换模型。
强大的人工智能模型有时会出现错误,包括虚构错误信息或将他人作品作为自己的。为了解决后者的问题,德克萨斯大学奥斯汀分校的研究团队开发了一种名为 "Ambient Diffusion" 的框架。
谷歌推出了一款名为PaliGemma的开源视觉语言模型,该模型结合了图像处理和语言理解的能力,旨在支持多种视觉语言任务,如图像和短视频字幕生成、视觉问答、图像文本理解、物体检测、文件图表解读以及图像分割等。
OpenAI 发布最新旗舰大模型 GPT-4o,所有用户都可以免费使用!该模型提供了 GPT-4 级别的 AI 能力,接受文本、音频和图像的任意组合输入,并能够生成文本、音频和图像的任意组合输出。
Lumina-T2X 是一个创新的内容生成系列模型,它采用了统一的 DiT(Diffusion Model)架构,能够通过文本生成图像、视频、多视角3D 对象以及音频剪辑。
近期,来自伦敦帝国理工学院和戴尔的研究团队推出了 StyleMamba,这是一种有效的框架,用于转移图片风格,通过使用文本来指导风格化过程,同时保持原始图像内容。
据The Information消息,OpenAI正筹备展示一种革命性的人机对话技术。据可靠消息,这一技术将结合声音和文本,不仅能与用户进行流畅的交流,还具备识别物体和图像的能力,为用户带来前所未有的交互体验。
最近,华为的4K图像模型PixArt-Σ放出了模型文件,而且diffusers也支持了这个架构,用户可以在Comfyui上尝试。
GitHub 上的 fofr/cog-become-image 项目是一个创新的图像转换工具,它能够将任意人物的面部图像转换成另一种风格的图片。这项技术的应用范围非常广泛,包括但不限于艺术创作、媒体制作和娱乐行业。
AdobePhotoshop迎来了一次重大更新,通过集成Adobe Firefly Image3Model,引入了多项新的AI功能,这些功能大幅提升了图像编辑的深度与灵活性。
Adobe 发布了 Firefly 图像生成模型的最新版本,名为 Firefly Image3,声称具有 “摄影细节” 的图像生成能力。
在视频分割领域,Segment Anything 模型(SAM)被用于探索新的视频对象分割技术。研究团队测试了两种不同的模型,旨在结合 SAM 的分割能力和光流技术的优势,以提高视频分割的性能。
今天,Midjourney发布了一个有趣的功能,可以基于提示词生成完全随机的图像风格。使用方式:在提示词后添加 --sref random,如果找到了喜欢的风格可以通过 --sref url 将风格迁移到新图片上。
-------------没有了-------------