在人工智能领域,多模态模型的发展一直是行业关注的焦点。近日,马斯克X AI公司发布了其最新的多模态模型——Grok-1.5Vision,这一模型不仅能够处理文本信息,还能够理解和分析各种视觉数据,如文档、图表、截图和照片,标志着公
日前,360智脑宣布正式内测500万字长文本处理功能。这一功能即将加入360AI 浏览器,同时该浏览器的 APP 也即将上线。
AtomoVideo的使用非常简便,用户只需提供高清图片和简单的文本提示即可在短时间内生成逼真的高清视频,并保留细致的细节。
近日,MyShell公司宣布其多语言、多口音的文本转语音库MeloTTS正式开源。这一消息在开源社区引起了广泛关注。MeloTTS支持的语言包括英语、西班牙语、法语、中文、日语和韩语,为开发人员提供了丰富的选择。
2月29日,著名AI平台Lightricks在官网宣布,推出生成式AI电影制作平台—LTX Studio。
2月28日 消息:近期,针对文本到图像(T2I)生成模型领域中的个性化主题驱动模型,出现了一些令人印象深刻的进展,如 DreamBooth 和 BLIP-Diffusion。然而,这些模型普遍存在着对微调的需求较高和参数规模庞大的限制。
近日,谷歌首席执行官桑达尔·皮查伊在一份内部备忘录中向员工解释了 Gemini AI 生成的历史不准确图像和文本所引发的争议这一备忘录在上周传出,皮查伊在其中承认 Gemini AI 的表现“冒犯了我们的用户并表现出偏见”。
2月1日 消息:Meta联合伦敦大学学院研究院在一项研究中提出了一种全新的文本引导的3D场景编辑方法,被称为ReplaceAnything3D(RAM3D)。这一方法通过引入Erase-and-Replace策略,能够有效地替换场景中的特定对象,实现了文本
随着大模型技术的飞速发展,基于语言和视觉的3D场景编辑方法取得了十足进步,如Instruct-NeRF2NeRF在修改和场景控制方面展示了强大功能。
1月26日 消息:在大模型时代,清华、港中文、港科广、UIC、北邮联合发布了一篇文本水印综述,全面探讨了大模型与文本水印技术的交融。
1月26日 消息:SUPIR是一个通过增加模型规模来提升图像修复能力的技术,它能够根据文本提示进行智能修复,提高图像修复的质量和智能程度。
在最新的研究中,百度提出了一项名为UNIMO-G的统一图像生成框架,旨在克服现有文本到图像扩散模型面临的挑战。传统模型主要根据简洁的文本提示生成图像,但文本描述的简洁性限制了生成复杂细节图像的能力。
1月23日 消息:人脸身份保持项目InstantID正式发布模型。与PhotoMaker和IP-Adapter-FaceID相比,InstantID实现了更好的保真度并保留了良好的文本可编辑性。这个项目的发布受到了广泛关注,因为它能够更好地融合面孔和样式
1月19日 消息,百度推出的UniVG是一款视频生成模型,其特点在于针对高自由度和低自由度两种任务分别采用不同的生成方式,以更好地平衡两者之间的关系。
1月17日 消息:近年来,文本到图像生成模型的需求不断增长,但高质量图像的生成往往面临资源密集型训练和慢推理的挑战,制约了其实时应用。本文介绍了PIXART-δ,这是PIXART-α框架的先进版本,无缝整合了Latent Consistency Mo
GPTEval3D提供了一个用于评估文本到3D生成模型性能的评估指标。利用OpenAI和PyTorch,它通过ELO评分系统提供了一个全面的框架,用于评估文本到3D生成模型的性能。
北京智源AI研究院、牛津大学、澳大利亚国立大学联合发布了一项研究—3D-GPT,通过文本问答方式就能创建高精准3D模型。
近年来,文本到图像(T2I)模型的快速发展为人工内容生成带来了革命性的变化,这些模型在不到两年的时间内就能够生成高质量、多样性和创造性的图像。
Nvidia与3D软件开发商Masterpiece Studio合作发布了Masterpiece X,旨在通过使3D建模像使用MidJourney或Stable Diffusion创建二维图像一样简单,革新了3D建模领域。
-------------没有了-------------