上海科技大学、宾夕法尼亚大学、Deemos科技和NeuDim科技的研究人员联合推出了一个创新模型DressCode。
OpenAI正深入探索文本水印技术的前沿领域,然而,该公司坦言,这一创新领域仍面临重重技术挑战与待解难题。
在7月31日于法国巴黎举办的发布会上,阿里巴巴国际站总裁张阔宣布了B2B AI采购搜索引擎的全新发布,并展示了AI生意助手的最新升级。
Wix,这个以网页设计工具闻名的平台,推出了一个新的 AI 功能,允许用户通过用简单的中文描述想要看到的内容来创建和编辑 iOS 或 Android 应用。
Dolphin2.9.1Mixtral1x22b是由Cognitive Computations团队创建的一个多功能文本生成模型。
Lumina-T2X 是一个创新的内容生成系列模型,它采用了统一的 DiT(Diffusion Model)架构,能够通过文本生成图像、视频、多视角3D 对象以及音频剪辑。
科大讯飞的星火大模型V3.5春季上新,一句话声音复刻功能让科技更有温度;推出星火智能体平台,助企业解决大模型应用落地“最后一公里”难题;确定6月27日正式发布讯飞星火V4.0……
4月27日,在2024中关村论坛-未来人工智能先锋论坛上,清华大学联合生数科技正式发布了,中国首个长时间、高一致性、高动态性视频大模型——Vidu。
一种名为Dynamic Typography的创新“动态排版”技术,正在为文本表达开辟新天地。这项技术通过视频扩散先验,将文本字母转化为动画,从而增强语义表达和动态效果。
在最新的研究中,提出了一种名为注意力混合模式(MoA)的新架构,旨在个性化文本到图像扩散模型,可以实现风格参考和人物融合的效果。
在人工智能领域,多模态模型的发展一直是行业关注的焦点。近日,马斯克X AI公司发布了其最新的多模态模型——Grok-1.5Vision,这一模型不仅能够处理文本信息,还能够理解和分析各种视觉数据,如文档、图表、截图和照片,标志着公
日前,360智脑宣布正式内测500万字长文本处理功能。这一功能即将加入360AI 浏览器,同时该浏览器的 APP 也即将上线。
AtomoVideo的使用非常简便,用户只需提供高清图片和简单的文本提示即可在短时间内生成逼真的高清视频,并保留细致的细节。
近日,MyShell公司宣布其多语言、多口音的文本转语音库MeloTTS正式开源。这一消息在开源社区引起了广泛关注。MeloTTS支持的语言包括英语、西班牙语、法语、中文、日语和韩语,为开发人员提供了丰富的选择。
2月29日,著名AI平台Lightricks在官网宣布,推出生成式AI电影制作平台—LTX Studio。
2月28日 消息:近期,针对文本到图像(T2I)生成模型领域中的个性化主题驱动模型,出现了一些令人印象深刻的进展,如 DreamBooth 和 BLIP-Diffusion。然而,这些模型普遍存在着对微调的需求较高和参数规模庞大的限制。
近日,谷歌首席执行官桑达尔·皮查伊在一份内部备忘录中向员工解释了 Gemini AI 生成的历史不准确图像和文本所引发的争议这一备忘录在上周传出,皮查伊在其中承认 Gemini AI 的表现“冒犯了我们的用户并表现出偏见”。
2月1日 消息:Meta联合伦敦大学学院研究院在一项研究中提出了一种全新的文本引导的3D场景编辑方法,被称为ReplaceAnything3D(RAM3D)。这一方法通过引入Erase-and-Replace策略,能够有效地替换场景中的特定对象,实现了文本
随着大模型技术的飞速发展,基于语言和视觉的3D场景编辑方法取得了十足进步,如Instruct-NeRF2NeRF在修改和场景控制方面展示了强大功能。
-------------没有了-------------