2月28日 消息:近期,针对文本到图像(T2I)生成模型领域中的个性化主题驱动模型,出现了一些令人印象深刻的进展,如 DreamBooth 和 BLIP-Diffusion。然而,这些模型普遍存在着对微调的需求较高和参数规模庞大的限制。
2月28日 消息:近日,蚂蚁集团推出20亿参数多模态遥感基础模型SkySense,这是蚂蚁百灵大模型在多模态领域最新的研发成果,其论文已被世界计算机视觉顶会CVPR2024接收。
据路透社报道,当地时间 26 日,谷歌 DeepMind 首席执行官德米斯・哈萨比斯在 MWC 2024 的小组讨论会中表示,“我们已下线 Gemini 的人像生成功能,同时正在修复问题,希望未来几周内重新上线。”
谷歌最新发布了基础世界模型Genie,这一模型拥有110亿参数,能够生成可交互的虚拟世界。Genie的出现让人们看到了人工智能在虚拟世界的无限可能性。
2月22日消息,据外媒报道,当地时间周三,谷歌发布了开源人工智能(AI)模型系列Gemma,以帮助开发人员和研究人员负责任地构建人工智能。
科学家们近日在《Nature Machine Intelligence》杂志上发布了一项关于蛋白质-配体复合物结构预测的研究,由 AI 制药公司 Iambic Therapeutics、英伟达(Nvidia Corporation)和加州理工学院联合开发的新方法被称为 Neura
2月21日 消息:YOLOv8是一种先进的目标检测跟踪模型,它在图像或视频帧中能够快速准确地识别和定位多个对象,并能够跟踪它们的移动,同时将其分类。除了检测对象,YOLOv8还可以区分对象的确切轮廓,进行实例分割、估计人体的姿
2月21日 消息:灵活视觉变换器(FiT)是一种全新的Transformer架构图像生成模型,专门设计用于创造没有分辨率和宽高比限制的图像。
近期,由北京大学、南洋理工大学 S-Lab 和上海人工智能实验室联合研究的团队推出的大型多视角高斯模型(LGM)引起广泛关注。
伴随着生成式深度学习模型的飞速发展,自然语言处理(NLP)和计算机视觉(CV)已经经历了根本性的转变,从有监督训练的专门模型,转变为只需有限的明确指令就能完成各种任务的通用模型。
在信息检索中,创建有效的管道,尤其是使用RAG(Retrieval-Augmented Generation)的管道,可能是相当具有挑战性的。这些管道涉及各种组件,选择检索模型至关重要。
SegMoE是一种无需训练就可以混合多个SD模型组成一个新的模型,类似LLM的MoE模型。据称,他们提供了三个已经混合好的模型,分别由2个SDXL、4个SDXL和4个SD1.5模型组成。
CodeFuse-VLM是一个支持多种视觉模型和语言大模型的框架,用户可以根据自己的需求搭配不同的Vision Encoder和LLM。
2月4日 消息:Google研究团队最近推出了一款名为TimesFM的时间序列预测模型。时间序列预测是一种通过分析过去的数据来预测未来事件发生的方法,广泛应用于商业、金融和科研等多个领域,帮助人们做出更明智的决策。
2月4日 消息:随着近年来大型语言模型(LLMs)在语言处理领域的显著进展,研究人员尝试将这些模型应用于药物发现,以优化相关任务。
2月4日 消息:在人机交互领域存在许多挑战,其中之一是使机器人展示类似于人类的表达行为。传统的基于规则和基于数据的方法在新的社交环境中需要更大的可扩展性,而数据驱动方法受到数据集的限制。
2月2日 消息:Bard已经更新,现在具有生成图片的能力。这一功能由DeepMind的Imagen2图像生成模型提供支持。
最新的Chatbot Arena排行榜显示,Bard成功超越了GPT-4,成为第二名,仅次于GPT-4Turbo。这一消息引发了科技圈的热议和关注。
如今,大型语言模型(LLM)及其高级提示策略的出现,标志着对语言模型的研究取得了重大进展,尤其是在经典的 NLP 任务中。
在最新的研究中,百度提出了一项名为UNIMO-G的统一图像生成框架,旨在克服现有文本到图像扩散模型面临的挑战。传统模型主要根据简洁的文本提示生成图像,但文本描述的简洁性限制了生成复杂细节图像的能力。
-------------没有了-------------