科技魔方
  • 文本最新相关新闻
  • 新一代多模态内容生成模型Lumina-T2X 生成质量更高,成本更低

    Lumina-T2X 是一个创新的内容生成系列模型,它采用了统一的 DiT(Diffusion Model)架构,能够通过文本生成图像、视频、多视角3D 对象以及音频剪辑。

  • 站长之家 大模型文本图像视频
  • 642 0
  • 智谱AI研发国产文生视频模型对标Sora 最快年内发布

    智谱AI正在研发对标 OpenAISora 的高质量文生视频模型,预计最快年内发布。

  • 站长之家 智谱AI大模型文本Sora
  • 608 0
  • 苹果iOS 18或迎AI升级:手机不联网也能分析和生成文本

    一个多月前,苹果公司在官网宣布,将于北京时间6月10日至15日在线举行“年度全球开发者大会”(WWDC)。新闻稿提到,活动旨在展示iOS、iPadOS等一系列操作系统的前沿创新。

    讯飞星火焕新,上线“超级知识助手”,跳出“长文本”混战

    科大讯飞的星火大模型V3.5春季上新,一句话声音复刻功能让科技更有温度;推出星火智能体平台,助企业解决大模型应用落地“最后一公里”难题;确定6月27日正式发布讯飞星火V4.0……

  • ​锌刻度公众号 讯飞星火科大讯飞文本大模型
  • 712 0
  • 中国首个Sora级大模型Vidu:文本生成16秒,1080p高清视频

    4月27日,在2024中关村论坛-未来人工智能先锋论坛上,清华大学联合生数科技正式发布了,中国首个长时间、高一致性、高动态性视频大模型——Vidu。

  • AIGC开放社区公众号 Sora大模型文本视频
  • 540 0
  • “动态排版”技术Dynamic Typography 可将文本字母转化为动画

    一种名为Dynamic Typography的创新“动态排版”技术,正在为文本表达开辟新天地。这项技术通过视频扩散先验,将文本字母转化为动画,从而增强语义表达和动态效果。

  • 站长之家 大模型文本
  • 571 0
  • MoA:用于图片合成的混合注意力架构 可实现风格参考和人物融合

    在最新的研究中,提出了一种名为注意力混合模式(MoA)的新架构,旨在个性化文本到图像扩散模型,可以实现风格参考和人物融合的效果。

  • 站长之家 图片大模型文本图像
  • 514 0
  • 文本生成8K、360度全景世界!Model 3重磅发布

    知名生成式AI平台Blockade Labs在官网重磅发布了全新模型——Model3。

  • AIGC开放社区公众号 大模型文本Model3AI
  • 612 0
  • 马斯克XAI发布Grok-1.5 Vision 多模态模型 可处理文本和图片信息

    在人工智能领域,多模态模型的发展一直是行业关注的焦点。近日,马斯克X AI公司发布了其最新的多模态模型——Grok-1.5Vision,这一模型不仅能够处理文本信息,还能够理解和分析各种视觉数据,如文档、图表、截图和照片,标志着公

  • 站长之家 马斯克大模型文本图片
  • 615 0
  • 报道称百度文心一言即将免费开放200万 -500万长文本能力

    据《科创板日报》报道,该报记者从知情人士获悉百度即将免费开放200万 -500万长文本能力。

  • 站长之家 百度文心一言文本
  • 538 0
  • 360智脑内测500万字长文本处理功能 将引入360AI 浏览器
    360智脑内测500万字长文本处理功能 将引入360AI 浏览器

    日前,360智脑宣布正式内测500万字长文本处理功能。这一功能即将加入360AI 浏览器,同时该浏览器的 APP 也即将上线。

    阿里推AtomoVideo文本+图片生视频模型,媲美Gen-2和Pika

    AtomoVideo的使用非常简便,用户只需提供高清图片和简单的文本提示即可在短时间内生成逼真的高清视频,并保留细致的细节。

  • 站长之家 阿里AtomoVideo文本
  • 535 0
  • MyShell多语言、多口音文本转语音库MeloTTS开源

    近日,MyShell公司宣布其多语言、多口音的文本转语音库MeloTTS正式开源。这一消息在开源社区引起了广泛关注。MeloTTS支持的语言包括英语、西班牙语、法语、中文、日语和韩语,为开发人员提供了丰富的选择。

  • 站长之家 文本大模型
  • 533 0
  • 比Sora惊艳!文本生成超25秒视频,带背景音乐、转场等效果

    2月29日,著名AI平台Lightricks在官网宣布,推出生成式AI电影制作平台—LTX Studio。

  • ​AIGC开放社区公众号 Sora文本视频
  • 525 0
  • 个性化扩散模型微调方法DiffuseKronA:个性化扩散模型微调方法,大幅减少参数、合成高质量图像

    2月28日 消息:近期,针对文本到图像(T2I)生成模型领域中的个性化主题驱动模型,出现了一些令人印象深刻的进展,如 DreamBooth 和 BLIP-Diffusion。然而,这些模型普遍存在着对微调的需求较高和参数规模庞大的限制。

  • 站长之家 模型大模型文本图像
  • 517 0
  • 谷歌CEO表示 Gemini AI 多样性错误“完全不可接受”

    近日,谷歌首席执行官桑达尔·皮查伊在一份内部备忘录中向员工解释了 Gemini AI 生成的历史不准确图像和文本所引发的争议这一备忘录在上周传出,皮查伊在其中承认 Gemini AI 的表现“冒犯了我们的用户并表现出偏见”。

  • 站长之家 谷歌GeminiAI文本
  • 549 0
  • 替换万物3D!Meta 推ReplaceAnything3D可用文本引导3D场景编辑

    2月1日 消息:Meta联合伦敦大学学院研究院在一项研究中提出了一种全新的文本引导的3D场景编辑方法,被称为ReplaceAnything3D(RAM3D)。这一方法通过引入Erase-and-Replace策略,能够有效地替换场景中的特定对象,实现了文本

  • 站长之家 3DReplaceAnything3D文本
  • 548 0
  • 文本直接在3D场景中生成对象,谷歌推出InseRF模型

    随着大模型技术的飞速发展,基于语言和视觉的3D场景编辑方法取得了十足进步,如Instruct-NeRF2NeRF在修改和场景控制方面展示了强大功能。

  • 微信公众号 AIGC开放社区 文本3D
  • 554 0
  • 清华、北邮等联合发布首个大模型时代下的文本水印综述

    1月26日 消息:在大模型时代,清华、港中文、港科广、UIC、北邮联合发布了一篇文本水印综述,全面探讨了大模型与文本水印技术的交融。

  • 站长之家 清华北邮大模型文本
  • 705 0
  • AI图像高清修复工具SUPIR 可根据文本提示智能修复

    1月26日 消息:SUPIR是一个通过增加模型规模来提升图像修复能力的技术,它能够根据文本提示进行智能修复,提高图像修复的质量和智能程度。

  • 站长之家 AI图像SUPIR文本
  • 647 0
  • 百度推多模态模型UNIMO-G 支持还原图片ID

    在最新的研究中,百度提出了一项名为UNIMO-G的统一图像生成框架,旨在克服现有文本到图像扩散模型面临的挑战。传统模型主要根据简洁的文本提示生成图像,但文本描述的简洁性限制了生成复杂细节图像的能力。

  • 站长之家 百度模型文本视频
  • 666 0
  • InstantID模型发布 相比PhotoMaker保留了良好的文本可编辑性

    1月23日 消息:人脸身份保持项目InstantID正式发布模型。与PhotoMaker和IP-Adapter-FaceID相比,InstantID实现了更好的保真度并保留了良好的文本可编辑性。这个项目的发布受到了广泛关注,因为它能够更好地融合面孔和样式

  • 站长之家 InstantID模型文本
  • 675 0
  • 百度推出视频生成模型UniVG 可处理各种文本和图像的组合输入

    1月19日 消息,百度推出的UniVG是一款视频生成模型,其特点在于针对高自由度和低自由度两种任务分别采用不同的生成方式,以更好地平衡两者之间的关系。

  • 站长之家 百度模型文本视频
  • 559 0
  • 新文生图模型PIXART-δ:引入ControlNet,加速文本生成图像生成

    1月17日 消息:近年来,文本到图像生成模型的需求不断增长,但高质量图像的生成往往面临资源密集型训练和慢推理的挑战,制约了其实时应用。本文介绍了PIXART-δ,这是PIXART-α框架的先进版本,无缝整合了Latent Consistency Mo

  • 站长之家 模型文本图像
  • 679 0
  • 文本到3D生成评估器GPTEval3D 让GPT-4对生成的3D模型打分

    GPTEval3D提供了一个用于评估文本到3D生成模型性能的评估指标。利用OpenAI和PyTorch,它通过ELO评分系统提供了一个全面的框架,用于评估文本到3D生成模型的性能。

  • 站长之家 文本3DGPTEval3D
  • 669 0
  • -------------没有了-------------

    图赏更多>