科技魔方
  • 音频最新相关新闻
  • 蚂蚁集团推EchoMimic:可通过音频和面部标志生成逼真肖像动画

    EchoMimic的稳定性和自然度是它的两大杀手锏。

    AI音频“扛把子”刚上谷歌V2A!第一个视频+音频全自动AI工具,完全开源免费
    AI音频“扛把子”刚上谷歌V2A!第一个视频+音频全自动AI工具,完全开源免费

      这几天的视频生成AI一经推出就好评不断。无论是Runaway新模型Gen-3 Alpha,还是Luma AI推出的Dream Machine,都有着逼真的画面、多样的电影叙事手法,艺术气息拉满。  目前

  • 乌鸦智能说 AI音频音频视频开源
  • 645 0
  • 开源音频模型Stable Audio Open,文本生成47秒高清音效

    6月6日,著名开源大模型平台Stability.ai在官网宣布,开源最新文生音频模型Stable Audio Open。

  • AIGC开放社区公众号 开源音频大模型
  • 575 0
  • Canalys:24Q1个人智能音频设备出货量增长6%
    Canalys:24Q1个人智能音频设备出货量增长6%

    国际科技市场分析机构Canalys最新报告显示,2024年第一季度,全球个人智能音频设备市场呈回暖的迹象,同比增长6%,出货量超9,000万台。

    ElevenLabs推出创新AI音频模型 可生成各种音效

    ElevenLabs最近推出了一款创新的AI音频模型,这一技术允许用户仅通过文本提示就能生成各种音效、短乐器曲目、音景和各种角色声音。

  • 站长之家 ElevenLabs音频大模型
  • 703 0
  • Udio推出新的udio-130音乐生成模型:可生成两分钟音频

    日前,udio 宣布推出新的udio-130音乐生成模型,可以生成2分钟的音频这一功能使得创作具有长期连贯性和结构的音轨变得更加容易。

  • 站长之家 Udio大模型模型音频
  • 603 0
  • iPhone 7系列用户可获苹果赔偿:音频问题终得解决

    近日,一场关于iPhone7和iPhone7Plus音频问题的集体诉讼案终于落下帷幕。

  • 站长之家 iPhone7苹果音频
  • 554 0
  • ElevenLabs发布配音API 允许开发者在产品中添加音频或视频翻译功能

    ElevenLabs近日发布了配音API,允许开发者在其产品中添加音频或视频翻译功能。利用该API,开发者可以将任意音频或视频翻译成29种语言,并且保留原始发言者声音的独特特征。

  • 站长之家 ElevenLabs音频视频
  • 541 0
  • 开源版EMO?AniTalker可通过照片加音频生成说话视频

    AniTalker是一个创新的开源项目,它能够通过静态肖像画和输入的音频信号生成生动的面部说话视频。

  • 站长之家 开源AniTalker音频视频
  • 705 0
  • AI音乐应用 Udio 推出音频修复扩展新功能和付费订阅计划

    AI 音乐初创公司 Udio 推出了几项新功能,包括音频修复和更长的上下文口,以改善音乐创作体验。Udio 还宣布了新的订阅计划细节。

    Harmonai:一个开源的生成音频工具 让每个人都可以轻松制作音乐

    Harmonai,由Stability AI Lab支持的开源项目,致力于让音乐制作变得更加容易和有趣。

  • 站长之家 Harmonai开源音频音乐
  • 672 0
  • OpenVoice V2版本发布 能对声音风格进行精细控制

    MyShell TTS 开发的OpenVoice是一项创新的声音克隆技术,它能够通过仅使用一小段参考发言者的音频片段来复制其声音,并生成多种语言的语音。

  • 站长之家 声音音频语言大模型
  • 715 0
  • AI语音识别工具Universal-1:38秒可以处理60分钟音频 比fast Whisper更快
    AI语音识别工具Universal-1:38秒可以处理60分钟音频 比fast Whisper更快

    AssemblyAI最新研究成果展示了他们的 Universal-1模型在多语言环境中的表现,该模型在准确性和鲁棒性方面均取得了行业领先地位。

  • 站长之家 AI语音识别音频
  • 607 0
  • EMAGE:上传音频就能生成全身动作 包括头部、嘴型、身体运动

    最近,多所知名大学和研究机构的研究人员共同提出了 EMAGE 框架,旨在从音频和掩码手势生成全身人类手势。

  • 站长之家 EMAGE音频框架
  • 669 0
  • 谷歌推出多模态VLOGGER AI:让静态肖像图动起来“说话”
    谷歌推出多模态VLOGGER AI:让静态肖像图动起来“说话”

    谷歌近日在 GitHub 页面发布博文,介绍了 VLOGGER AI 模型,用户只需要输入一张肖像照片和一段音频内容,该模型可以让这些人物“动起来”,富有面部表情地朗读音频内容。

    OpenAI首席技术官:Sora或将在今年向大众推出,增加生成音频

    OpenAI首席技术官米拉·穆拉蒂(Mira Murati)在接受采访时透露,Sora文生视频工具计划在今年内正式推向公众。此外,OpenAI还计划为Sora加入音频生成功能,进一步丰富视频的场景和情感表达。

  • 热点科技 OpenAISora大模型音频
  • 683 0
  • 文生音频ElevenLabs融资5亿美元,估值超10亿美元

    成立仅两年的AI音频公司ElevenLabs近日宣布B轮成功融资8000万美元,估值超过10亿美元,成功晋升为独角兽公司。

  • 站长之家 文生音频ElevenLabs融资
  • 604 0
  • 上海AI实验室等开源,音频、音乐统一开发工具包Amphion

    上海AI实验室、香港中文大学数据科学院、深圳大数据研究院联合开源了一个名为Amphion的音频、音乐和语音生成工具包。

  • 微信公众号 AIGC开放社区 AI实验室音频音乐
  • 697 0
  • 多模态AI模型Unified-IO2:可理解和生成图像、文本、音频和动作

    近期,由艾伦人工智能研究所、伊利诺伊大学厄巴纳-香槟分校和华盛顿大学的研究人员联合开发的“Unified-IO2”标志着人工智能能力的一次巨大飞跃。

  • 站长之家 AI模型图像文本音频
  • 722 0
  • Meta发布AI音频模型Audiobox:通过语音和自然语言提示生成音频
    Meta发布AI音频模型Audiobox:通过语音和自然语言提示生成音频

    Meta最新发布了Audiobox,这是一款基于语音和自然语言提示生成音频的先进研究模型。通过结合语音输入和文本提示,Audiobox可以轻松生成各种声音,包括语音、音效和音景,从而为多种用例提供定制音频。

  • 站长之家 MetaAI音频模型
  • 601 0
  • 神经可塑性新研究,盲人通过音频也能识别人脸

    神经领域的科学家近日展开了一项神经可塑性(neuroplasticity)方面的研究,发现盲人和视力正常的人使用相同的大脑区域来识别基本面孔,这意味着即便脸型是以音频而不是通过视觉皮层传递的,理论上盲人也能识别。

  • IT之家 盲人音频
  • 718 0
  • Stability AI 音频负责人因不认同训练材料涉及版权问题辞职

    Stability AI 音频团队负责人 Ed Newton-Rex 在 Twitter 上宣布离职,原因是他不同意公司关于在版权作品上训练生成式人工智能模型属于 “公平使用” 的观点,这一举动引发了不同的反应。

  • 站长之家 StabilityAI音频
  • 520 0
  • 自媒体必备字幕生成工具Videosrt 可批量快速自动生成视频/音频字幕

    VideoSrt是一款基于Golang语言,使用lxn/walk Windows-GUI工具包开发的开源软件工具。

  • 站长之家
  • 626 0
  • 第一代高通S7和S7 Pro音频平台开启全新水平音频体验
    第一代高通S7和S7 Pro音频平台开启全新水平音频体验

    在2023骁龙峰会上,高通技术国际有限公司(Qualcomm Technologies International, Ltd.)宣布推出高通迄今为止最先进的音频平台——面向耳塞、耳机和音箱设计的第一代高通S7和S7 Pro音频平台。

  • 科技魔方 高通2023骁龙峰会音频
  • 612 0
  • Stability AI推出AI音频生成产品Stable Audio

    据 Stability AI 官方消息,旗下全新 AI 音频生成产品 Stable Audio 现已发布,提供免费版和专业订阅版两个版本。

  • DoNews StabilityAI音频
  • 643 0
  • -------------没有了-------------

    图赏更多>