音频最新相关新闻-科技魔方_中文AI大模型门户网站

音频最新相关新闻

ElevenLabs发布配音API 允许开发者在产品中添加音频或视频翻译功能

ElevenLabs近日发布了配音API，允许开发者在其产品中添加音频或视频翻译功能。利用该API，开发者可以将任意音频或视频翻译成29种语言，并且保留原始发言者声音的独特特征。

站长之家 ElevenLabs音频视频

532

开源版EMO？AniTalker可通过照片加音频生成说话视频

AniTalker是一个创新的开源项目，它能够通过静态肖像画和输入的音频信号生成生动的面部说话视频。

站长之家开源AniTalker音频视频

688

AI音乐应用 Udio 推出音频修复扩展新功能和付费订阅计划

AI 音乐初创公司 Udio 推出了几项新功能，包括音频修复和更长的上下文口，以改善音乐创作体验。Udio 还宣布了新的订阅计划细节。

站长之家 AI音乐应用音乐应用音频

664

Harmonai：一个开源的生成音频工具让每个人都可以轻松制作音乐

Harmonai，由Stability AI Lab支持的开源项目，致力于让音乐制作变得更加容易和有趣。

站长之家 Harmonai开源音频音乐

666

OpenVoice V2版本发布能对声音风格进行精细控制

MyShell TTS 开发的OpenVoice是一项创新的声音克隆技术，它能够通过仅使用一小段参考发言者的音频片段来复制其声音，并生成多种语言的语音。

站长之家声音音频语言大模型

702

AI语音识别工具Universal-1：38秒可以处理60分钟音频比fast Whisper更快

AssemblyAI最新研究成果展示了他们的 Universal-1模型在多语言环境中的表现，该模型在准确性和鲁棒性方面均取得了行业领先地位。

站长之家 AI语音识别音频

597

EMAGE：上传音频就能生成全身动作包括头部、嘴型、身体运动

最近，多所知名大学和研究机构的研究人员共同提出了 EMAGE 框架，旨在从音频和掩码手势生成全身人类手势。

站长之家 EMAGE音频框架

665

谷歌推出多模态VLOGGER AI：让静态肖像图动起来“说话”

谷歌近日在 GitHub 页面发布博文，介绍了 VLOGGER AI 模型，用户只需要输入一张肖像照片和一段音频内容，该模型可以让这些人物“动起来”，富有面部表情地朗读音频内容。

IT之家谷歌大模型图片音频

692

OpenAI首席技术官：Sora或将在今年向大众推出，增加生成音频

OpenAI首席技术官米拉·穆拉蒂(Mira Murati)在接受采访时透露，Sora文生视频工具计划在今年内正式推向公众。此外，OpenAI还计划为Sora加入音频生成功能，进一步丰富视频的场景和情感表达。

热点科技 OpenAISora大模型音频

674

文生音频ElevenLabs融资5亿美元，估值超10亿美元

成立仅两年的AI音频公司ElevenLabs近日宣布B轮成功融资8000万美元，估值超过10亿美元，成功晋升为独角兽公司。

站长之家文生音频ElevenLabs融资

594

上海AI实验室等开源，音频、音乐统一开发工具包Amphion

上海AI实验室、香港中文大学数据科学院、深圳大数据研究院联合开源了一个名为Amphion的音频、音乐和语音生成工具包。

微信公众号 AIGC开放社区 AI实验室音频音乐

691

多模态AI模型Unified-IO2：可理解和生成图像、文本、音频和动作

近期，由艾伦人工智能研究所、伊利诺伊大学厄巴纳-香槟分校和华盛顿大学的研究人员联合开发的“Unified-IO2”标志着人工智能能力的一次巨大飞跃。

站长之家 AI模型图像文本音频

714

Meta发布AI音频模型Audiobox：通过语音和自然语言提示生成音频

Meta最新发布了Audiobox，这是一款基于语音和自然语言提示生成音频的先进研究模型。通过结合语音输入和文本提示，Audiobox可以轻松生成各种声音，包括语音、音效和音景，从而为多种用例提供定制音频。

站长之家 MetaAI音频模型

592

神经可塑性新研究，盲人通过音频也能识别人脸

神经领域的科学家近日展开了一项神经可塑性(neuroplasticity)方面的研究，发现盲人和视力正常的人使用相同的大脑区域来识别基本面孔，这意味着即便脸型是以音频而不是通过视觉皮层传递的，理论上盲人也能识别。

IT之家盲人音频

712

Stability AI 音频负责人因不认同训练材料涉及版权问题辞职

Stability AI 音频团队负责人 Ed Newton-Rex 在 Twitter 上宣布离职，原因是他不同意公司关于在版权作品上训练生成式人工智能模型属于 “公平使用” 的观点，这一举动引发了不同的反应。

站长之家 StabilityAI音频

516

自媒体必备字幕生成工具Videosrt 可批量快速自动生成视频/音频字幕

VideoSrt是一款基于Golang语言，使用lxn/walk Windows-GUI工具包开发的开源软件工具。

站长之家

622

第一代高通S7和S7 Pro音频平台开启全新水平音频体验

在2023骁龙峰会上，高通技术国际有限公司(Qualcomm Technologies International, Ltd.)宣布推出高通迄今为止最先进的音频平台——面向耳塞、耳机和音箱设计的第一代高通S7和S7 Pro音频平台。

科技魔方高通2023骁龙峰会音频

601

Stability AI推出AI音频生成产品Stable Audio

据 Stability AI 官方消息，旗下全新 AI 音频生成产品 Stable Audio 现已发布，提供免费版和专业订阅版两个版本。

DoNews StabilityAI音频

638

USB-C款AirPods Pro为Vision Pro提供无损空间音频体验

苹果正积极围绕Vision Pro打造一个全新的空间计算生态系统，并在积极整合旗下的其他设备。

映维网 USB-CAirPods音频

665

研报显示 AI+3D 模型或成为继 AI+文字/图片/音频/视频后的高门槛的落地场景

中金公司 7 月 18 日研报指出，在工业领域，传统AI模型(如数据分析预测、工业视觉等)应用已经相对成熟，但大语言模型(LLM)应用方兴未艾。

站长之家

608

抢占无线音频产业新机遇，中国率先发布高清无线音频标准

近日，《高清无线音频技术与设备规范及测试方法》(以下简称HWA高清无线音频标准，Hi-Res Wireless Audio，标准)正式发布，该标准的发布填补了我国在无线音频技术标准领域的空白。

中国电子报、电子信息产业网 无线音频无线音频

611

音频消费者调研报告出炉 65%用户看重音质

近日美国科技公司高通发布了《2019全球音频消费者调研报告》。该报告针对全球的6000位16至64岁年龄群的用户进行了调查问卷。

中关村在线音频

326

苹果将推出AirPods音频分享功能：更高科技，更卫生

6月4日消息，据国外媒体报道，当你想跟好友分享你在手机上收听的很棒的新单曲时，你会直接递给他们一个耳塞。

网易科技报道 AirPods更高科技音频

329

新一代iPhone曝光：支持双蓝牙音频连接

今天，日本媒体给出的报道称，苹果下一代iPhone将可能允许用户同时连接两对蓝牙耳机，这一功能类似于三星的双音频功

快科技 iPhone蓝牙音频

525

苹果因iPhone 7音频芯片问题遭到第二起集体起诉

据外媒报道，周一，苹果因所谓的Loop Disease音频芯片问题遭到第二起集体起诉。

腾讯科技 iPhone音频起诉

278

31 1 2 下一页尾页

-------------没有了-------------

图赏更多>

: vivo首批适配Android 15 Beta，引领新一轮技术革新

: 真免费不绑定，声智首推实时语音转写与多语翻译免费开放！

: 快手高德猿力科技爱奇艺等19款生成式人工智能新增备案

: HMD XR21 坚固型手机发布：“换标”版诺基亚 XR21，599.99 欧元

: 荣耀Magic7系列有望年内发布可能与芯片发布提前有关

: OPPO Reno12系列5月23日发布有独占新功能

最热新闻最新新闻 更多>

用户推荐最热产品 更多>

倾城

小新

张影

创维电视（SKYWORTH）55V40

小米全面屏电视E43K

康佳（KONKA）55D6S

荣泰S60按摩椅

自媒体头条更多>: 极致听感智能降噪三星Galaxy Buds Pro诠释非同凡“响”

未来科技范试驾摩灵MOi｜视频

品牌专区更多>