ElevenLabs近日发布了配音API,允许开发者在其产品中添加音频或视频翻译功能。利用该API,开发者可以将任意音频或视频翻译成29种语言,并且保留原始发言者声音的独特特征。
AniTalker是一个创新的开源项目,它能够通过静态肖像画和输入的音频信号生成生动的面部说话视频。
AI 音乐初创公司 Udio 推出了几项新功能,包括音频修复和更长的上下文口,以改善音乐创作体验。Udio 还宣布了新的订阅计划细节。
Harmonai,由Stability AI Lab支持的开源项目,致力于让音乐制作变得更加容易和有趣。
MyShell TTS 开发的OpenVoice是一项创新的声音克隆技术,它能够通过仅使用一小段参考发言者的音频片段来复制其声音,并生成多种语言的语音。
AssemblyAI最新研究成果展示了他们的 Universal-1模型在多语言环境中的表现,该模型在准确性和鲁棒性方面均取得了行业领先地位。
最近,多所知名大学和研究机构的研究人员共同提出了 EMAGE 框架,旨在从音频和掩码手势生成全身人类手势。
谷歌近日在 GitHub 页面发布博文,介绍了 VLOGGER AI 模型,用户只需要输入一张肖像照片和一段音频内容,该模型可以让这些人物“动起来”,富有面部表情地朗读音频内容。
OpenAI首席技术官米拉·穆拉蒂(Mira Murati)在接受采访时透露,Sora文生视频工具计划在今年内正式推向公众。此外,OpenAI还计划为Sora加入音频生成功能,进一步丰富视频的场景和情感表达。
成立仅两年的AI音频公司ElevenLabs近日宣布B轮成功融资8000万美元,估值超过10亿美元,成功晋升为独角兽公司。
上海AI实验室、香港中文大学数据科学院、深圳大数据研究院联合开源了一个名为Amphion的音频、音乐和语音生成工具包。
Meta最新发布了Audiobox,这是一款基于语音和自然语言提示生成音频的先进研究模型。通过结合语音输入和文本提示,Audiobox可以轻松生成各种声音,包括语音、音效和音景,从而为多种用例提供定制音频。
神经领域的科学家近日展开了一项神经可塑性(neuroplasticity)方面的研究,发现盲人和视力正常的人使用相同的大脑区域来识别基本面孔,这意味着即便脸型是以音频而不是通过视觉皮层传递的,理论上盲人也能识别。
Stability AI 音频团队负责人 Ed Newton-Rex 在 Twitter 上宣布离职,原因是他不同意公司关于在版权作品上训练生成式人工智能模型属于 “公平使用” 的观点,这一举动引发了不同的反应。
在2023骁龙峰会上,高通技术国际有限公司(Qualcomm Technologies International, Ltd.)宣布推出高通迄今为止最先进的音频平台——面向耳塞、耳机和音箱设计的第一代高通S7和S7 Pro音频平台。
据 Stability AI 官方消息,旗下全新 AI 音频生成产品 Stable Audio 现已发布,提供免费版和专业订阅版两个版本。
苹果正积极围绕Vision Pro打造一个全新的空间计算生态系统,并在积极整合旗下的其他设备。
中金公司 7 月 18 日研报指出,在工业领域,传统AI模型(如数据分析预测、工业视觉等)应用已经相对成熟,但大语言模型(LLM)应用方兴未艾。
近日,《高清无线音频技术与设备规范及测试方法》(以下简称HWA高清无线音频标准,Hi-Res Wireless Audio,标准)正式发布,该标准的发布填补了我国在无线音频技术标准领域的空白。
6月4日消息,据国外媒体报道,当你想跟好友分享你在手机上收听的很棒的新单曲时,你会直接递给他们一个耳塞。
-------------没有了-------------