MyShell TTS 开发的OpenVoice是一项创新的声音克隆技术,它能够通过仅使用一小段参考发言者的音频片段来复制其声音,并生成多种语言的语音。
AssemblyAI最新研究成果展示了他们的 Universal-1模型在多语言环境中的表现,该模型在准确性和鲁棒性方面均取得了行业领先地位。
最近,多所知名大学和研究机构的研究人员共同提出了 EMAGE 框架,旨在从音频和掩码手势生成全身人类手势。
谷歌近日在 GitHub 页面发布博文,介绍了 VLOGGER AI 模型,用户只需要输入一张肖像照片和一段音频内容,该模型可以让这些人物“动起来”,富有面部表情地朗读音频内容。
OpenAI首席技术官米拉·穆拉蒂(Mira Murati)在接受采访时透露,Sora文生视频工具计划在今年内正式推向公众。此外,OpenAI还计划为Sora加入音频生成功能,进一步丰富视频的场景和情感表达。
成立仅两年的AI音频公司ElevenLabs近日宣布B轮成功融资8000万美元,估值超过10亿美元,成功晋升为独角兽公司。
上海AI实验室、香港中文大学数据科学院、深圳大数据研究院联合开源了一个名为Amphion的音频、音乐和语音生成工具包。
Meta最新发布了Audiobox,这是一款基于语音和自然语言提示生成音频的先进研究模型。通过结合语音输入和文本提示,Audiobox可以轻松生成各种声音,包括语音、音效和音景,从而为多种用例提供定制音频。
神经领域的科学家近日展开了一项神经可塑性(neuroplasticity)方面的研究,发现盲人和视力正常的人使用相同的大脑区域来识别基本面孔,这意味着即便脸型是以音频而不是通过视觉皮层传递的,理论上盲人也能识别。
Stability AI 音频团队负责人 Ed Newton-Rex 在 Twitter 上宣布离职,原因是他不同意公司关于在版权作品上训练生成式人工智能模型属于 “公平使用” 的观点,这一举动引发了不同的反应。
在2023骁龙峰会上,高通技术国际有限公司(Qualcomm Technologies International, Ltd.)宣布推出高通迄今为止最先进的音频平台——面向耳塞、耳机和音箱设计的第一代高通S7和S7 Pro音频平台。
据 Stability AI 官方消息,旗下全新 AI 音频生成产品 Stable Audio 现已发布,提供免费版和专业订阅版两个版本。
苹果正积极围绕Vision Pro打造一个全新的空间计算生态系统,并在积极整合旗下的其他设备。
中金公司 7 月 18 日研报指出,在工业领域,传统AI模型(如数据分析预测、工业视觉等)应用已经相对成熟,但大语言模型(LLM)应用方兴未艾。
近日,《高清无线音频技术与设备规范及测试方法》(以下简称HWA高清无线音频标准,Hi-Res Wireless Audio,标准)正式发布,该标准的发布填补了我国在无线音频技术标准领域的空白。
6月4日消息,据国外媒体报道,当你想跟好友分享你在手机上收听的很棒的新单曲时,你会直接递给他们一个耳塞。
奈飞(Netflix)已经成为全世界最大的版权视频网站(以优质电影电视剧为主),奈飞的成功引发了互联网公司和好莱坞对于网络视频的浓厚兴趣,一个个准备推出新的服务。
2月21日消息,据外媒报道,2011年10月11日,当全世界都在对苹果公司联合创始人史蒂夫·乔布斯(Steve Jobs)趋势铺天盖地表达悼念之情时,一名男子在新加坡出资1.6万美元打出整版报纸广告,向乔布斯致敬。
-------------没有了-------------