音频最新相关新闻-科技魔方_中文AI大模型门户网站

音频最新相关新闻

蚂蚁集团推EchoMimic：可通过音频和面部标志生成逼真肖像动画

EchoMimic的稳定性和自然度是它的两大杀手锏。

站长之家 蚂蚁集团EchoMimic音频动画

656

AI音频“扛把子”刚上谷歌V2A！第一个视频+音频全自动AI工具，完全开源免费

　　这几天的视频生成AI一经推出就好评不断。无论是Runaway新模型Gen-3 Alpha，还是Luma AI推出的Dream Machine，都有着逼真的画面、多样的电影叙事手法，艺术气息拉满。　　目前

乌鸦智能说 AI音频音频视频开源

645

开源音频模型Stable Audio Open，文本生成47秒高清音效

6月6日，著名开源大模型平台Stability.ai在官网宣布，开源最新文生音频模型Stable Audio Open。

AIGC开放社区公众号开源音频大模型

575

Canalys：24Q1个人智能音频设备出货量增长6%

国际科技市场分析机构Canalys最新报告显示，2024年第一季度，全球个人智能音频设备市场呈回暖的迹象，同比增长6%，出货量超9,000万台。

Donews Canalys智能音频音频

631

ElevenLabs推出创新AI音频模型可生成各种音效

ElevenLabs最近推出了一款创新的AI音频模型，这一技术允许用户仅通过文本提示就能生成各种音效、短乐器曲目、音景和各种角色声音。

站长之家 ElevenLabs音频大模型

703

Udio推出新的udio-130音乐生成模型：可生成两分钟音频

日前，udio 宣布推出新的udio-130音乐生成模型，可以生成2分钟的音频这一功能使得创作具有长期连贯性和结构的音轨变得更加容易。

站长之家 Udio大模型模型音频

603

iPhone 7系列用户可获苹果赔偿：音频问题终得解决

近日，一场关于iPhone7和iPhone7Plus音频问题的集体诉讼案终于落下帷幕。

站长之家 iPhone7苹果音频

554

ElevenLabs发布配音API 允许开发者在产品中添加音频或视频翻译功能

ElevenLabs近日发布了配音API，允许开发者在其产品中添加音频或视频翻译功能。利用该API，开发者可以将任意音频或视频翻译成29种语言，并且保留原始发言者声音的独特特征。

站长之家 ElevenLabs音频视频

541

开源版EMO？AniTalker可通过照片加音频生成说话视频

AniTalker是一个创新的开源项目，它能够通过静态肖像画和输入的音频信号生成生动的面部说话视频。

站长之家开源AniTalker音频视频

705

AI音乐应用 Udio 推出音频修复扩展新功能和付费订阅计划

AI 音乐初创公司 Udio 推出了几项新功能，包括音频修复和更长的上下文口，以改善音乐创作体验。Udio 还宣布了新的订阅计划细节。

站长之家 AI音乐应用音乐应用音频

682

Harmonai：一个开源的生成音频工具让每个人都可以轻松制作音乐

Harmonai，由Stability AI Lab支持的开源项目，致力于让音乐制作变得更加容易和有趣。

站长之家 Harmonai开源音频音乐

672

OpenVoice V2版本发布能对声音风格进行精细控制

MyShell TTS 开发的OpenVoice是一项创新的声音克隆技术，它能够通过仅使用一小段参考发言者的音频片段来复制其声音，并生成多种语言的语音。

站长之家声音音频语言大模型

715

AI语音识别工具Universal-1：38秒可以处理60分钟音频比fast Whisper更快

AssemblyAI最新研究成果展示了他们的 Universal-1模型在多语言环境中的表现，该模型在准确性和鲁棒性方面均取得了行业领先地位。

站长之家 AI语音识别音频

607

EMAGE：上传音频就能生成全身动作包括头部、嘴型、身体运动

最近，多所知名大学和研究机构的研究人员共同提出了 EMAGE 框架，旨在从音频和掩码手势生成全身人类手势。

站长之家 EMAGE音频框架

669

谷歌推出多模态VLOGGER AI：让静态肖像图动起来“说话”

谷歌近日在 GitHub 页面发布博文，介绍了 VLOGGER AI 模型，用户只需要输入一张肖像照片和一段音频内容，该模型可以让这些人物“动起来”，富有面部表情地朗读音频内容。

IT之家谷歌大模型图片音频

698

OpenAI首席技术官：Sora或将在今年向大众推出，增加生成音频

OpenAI首席技术官米拉·穆拉蒂(Mira Murati)在接受采访时透露，Sora文生视频工具计划在今年内正式推向公众。此外，OpenAI还计划为Sora加入音频生成功能，进一步丰富视频的场景和情感表达。

热点科技 OpenAISora大模型音频

683

文生音频ElevenLabs融资5亿美元，估值超10亿美元

成立仅两年的AI音频公司ElevenLabs近日宣布B轮成功融资8000万美元，估值超过10亿美元，成功晋升为独角兽公司。

站长之家文生音频ElevenLabs融资

604

上海AI实验室等开源，音频、音乐统一开发工具包Amphion

上海AI实验室、香港中文大学数据科学院、深圳大数据研究院联合开源了一个名为Amphion的音频、音乐和语音生成工具包。

微信公众号 AIGC开放社区 AI实验室音频音乐

697

多模态AI模型Unified-IO2：可理解和生成图像、文本、音频和动作

近期，由艾伦人工智能研究所、伊利诺伊大学厄巴纳-香槟分校和华盛顿大学的研究人员联合开发的“Unified-IO2”标志着人工智能能力的一次巨大飞跃。

站长之家 AI模型图像文本音频

722

Meta发布AI音频模型Audiobox：通过语音和自然语言提示生成音频

Meta最新发布了Audiobox，这是一款基于语音和自然语言提示生成音频的先进研究模型。通过结合语音输入和文本提示，Audiobox可以轻松生成各种声音，包括语音、音效和音景，从而为多种用例提供定制音频。

站长之家 MetaAI音频模型

601

神经可塑性新研究，盲人通过音频也能识别人脸

神经领域的科学家近日展开了一项神经可塑性(neuroplasticity)方面的研究，发现盲人和视力正常的人使用相同的大脑区域来识别基本面孔，这意味着即便脸型是以音频而不是通过视觉皮层传递的，理论上盲人也能识别。

IT之家盲人音频

718

Stability AI 音频负责人因不认同训练材料涉及版权问题辞职

Stability AI 音频团队负责人 Ed Newton-Rex 在 Twitter 上宣布离职，原因是他不同意公司关于在版权作品上训练生成式人工智能模型属于 “公平使用” 的观点，这一举动引发了不同的反应。

站长之家 StabilityAI音频

520

自媒体必备字幕生成工具Videosrt 可批量快速自动生成视频/音频字幕

VideoSrt是一款基于Golang语言，使用lxn/walk Windows-GUI工具包开发的开源软件工具。

站长之家

626

第一代高通S7和S7 Pro音频平台开启全新水平音频体验

在2023骁龙峰会上，高通技术国际有限公司(Qualcomm Technologies International, Ltd.)宣布推出高通迄今为止最先进的音频平台——面向耳塞、耳机和音箱设计的第一代高通S7和S7 Pro音频平台。

科技魔方高通2023骁龙峰会音频

612

Stability AI推出AI音频生成产品Stable Audio

据 Stability AI 官方消息，旗下全新 AI 音频生成产品 Stable Audio 现已发布，提供免费版和专业订阅版两个版本。

DoNews StabilityAI音频

643

38 1 2 下一页尾页

-------------没有了-------------

图赏更多>

: 2024上半年集成厨电市场总结：踏平坎坷成大道，斗罢艰险又出发

: 2024上半年水家电市场总结：在不确定中寻找增长的必然解

: 国潮加持下的性能狂飙丨神凝 DDR5 系列马甲内存

: 死侍限量版小米 POCO F6 5G 手机真机曝光

: 2024首届人工智能先进技术成果供需对接大会成果展举行

: 真我燃爆2024 ChinaJoy，现场体验游戏神机真我GT6

最热新闻最新新闻 更多>

用户推荐最热产品 更多>

倾城

小新

张影

创维电视（SKYWORTH）55V40

小米全面屏电视E43K

康佳（KONKA）55D6S

荣泰S60按摩椅

自媒体头条更多>: 极致听感智能降噪三星Galaxy Buds Pro诠释非同凡“响”

未来科技范试驾摩灵MOi｜视频

品牌专区更多>