Google Photos 即将推出一项名为 Ask Photos 的实验性功能,该功能利用 AI 模型 Gemini,允许用户通过自然语言搜索来查找照片和视频,并辅助完成相关任务。
Midjourney团队在最近的工作时间透露了他们在视频模型、3D模型、实时生成效果以及网站和模型开发方面的最新进展。以下是他们透露的关键信息:
ElevenLabs近日发布了配音API,允许开发者在其产品中添加音频或视频翻译功能。利用该API,开发者可以将任意音频或视频翻译成29种语言,并且保留原始发言者声音的独特特征。
Lumina-T2X 是一个创新的内容生成系列模型,它采用了统一的 DiT(Diffusion Model)架构,能够通过文本生成图像、视频、多视角3D 对象以及音频剪辑。
AniTalker是一个创新的开源项目,它能够通过静态肖像画和输入的音频信号生成生动的面部说话视频。
Stability AI 终于将其生成式 AI 技术应用于文本和视频内容的 Discord平台上。
KreaAI 正式发布了其最新的视频生成功能,这一更新包括了自定义视频首尾帧和为每张图片定义提示词的能力。
最近,remini粘土风的图片在全网风靡。也有不少网友借助一些工具,将多张粘土图片转为了粘土风格视频。昨天,抖音上一条把旅行 Vlog 处理成黏土风格的视频爆了。
Sora视频生成器发布后不久,就被网友发现存在物理交互的bug,例如模型对物理世界的理解不足,导致小狗走路时前腿出现不自然的交错问题。
Steerable Motion是一个用于通过批次图像控制视频的ComfyUI节点,其设计目标是提供最佳质量和最精确的方法来引导视频模型的进化。
国内著名大模型开源公司潞晨科技,对其开源文生视频模型Open-Sora进行了大更新,现在可生成16秒,分辨率高达720P的视频。
今日,OPPO Find X7全新配色白日梦想家”正式开售,提供12GB 256GB、16GB 256GB、16GB 512GB三种配置,起售价分别为3999元、4299元、4599元。
生数科技与清华大学在中关村论坛未来人工智能先锋论坛上共同发布了中国首个长时长、高一致性、高动态性视频大模型——Vidu。
OpenAI 在二月份推出的视频生成工具Sora引起了 AI 社区的广泛关注。Sora 展示出的流畅、逼真的视频似乎远远领先于竞争对手。然而,Sora 的首次亮相隐藏了一些重要细节。
4月27日,在2024中关村论坛-未来人工智能先锋论坛上,清华大学联合生数科技正式发布了,中国首个长时间、高一致性、高动态性视频大模型——Vidu。
在深度学习领域,扩散模型(DMs)作为生成建模的前沿方法已经得到广泛应用。然而,DMs 的一个关键缺点是其较慢的采样速度,这主要是由于需要通过大型神经网络进行多次顺序函数评估。
Open-Sora在开源社区悄悄更新了,现在,该项目不仅支持长达16秒的单镜头视频生成,而且视频分辨率最高可达720p,能够处理各种宽高比的文本到图像、文本到视频、图像到视频、视频到视频以及无限长视频的生成需求。
Twelve Labs最新发布了 Pegasus-1的公测版本,这款视频 - 语言基础模型在视频理解领域取得了新突破。
在视频分割领域,Segment Anything 模型(SAM)被用于探索新的视频对象分割技术。研究团队测试了两种不同的模型,旨在结合 SAM 的分割能力和光流技术的优势,以提高视频分割的性能。
用户可以直接在PR内调用Sora、Pika、Runway等第三方AI视频模型,来生成视频片段。
VSR(Video Subtitle Remover)是一款基于AI技术的工具,专门用于从视频和图片中去除硬编码的字幕和文本水印。这个工具能在不损失图像分辨率的情况下,清除视频或图片中的不需要的文字信息。
-------------没有了-------------