腾讯AI实验室联合悉尼大学引入了GPT4Video 提升LLM的视频生成能力_科技魔方-中文AI大模型门户网站

首页 大模型 正文: 腾讯AI实验室联合悉尼大学引入了GPT4Video 提升LLM的视频生成能力; 大模型

2023年12月07日

点赞; 　　最近在多模态大型语言模型(MLLMs)领域取得了显著进展，但在多模态内容生成方面仍存在明显的空白。为了填补这一空白，腾讯AI实验室和悉尼大学的合作引入了GPT4Video，这是一个统一的多模型框架，使得大型语言模型具备了视频理解和生成的独特能力。

　　GPT4Video的主要贡献可以总结如下:引入了GPT4Video，这是一个丰富LLMs能力的多功能框架，既可以进行视频理解，又可以进行生成;提出了一种简单而有效的微调方法，旨在提高视频生成的安全性，为常用的RLHF方法提供了一种吸引人的替代方案;发布了数据集，以促进未来在多模态LLMs领域的研究。

　　GPT4Video是对现有多模态大型语言模型(MLLMs)的局限性的回应，尽管这些模型擅长处理多模态输入，但在生成多模态输出方面存在不足。GPT4Video的架构包括三个重要组件:视频理解模块，利用视频特征提取器和视频摘要器在LLM的词嵌入空间中对视频信息进行编码和对齐。

　　LLM的基本结构，包括词嵌入器、多头自注意力机制和前馈神经网络，用于处理文本信息;视频生成模块，利用视频特征提取器和视频解码器从LLM的词嵌入空间中生成视频;安全微调方法，通过引入安全性目标和生成器的控制策略，提高视频生成的安全性。

　　GPT4Video的引入填补了多模态内容生成领域的空白，并且提供了一种统一的多模型框架，使得大型语言模型具备了视频理解和生成的能力。该研究还提出了一种简单而有效的微调方法，并发布了数据集，为未来的多模态LLMs研究提供了便利。

+1; 腾讯 AI 实验室; 来源：站长之家

延展资讯

: 谷歌发布多模态大模型Gemini 1.0 预计明年初向开发者推出

: OpenAI公布安全系统确保AI大模型安全可靠

: 研究显示图片生成模型比文本生成模型更耗电

: 亚马逊面向企业的 AI 聊天机器人 Amazon Q 或存在严重幻觉和数据泄露问题引发质疑

: AssemblyAI斩获5000万美元融资致力构建通用语音模型

: AI视频聊天应用Call Annie 随时随地和AI视频聊天

最热新闻最新新闻 更多>

用户推荐最热产品 更多>

倾城

小新

张影

创维电视（SKYWORTH）55V40

创维电视（SKYWORTH）55V40

小米全面屏电视E43K

小米全面屏电视E43K

康佳（KONKA）55D6S

康佳（KONKA）55D6S

荣泰S60按摩椅

荣泰S60按摩椅

自媒体头条更多>: 极致听感智能降噪三星Galaxy Buds Pro诠释非同凡“响”

未来科技范试驾摩灵MOi｜视频

品牌专区更多>

产品与服务

联系站长

反馈邮箱

news#keji100.net（发邮件时把#换成@）

重要提醒：本平台未在任何自媒体平台开通账户，特此声明。

关于我们