据报道,月之暗面公司正式宣布推出其全新的SOTA(state-of-the-art)模型k1.5多模态思考模型,在多模态推理和通用推理能力上都实现了突破。
在多模态任务中,视觉语言模型(VLMs)起着至关重要的作用,如图像检索、图像说明和医学诊断等。这些模型的目标是将视觉数据与语言数据进行对齐,以实现更高效的信息处理。然而,目前的 VLMs 在理解否定方面仍面临重大挑战。
阿里巴巴 Qwen 团队近日发布了题为《数学推理中过程奖励模型的开发经验教训》的论文,并推出了 Qwen2.5-Math-PRM 系列中的两个新模型,分别具有7B 和72B 参数。
从上海人工智能实验室获悉,其书生大模型今日获得重要版本升级 —— 书生 浦语 3.0(InternLM3)。据官方介绍,其通过精炼数据框架大幅提升了数据效率,实现思维密度的跃升。
北京月之暗面科技有限公司宣布全新多模态图片理解模型moonshot-v1-vision-preview正式发布,该模型完善了moonshot-v1模型系列的多模态能力,助力Kimi更好地理解世界。
阿联酋穆罕默德・本・扎耶德人工智能大学推出的LlamaV-o1模型在多模态人工智能领域树立了新的基准,特别是在复杂文本和图像推理任务中展现了卓越的性能。
南京大学研究团队与字节跳动、西南大学联合推出的STAR技术,通过文本到视频模型实现视频超分辨率处理,显著提升低分辨率视频质量。
微软在Hugging Face平台上发布了小型语言模型Phi-4,参数量为140亿,表现优异,超越了多款知名模型如GPT-4o和Llama-3.1。
阿里巴巴达摩院最近推出的SHMT模型,利用潜在扩散模型实现化妆效果的精准转移,已被国际顶级学术会议NeurIPS2024接收。
在科技迅速发展的背景下,NVIDIA推出的ChipAlign旨在解决大型语言模型(LLM)在芯片设计领域的挑战。
微软研究团队推出的“大型行动模型”(LAM)是一项突破性的人工智能技术,能够自主执行Windows程序,超越传统AI的对话能力。
TANGOFLUX是一款革命性的文本音频生成模型,能够在短短3.7秒内生成高达30秒的高质量音频,展现出卓越的性能和效率。
OpenAI最新发布的模型o3在ARC-AGI基准测试中取得了显著成绩,标准计算条件下得分75.7%,高计算版本更是达到87.5%。
随着人工智能技术的快速发展,OpenAI推出的o3模型在能耗和环境影响方面引发了广泛关注。
-------------没有了-------------