在当前的人工智能领域,Anthropic公司推出了新型token计数API,旨在帮助开发者更好地管理语言模型中的token使用,提升交互效率和控制能力。
Moondream推出的moondream2是一款性能出色的紧凑型视觉语言模型,仅有16亿参数,可在智能手机等小型设备上运行。
AMD公司于 10 月 31 日发布博文,宣布推出首个完全开放的 10 亿参数语言模型系列 AMD OLMo,为开发者和研究人员提供强大的 AI 研究工具。
FLUX1.1Pro 迎来重大更新,推出全新版本 FLUX1.1Pro Ultra,支持高达4兆像素的分辨率,生成速度大幅提升,每张图片仅需约10秒完成。
Stability AI最近推出了全新的深度学习文本到图像生成模型Stable Diffusion3.5,包括三种改进的开源模型,满足不同用户需求。
VQAScore是一个利用视觉问答模型来评估由文本提示生成的图像质量的新方法;GenAI-Bench是一个包含复杂文本提示的基准测试集,用于挑战和提升现有的图像生成模型。
Moonshine 是一款开源语音识别模型,设计更高效处理音频数据,特别适合短音频片段,支持离线运行,消耗更少计算资源。
Hugging Face今天发布了SmolLM2,一组新的紧凑型语言模型,实现了令人印象深刻的性能,同时所需的计算资源比大型模型少得多。
最新曝光的OpenAI o1模型被称为OpenAI最强大的模型,具备处理大量文本和分析图像的能力,特别适合高级推理和创造性任务。 预计完整版将在今年晚些时候推出,引起了人工智
Anthropic公司最新推出的Claude3.5Sonnet模型增加了PDF文件处理功能,用户可以通过该模型分析PDF文档中的文本和视觉元素,包括图像、图表和表格等,适用于多种场景。
大模型(LLM)如GPT、Llama等在人工智能领域掀起了革命,但高效训练符合人类价值观仍是难题。
趣丸科技发布了名为MaskGCT的全新语音合成(TTS)模型,彻底颠覆了传统TTS模型的玩法,实现了自学成才,不再依赖人工标注。
字节跳动最新开发的PersonaTalk AI模型实现了视频精准配音,声音与嘴型完美同步,保留人物原有特点,让视频更真实自然。
OpenAI将在ChatGPT发布两周年之际12月左右,推出传说中的大模型——Orion(猎户座)。
OmniGen是一款全新的图像生成模型,与以往工具不同的是,它具备多种能力,包括文本到图像生成、图像编辑等,用户只需提供简单提示词即可控制图像生成与精细编辑,无需使用ControlNe等插件。
今天凌晨,OpenAI发布了全新扩散模型方法sCM,仅需2步就能生成高质量图片、3D模型等实现50倍时钟加速,尤其是在高分辨率任务上相当出色。
Les Ministraux推出的Ministral3B和Ministral8B模型在边缘设备上表现出色,性能媲美开源模型,为用户提供高计算效率、低延迟的解决方案。
Cohere最新发布的多模态AI搜索模型Embed3支持通过文本和图像进行企业级检索,大幅提升图像搜索性能,助力企业挖掘数据价值。
Genmo 公司开源的最新视频生成模型Mochi1在视频生成领域引起了轰动,其高画质、超流畅的特点让家用电脑也能创作好莱坞级大片。
Stability AI发布了最强大的模型Stable Diffusion3.5,包含三个版本的全家桶,满足多样化需求。
升级版的Claude3.5Sonnet,新模型Claude3.5Haiku,还有全新的新功能:computer use,翻译过来后,我把他称为,“计算机操控”。
-------------没有了-------------