多模态生成一直是OpenAI、微软、百度等科技巨头的重要研究领域,但如何实现连贯的文本和相关图像是一个棘手的难题。
近年来,人工智能在文本到图像生成领域取得了显著进展。将书面描述转化为视觉表现具有广泛的应用,从创作内容到帮助盲人和讲故事。
DeepMind的联合创始人 Demis Hassabis 最近在接受 BBC 采访时表达了对AI行业发展的担忧,他警告说,与传统科技巨头不同的是,AI 行业不应盲目追求「快速行动,打破常规」的发展模式。
11月1日,谷歌旗下的AI研究机构DeepMind在官网发布了,蛋白质结构预测模型 AlphaFold的最新技术进展:已显著提升了预测准确性,并将覆盖范围从蛋白质扩展至其他生物分子,包括配体(小分子)。
ChatGPT等大语言模型的推理能力有多强大?通过你发过的帖子或部分隐私数据,就能推算出你的住址、年龄、性别、职业、收入等隐私数据。
谷歌研究院和DeepMind研究人员推出最新PaLI-3视觉语言模型(VLM),模型以更小、更快、更强的特点获得大部分研究人员青睐,在诸多任务中达到SOTA。
Google的研究团队最近开发了一种高效的语法检查模型,它将语法检查引入了Google搜索,为用户提供了一种在查询语法方面的辅助工具。
据 OpenAI 官网新闻稿,目前微软联合 OpenAI、谷歌、Anthropic 公司发布联合声明,将设立1000 万美元(IT之家备注:当前约 7320 万元人民币)的AI安全基金,主要用于推动 AI 评估研究,帮助社会能够有效地测试和评估“最有能力的
MiniGPT-5是一种交错视觉和语言生成模型,通过整合大型语言模型和稳定扩散技术,实现了文本和图像的协调输出。
Nvidia 的 AI 企业软件和 DGX 云已在 Oracle 云市场上推出了两个专用应用程序。
今日,OpenAI官方宣布,DALL·E3现已向所有 ChatGPT Plus 和 企业版 用户开放。
香港中文大学的研究团队最近发布了一项全面的中文大语言模型评测方法,这一方法已经被EMNLP2023System Demonstrations录取。
微软通过AzureHealth Insights 发布了一系列专为医疗保健行业定制的数据和人工智能产品。这些工具旨在帮助医疗机构利用其产生的大量数据,从而改善患者护理并简化运营。
最近,图像生成技术取得了显著的进展,尤其是在从文本描述生成图像以及将文本和图像结合生成新图像方面。然而,一个尚未充分探索的领域是从广义视觉语言输入生成图像,例如从描述涉及多个对象和人物的场景生成图像。
-------------没有了-------------