科技魔方

生成式AI的2023

更多动态

2023年12月28日

  2023 年是 AI 发展的关键一年,ChatGPT 以及 GPT-4 的发布引发了全社会对于大模型以及生成式 AI 的关注。

  科技巨头微软、亚马逊、谷歌、Meta 等纷纷发力 AI;文本生成、文生图以及文生视频 AI 工具进展迅速;国内的「百模大战」;各国对于 AI 的监管逐渐加强;科学家们还在研究「涌现」的原理;还有年底的 OpenAI Drama 事件……

  科技博客 Everypixel Journal 整理了 2023 年 AI 行业的产品以及商业进展,他们还梳理总结了由风投公司 Air Street Capital 发布的《2023 人工智能现状报告》,Founder Park 一并进行了编译。

  01

  2023 的 AI:有突破、有落地、有争议

  研究:技术突破及其能力

  GPT-4:OpenAI 最新模型 GPT-4 脱颖而出,成为功能最强大的 AI 模型,其显著优于 GPT-3.5,并在编码能力方面表现出色。

  自动驾驶:Wayve 的 LINGO-1 为驾驶增加了视觉-语言-动作维度,有可能提高自动驾驶系统的透明度和推理能力。

  文本到视频生成:VideoLDM 和 MAGVIT 引领文本到视频生成的竞赛,各自使用不同的方法——diffusion 和 transformer。

  图像生成:诸如 InstructPix2Pix 和 Genmo AI 的「Chat」之类的助手通过文本指令实现更受控和直观的图像生成和编辑。

  3D 渲染:3D 高斯散射——NeRF 领域的新竞争者,通过计算来自数百万个高斯分布的贡献,带来高质量的实时渲染。

  小型模型与大型模型:微软的研究表明,经过专门数据集训练的小型语言模型 (SLM) 可以与大型模型相媲美。TinyStories 数据集代表了这一方向的新方法:在 GPT-3.5 和 GPT-4 的帮助下,研究人员生成了一个非常简单的短篇故事的合成数据集,其中包含英语语法和一般推理规则。在这些 TinyStories 上训练 SLM 后发现,用于评估的 GPT-4 更喜欢由 28M SLM 生成的故事,而不是由 GPT-XL 1.5B 生成的故事。

  AI 在医学中的作用日益增强:像 Med-PaLM 2 这样的模型展示了 AI 在医学中的重要性日益增强,甚至在特定任务中超过了人类专家。谷歌的 Med-PaLM 2 通过 LLM 改进、医学领域微调和提示策略实现了新的*进的结果。多模态数据集 MultiMedBench 的集成使 Med-PaLM 能够将其功能扩展到基于文本的医学问答之外,展示了其适应新医学概念和任务的能力。此外,最新的计算机视觉技术在疾病诊断中显示出有效性。

  RLHF:人类反馈强化学习仍然是一种主要的训练方法。这种方法在增强 LLM 安全性和性能方面发挥了重要作用,OpenAI 的 ChatGPT 就是一个例子。然而,研究人员正在探索减少对人类监督需求的替代方法,以解决与成本和潜在偏差相关的担忧。这些替代方法包括从自己的输出中学习的自我改进模型以及减少对 RLHF 依赖的创新方法,例如使用精心设计的提示和响应来微调模型。

  水印标识:随着人工智能的内容生成能力的进步,对人工智能生成输出进行水印或标记的需求不断增长。例如,马里兰大学的研究人员正在努力将微妙的水印插入语言模型生成的文本中,而谷歌 DeepMind 的 SynthID 将数字水印嵌入图像像素中,以区分人工智能生成的图像。

  数据限制:人们担心耗尽人类生成的数据,有预测表明到 2030 年至 2050 年可能会出现短缺。然而,语音识别系统和光学字符识别模型可能会扩大数据可用性。

  LLaMa-2:虽然商业模型主导着该领域,但正在进行的努力集中于通过开源方法来生产高性能模型,Meta 的 LLaMa 系列就是一个例子。

  不披露:经济利益和安全问题不断增加,导致围绕前沿研究形成了一种不透明的文化。OpenAI 和 Google 已转向不披露有关其*模型(如 GPT-4 和 PaLM-2)的详细信息。

  行业:AI 的商业应用和业务影响

  NVIDIA 的主导地位:NVIDIA 实现创纪录的 23 年第二季度数据中心收入 103.2 亿美元,并进入 1 万亿美元市值俱乐部。

  生成式 AI 的主导地位:最突出的趋势是生成式 AI(GAI)的兴起。此外,生成式 AI 在稳定 2023 年的 AI 投资方面发挥了至关重要的作用。如果没有生成式 AI,AI 投资将大幅减少。

  受益于 AI 的主要行业:企业软件、金融科技、医疗保健。

  公开市场动态:公开估值显示出复苏迹象。苹果、微软、NVIDIA、Alphabet、Meta、特斯拉和亚马逊等集成 AI 的巨头在提振股市指数方面发挥着至关重要的作用。

  私人市场趋势:美国在全球私人 AI 领域占据主导地位,2023 年的资本投资占 70%。相比之下,欧洲 AI 企业的资本支持大幅下降。

  主要并购:并购市场仍然活跃,出现了 MosaicML + Databricks(13 亿美元)、Casetext + Thomson Reuters(6.5 亿美元)和 InstaDeep + BioNTech(5 亿欧元)等重大收购。

  企业投资动态:2023 年所有企业风险投资的 24% 投向了 AI 公司。

  资金动态:生成式 AI 公司主导大型融资轮次,通常用于获取云计算能力以进行大规模 AI 系统训练。2023 年,生成式 AI 公司明显获得比其他初创公司更大的种子轮和 A 轮融资。

  政治:AI监管、经济影响和不断演变的地缘政治

  英国和印度的轻触式监管:英国和印度采用支持创新的方法,投资于模型安全并确保早期获得先进的 AI 模型。

  欧盟和中国的严格立法:欧盟和中国已采取严格措施朝着人工智能特定立法迈进,尤其是在基础模型方面。

  美国的混合监管:美国尚未通过联邦 AI 法律,各个州颁布了自己的法规。批评者认为这些法律过于严格或过于宽松。

  监管和透明度:即将到来的 2024 年美国总统选举引发了人们对 AI 在政治中的作用的担忧,促使美国联邦选举委员会呼吁公众对政治广告中的 AI 法规发表评论。谷歌对 AI 生成的选举广告免责声明的政策就是一个透明度努力的例子。

  AI 和偏见:AI 偏见指控,特别是来自美国保守派团体,表明文化冲突正在蔓延到 AI 领域。OpenAI 正在通过审核和用户微调来解决这些问题。

  就业市场影响:研究表明,人工智能的进步可能会导致法律、医学和金融等行业的职位大量流失。然而,人工智能也可能使专业知识民主化,并在基于技能的工作中实现公平竞争。

  McKinsey 近日公布了一幅内容丰富的图表,全面概括了 2023 年人工智能(AI)治理领域内最关键的政策和监管动向。该图表以直观的视觉形式展示了 2023 年对 AI 法律框架塑造做出的显著贡献。

  安全性:识别和减轻高度智能未来 AI 系统带来的灾难性风险

  呼吁解决安全问题:对高性能 AI 系统的担忧促使未来生命研究所发出公开信,呼吁暂停比 GPT-4 更强大的 AI 开发,以解决安全问题。然而,对于具体风险或其可能变得相关的时间范围尚未达成共识。

  缓解工作:AI 实验室正在实施自己的缓解策略,包括用于评估危险能力的工具包和具有安全承诺的负责任的扩展政策。此外,基于 API 的模型(例如来自 OpenAI 的模型)具有检测和响应滥用的基础设施,以遵守使用政策。

  开源与闭源 AI:关于开源或闭源 AI 模型是否更安全的争论仍在继续。开源模型促进研究,但存在滥用风险,而闭源 API 提供更多控制,但缺乏透明度。

  使用人类偏好预训练语言模型:研究人员建议将人类反馈直接纳入 LLM 的预训练,而不是传统的三个阶段训练。这种方法已在较小的模型上得到证明,并被谷歌部分采用在他们的 PaLM-2 上,已被证明可以减少有害内容的生成。

  宪法 AI 和自我对齐:一种新方法依赖于一套指导原则和最少的反馈。模型生成自己的批评和修改,这些批评和修改用于进一步的微调。这可能比 RLHF 更好的解决方案,因为它通过明确遵守设定的约束来避免奖励黑客攻击。

  越狱和模型安全性:解决与绕过安全协议的提示制作相关的问题仍然是一个挑战。

  02

  AI产品的进展

  在今年的 AI 进展方面,重点在于改善现有技术,而非引入类似于去年的 ChatGPT 或图像生成器那样的革命性创新。虽然没有令人震撼的效果,且真正的通用人工智能(AGI)尚未实现,但今年标志着从之前的重大突破向更强大的未来过渡的中间阶段。为了展示这种发展趋势,我们制作了一个视觉时间线,强调了今年在 AI 领域最为显著的进展:

  图像生成

  Adobe Firefly: Adobe 的 Firefly 和 Generative Fill 推动了多样化视觉内容的创作,如插画、艺术构思和照片编辑。集成到 Photoshop 中的 Adobe Firefly 使 AI 技术普及化,让更多用户能够轻松使用。其发布的文本效果功能也是一个重要进展,它允许用户给文字和短语添加风格或纹理。

  Midjourney: Midjourney 的 V.5 模型在图像生成领域达成了重要里程碑,展现了更高的效率、连贯性和分辨率。它的最新 alpha 版本,Midjourney V.6,进一步增强了功能,比如更精准地响应用户输入(prompt)、提高了模型的知识水平和简易的文本绘制能力。

  DALL·E 3:基于 ChatGPT 的 DALL·E 3 简化了图像生成过程,避免了复杂的用户输入(prompt)设置。此外,ChatGPT 还推出了一项功能,帮助用户优化输入内容,并根据反馈调整图像。

  Shutterstock.AI:知名库存图片平台 Shutterstock.AI 加入了 AI 功能,使用户能将输入内容转换成可授权的图像。Shutterstock 在推动伦理 AI 方面迈出了重要一步,对贡献的艺术家给予认可和奖励。

  文本到图像算法的演变,2007 对比 2023

  视频生成

  Stability AI:Stability AI 推出了 Stable Video Diffusion,这是一个具有里程碑意义的视频生成(generative video)模型,可在 GitHub 上开源访问。类似于 AI 图像生成的趋势,Stable Video Diffusion 模型很可能在 AI 生成视频领域发挥核心作用。

  HeyGen:这家 AI 创业公司推出了 一款用于语音克隆的工具,能够调整视频中的唇部运动并进行语言翻译。

  Runway Gen-2:Runway 发布了 Gen-2 模型,使用户仅需通过文本提示、图片或其他视频即可轻松生成完整视频。下面的例子就是一种展示。

  Pika 和 Pika 1.0:在首次发布时,Pika 吸引了超过五十万用户,每周生成数百万视频。在 Pika 1.0 中,升级后的 AI 模型使用户能够以多种风格(包括 3D 动画、动漫、卡通和电影)创作和编辑视频。

  Meta 的像素编解码头像(PiCA):Meta 的 Pixel Codec Avatars(PiCA)模型为视频中的 3D 人脸提供了更加逼真的远程传输体验。

  文本生成

  Bard 和 Gemini:谷歌的 Bard 为聊天机器人注入了仿人类的情感和情绪。Bard 聊天机器人采用多模态数据集训练,而谷歌的 Gemini 以「最有能力」的 AI 模型身份崭露头角,成为与 OpenAI 的 ChatGPT 齐名的竞争者。

  Grok:埃隆·马斯克的创业公司 xAI 展现了其对 AI 发展的承诺,并有可能与 OpenAI 竞争。他们推出了「Grok」——一款具备幽默感、反叛特质,并能通过

+1

来源:极客公园 作者:Founder Park

延展资讯