科技魔方

李开复零一万物公司回应大模型争议:承认模型结构基于GPT结构

大模型

2023年11月15日

  最近,「零一万物」公司旗下的大模型 Yi-34B 因使用 LLaMA 架构但改变张量名引发争议。这一争议中,研究者指出其代码实际上是对 LLaMA 代码的一次重构,只是未作实质性改变。社区担心这可能违反了许可证规定,且未经过框架支持的外部代码附加可能存在安全风险。

image.png

  Yi-34B 的成就在开源大模型领域引起了广泛关注,其上下文窗口大小超过200k,能处理40万汉字,成为全球开源模型双料冠军。然而,争议的核心在于其是否真正符合 LLaMA 的许可协议,以及对模型代码的更改是否属于虚假宣传。

  在社区的讨论中,有人提到模型的性能参数和配置存在疑虑,包括模型被标榜为32K 模型实际上配置为4K 模型的问题。此外,对于模型的微调数据和基准测试的信息也没有充分提供,引起了社区的疑虑。

image.png

  「零一万物」公司回应称,他们的模型结构基于 GPT 成熟结构,但在训练实验中由于需求对代码进行了更名。他们强调模型的结构只是其中一部分,投入了大量研发工作在数据工程、训练方法、评估方法等方面,这是他们在大模型预训练阶段的核心技术护城河。最后,他们表示尊重社区的反馈,将代码进行更新以更好地融入 Transformer 生态。

  综合来看,争议集中在「零一万物」公司的 Yi-34B 模型是否违反了开源协议,以及其在性能参数和代码修改上的透明度。这一事件提醒开源社区对于模型的合规性和透明度的重要性,同时也反映了在开源领域中公司的技术选择可能引发广泛关注和争议的现实。

+1

来源:站长之家

延展资讯