科技魔方

南方科技大学联合IDEA研究院发布 SUS-Chat-34B 双语模型

大模型

2023年12月11日

  南方科技大学联合 IDEA 研究院 CCNL 中心发布了 SUS-Chat-34B,这是一个参数规模为340亿的双语模型。该模型在众多中英文任务上表现出色,超越了其他同参数规模的模型。

  SUS-Chat-34B基于01-ai/Yi-34B 预训练模型通过数百万高质量、多语言的指令数据进行了微调。

微信截图_20231211084112.png

  模型具有以下亮点:

  大规模复杂指令跟随数据:使用1.4B token的高质量复杂指令数据进行训练,涵盖中英文、多轮对话、数学、推理等多种指令数据;

  强大的通用任务性能:SUS-Chat-34B模型在众多主流的中英文任务上表现出色,其效果超越了相同参数规模的其他开源的指令微调模型。即使与更大参数规模的模型相比,SUS-Chat-34B模型也具有不错的竞争力

  更长的上下文窗口与出色的多轮对话能力:SUS-Chat-34B原生支持8K的上下文窗口,在大量多轮指令以及单多轮混合数据中进行训练,具有出色的长文本对话信息关注与指令跟随能力。

+1

来源:站长之家

延展资讯