清华大学提出全新加速训练大模型方法SoT_科技魔方-中文AI大模型门户网站

: 清华大学提出全新加速训练大模型方法SoT; 大模型

2023年11月24日

点赞; 　　近日，微软研究和清华大学的研究人员共同提出了一种名为“Skeleton-of-Thought(SoT)”的全新人工智能方法，旨在解决大型语言模型(LLMs)生成速度较慢的问题。

　　尽管像GPT-4和LLaMA等LLMs在技术领域产生了深远影响，但其处理速度的不足一直是一个制约因素，特别是在对延迟敏感的应用中，如聊天机器人、协同驾驶和工业控制器。SoT方法与传统的性能提升方法不同，它不对LLMs进行复杂的修改，而是将其视为黑匣子，并侧重于优化输出内容的组织结构。

　　SoT引入了一个独特的两阶段过程，首先引导LLM构建答案的骨架，然后在第二阶段使LLM同时扩展骨架中的多个要点。这一方法不仅提高了LLMs的响应速度，还在不需要对模型架构进行复杂调整的情况下实现了这一目标。

　　为了评估SoT的有效性，研究团队对12个不同领域的模型进行了广泛测试，使用了Vicuna-80数据集，其中包含了来自编码、数学、写作和角色扮演等各个领域的问题。

　　通过使用FastChat和LLMZoo的度量标准，研究团队观察到SoT在八个模型上实现了1.13x到2.39x的速度提升，而且这些提升并没有牺牲答案质量。这表明SoT不仅可以显著提高响应速度，还能够在各种问题类别中保持或提升答案质量。

　　因此，SoT方法为解决LLMs速度较慢的问题提供了一种有前景的解决方案。研究团队的创新方法将LLMs视为黑匣子，并专注于数据级别的效率优化，为加速内容生成提供了新的视角。通过引导LLMs构建答案的骨架，然后进行并行扩展，SoT有效地提高了响应速度，为人工智能领域的动态思维过程开辟了新的探索方向，鼓励向更高效、更多才多艺的语言模型发展。

+1; 清华大学大模型; 来源：站长之家

延展资讯

: 清华大学提出全新加速训练大模型方法SoT

: 消息称OpenAI第二轮要约收购将照常进行

: 谷歌推多模态自回归模型Mirasol3B

: 研究：代码数据增强技术在深度学习中的应用具有巨大潜力

: AI Pin是一场疯狂的实验，而AI PC才是个人计算的文艺复兴

: 阿里巴巴推大规模音频语言模型Qwen-Audio

最热新闻最新新闻 更多>

用户推荐最热产品 更多>

倾城

小新

张影

创维电视（SKYWORTH）55V40

创维电视（SKYWORTH）55V40

小米全面屏电视E43K

小米全面屏电视E43K

康佳（KONKA）55D6S

康佳（KONKA）55D6S

荣泰S60按摩椅

荣泰S60按摩椅

自媒体头条更多>: 极致听感智能降噪三星Galaxy Buds Pro诠释非同凡“响”

未来科技范试驾摩灵MOi｜视频

品牌专区更多>

产品与服务

联系站长

反馈邮箱

news#keji100.net（发邮件时把#换成@）

重要提醒：本平台未在任何自媒体平台开通账户，特此声明。

关于我们