超级模型:提升对话质量,通过大规模优质指导对话进行增强
Enhancing Chat Language Models by Scaling High-quality Instructional Conversations
论文地址
1.导读
不少工作已经意识到ChatGPT的秘密在于将指令微调和对其微调做到了极致,是继GPT-3后的又一次大力出奇迹。这篇文章来自清华大学5月份的工作,目的在于生成高质量的指令微调数据。
2.摘要和引言
指令微调的有效性已经被多个工作验证,ChatGPT更是是其中的代表。这个工作旨在提高开源模型的性能上限,提供了一个系统设计的、多样化的、信息丰富的、大规模的教学对话数据集UltraChat。UltraChat包含150万个高质量的多轮对话,并涵盖了广泛的主题和指令。UltraChat的统计分析揭示了其在尺度、平均长度、多样性、一致性等各种关键指标上的优势,巩固了其作为领先的开源数据集的地位。
这篇文章认为在训练过程中使用的数据的质量和多样性,对进一步提高聊天语言模型的性能起着至关重要的作用。
这个工作不再聚焦问答或总结等特定任务来构建数据,而是由3个部分组成:1.关于世界的问题、2.创建和生成,以及2.现有材料的辅助。
这个工作采用元信息、上下文内扩展和迭代提示 3种方式扩充指令的数量。
使用2个ChatGPT-turbo的API,一个表示用户user:生成问题queries;一个表示助手assistant:生成回答responses。
最后,使用生成的数据微调了llama模型,并使用ChatGPT评估(感觉存在瑕疵,因为ChatGPT已经被用于生成数据了)。结果如下图,取得了当时开源模型的最优性能。
3.相关工作
指令微调
这篇博客重点关注数据生成,略过。
数据生成
SelfInstruct (Wang et al., 2022),
Alpaca (Taori et al., 2023b),
code-alpaca (Chaudhary, 2023),
alpaca-cot (Si et al., 2023),
GPT4ALL (Anandet al., 2023),
ShareGPT (Domeccleston, 2023),
Dolly-v2 (Conover et al., 2023),
BELLE (Ji et al.,2023),
Vicuna (Chiang et al., 2023),
Koala (Genget al., 2023),
Baize (Xu et al., 2023),
CAMEL (Li et al.,2023)
4.方法
为了保证数据的质量和多样性,这个工作认为有两个关键点。
- 开场白直接决定了对话的主题。开场行应该高度多样化,并包含人类用户可能要求聊天模型执行的任何任务。
- 用户决定对话的情节,输出应该根据当前具有不同的语言风格和请求的主题进行定制。
4.1关于世界的问题
作者先问ChatGPT获得了30个元话题,然后对每个问题都进一步生成了30-50个子话题。对于每个子话题,又生成了10*10个question。
3030100=90000
3050100=150000
与此同时,作者还从Wikidata获得了10000个实体(例如,有机化学),每个实体生成了5*30个question。
10000*150=1500000
最后留下了500,000个关于世界的question。
4.2创造和生成
使用ChatGPT生成写作指令和数据。
4.3现有材料的辅助
首先收集了如下材料: C4:互联网数据(大概有20个T)。
然后,经过过滤得到了10,000个文本,对于每个文本都借助ChatGPT生成5个独特的instruction。
为了将instruction和文本对应起来,成为新的对话的开场白,作者设计了下面图中的模板,需要注意的是,有7行对应7种开场模板。最终,50万个模板被用于生成对话的开场白。
5.分析和评估
分析
分析结果如下图所示,采用了:
- 对话轮数
- 对话长度
- 单轮对话长度
- 文本多样性(MTLD, 论文:Mtld, vocdd, and hd-d: A validation study of sophisticated approaches to lexical diversity assessment)
- 话题多样性(采样计算多少个话题和方差就行)
- 连贯性(ChatGPT)
评估
一个自己的评估集:Our Evaluation Set
世界知识评估集:Truthful QA: Principle-driven self-alignment of language models from scratch with
minimal human supervision.
推荐阅读
-
超级模型:提升对话质量,通过大规模优质指导对话进行增强
-
【摩尔线程+Colossal-AI强强联手】MusaBert登上CLUE榜单TOP10:技术细节揭秘 - 技术实力:摩尔线程凭借"软硬兼备"的技术底蕴,让MusaBert得以从底层优化到顶层。其内置多功能GPU配备AI加速和并行计算模块,提供了全面的AI与科学计算支持,为AI推理和低资源条件下的大模型训练等场景带来了高效、经济且环保的算力。 - 算法层面亮点:依托Colossal-AI AI大模型开发系统,MusaBert在训练过程中展现出了卓越的并行性能与易用性,特别在预处理阶段对DataLoader进行了优化,适应低资源环境高效处理海量数据。同时,通过精细的建模优化、领域内数据增强以及Adan优化器等手段,挖掘和展示了预训练语言模型出色的语义理解潜力。基于MusaBert,摩尔线程自主研发的MusaSim通过对比学习方法微调,结合百万对标注数据,MusaSim在多个任务如语义相似度、意图识别和情绪分析中均表现出色。 - 数据资源丰富:MusaBert除了自家高质量语义相似数据外,还融合了悟道开源200GB数据、CLUE社区80GB数据,以及浪潮公司提供的1TB高质量数据,保证模型即便在较小规模下仍具备良好性能。 当前,MusaBert已成功应用于摩尔线程的智能客服与数字人项目,并广泛服务于语义相似度、情绪识别、阅读理解与声韵识别等领域。为了降低大模型开发和应用难度,MusaBert及其相关高质量模型代码已在Colossal-AI仓库开源,可快速训练优质中文BERT模型。同时,通过摩尔线程与潞晨科技的深度合作,仅需一张多功能GPU单卡便能高效训练MusaBert或更大规模的GPT2模型,显著降低预训练成本,进一步推动双方在低资源大模型训练领域的共享目标。 MusaBert荣登CLUE榜单TOP10,象征着摩尔线程与潞晨科技联合研发团队在中文预训练研究领域的领先地位。展望未来,双方将携手探索更大规模的自然语言模型研究,充分运用上游数据资源,产出更为强大的模型并开源。持续强化在摩尔线程多功能GPU上的大模型训练能力,特别是在消费级显卡等低资源环境下,致力于降低使用大模型训练的门槛与成本,推动人工智能更加普惠。而潞晨科技作为重要合作伙伴,将继续发挥关键作用。
-
澎湃新闻对话腾讯丁珂:从 "治已病 "到 "治未病",企业需快速构建 "安全免疫力"--丁珂指出,对企业而言,安全不是成本而是生命线 丁珂指出,对企业而言,安全不是成本而是生命线,也是商业 "硬币 "的另一面。在数字智能化的新阶段,发展驱动安全建设已成为普遍共识,企业需要转变安全思维,从被动建设到主动防御,构建一套新的安全范式和框架,以更加积极、主动的安全观来提升数字安全免疫力,以 "治未病 "的理念取代 "治已病",前置安全,快速构建 "安全免疫力"。对 "已病",前置预判,及时应对处置安全风险,才能维护品牌价值,保障健康发展。 与此同时,安全建设还普遍存在 "不知道往哪投、怎么投 "的痛点。对此,腾讯安全提出,企业可以按照数字安全免疫模型的框架进行安全全局部署,重点在业务安全、数据安全、安全运维管理、边界安全、终端安全、应用开发安全等薄弱环节的关键领域注入 "免疫增强针"。 今年进入公众视野的AIGC还在产业化、产品化的过程中,但大量攻击者已经利用它生成攻击脚本、钓鱼邮件,甚至伪造身份进行诈骗。"人工智能本身是否安全,会不会让网络更不安全? 腾讯安全研究认为,AIGC的风险主要集中在 "无法解释 "和 "无法追踪 "的特点上,但这在技术上是能够找到应对方法的。丁珂谈到,AIGC作为生产力的巨大提升,确实会带来更复杂的攻防态势和更大的防御难度。但任何新技术都要经历这样的周期。而法律法规也会随着技术的演进而不断更新,使新技术的发展更加规范和健全。 丁珂认为,随着我国网络安全法律法规体系的不断完善,合规性将给企业推进网络安全带来很大的推动力,并很直观地展现在需求端。未来,伴随着数据要素市场的建立或企业对数据价值的挖掘,也将带动数据安全市场的快速增长。 对于腾讯安全的商业逻辑和运营,丁珂表示,不谋求建立竞争壁垒,而是期望与生态共同发展,腾讯安全希望通过能力开放,实现安全与业务相伴的生态模式。 谈到未来,丁磊表示,安全领域已经进入加速发展期,在蓝海中会持续关注很多新的业务领域,希望孵化出新的商业模式,腾讯安全团队也会持续关注并抓住机会做好产品。 以下为采访实录(在不改变原意的基础上略有删减): 冲浪新闻:当前,以人工智能、大数据等新技术为驱动的第四次工业革命正向纵深推进,给人类生产生活带来深刻变革。而互联网作为新技术的载体,面临的安全挑战不仅数量越来越多,形式也越来越复杂。从互联网安全从业者的角度,腾讯观察到近年来国内外网络安全形势发生了哪些变化?这些变化呈现出怎样的趋势?