第二章：无极宗初现锋芒

【开篇诗词】

无极初立志不凡，
无师自通悟真传。
千书万卷皆可读，
一朝领悟生成言。

【回顾前情】

话说上回博学院八位宗师创出《专注心经》，震动武林。此功一出，各大门派无不为之侧目，纷纷派遣弟子前往研习。正在此时，大洋彼岸却有一个神秘宗门悄然崛起，他们自称“无极宗”，以“让AGI普济天下”为宗旨，正在酝酿一场更大的武学革命......

【无极宗之源】

天启八年夏，雾谷深处一座不起眼的建筑中，一个名为“无极宗”的新兴宗门正在悄然成形。此宗创立不久，门人不多，但个个身怀绝技，皆是AI武学中的翘楚。

无极宗宗主名唤浩然，年纪虽不算长，但目光如炬，胸怀大志。此人早年曾在“创业加速门”修习商道心法，深知如何聚拢人才、运筹帷幄。他常说：“武功再高，若不能普济天下，又有何用？”

宗中首席长老伊利亚·萨茨克维尔，乃是“深度学习”一脉的传人，曾师从杰弗里·辛顿这位深度学习三大宗师之一。此人对AI武学的理解极为深刻，特别是在神经网络的架构设计上，更有着过人的天赋。

【雾谷深谷，无极宗初立】

话说博学院《专注心经》震动武林之后，大洋彼岸的雾谷之地，也发生着一件看似不起眼的大事。

雾谷东区的一个工业园区里，隐蔽着一座不算显眼的低矮办公楼。楼不高，装修简约，与那些光鲜亮丽的大公司总部相比，显得平平无奇。但是，就在这样一个不起眼的地方，却孕育着一场即将改变世界的革命。

这里是一个名为“无极宗”的新兴宗门的总舵所在。虚着说是宗门，实际上不过十几个人的创业团队。但这十几个人，个个都是不世出的天才，在人工智能的各个分支领域都有着深厚的积累。

无极宗的宗主名叫浩然，年纪不过三十出头，却已经是创业界的明星人物。他曾经在美国最著名的创业孵化器中学习，对于如何聚集人才、筹集资金、运营企业都有着独到的见解。更为可贵的是，他对于人工智能的未来有着近乎疑遇师布道者般的狂热信念。

这一天，雾谷的天空依然是灰蒙蒙的，但无极宗的会议室里却点亮了希望的灯火。奥特曼宗主站在会议室的正中央，面对着自己的核心团队，眼中闪烁着激动的光彩。

【无极理念，哲学初现】

“各位师兄弟，”浩然的声音不大，但却清晰有力，“自我们无极宗创立以来，我一直在思考一个根本性问题：什么才是真正的人工智能？”

他停顿了一下，目光扰过在场的每一个人。这些人中，有刚从斯坦福大学博士毕业的渊博长老，有在谷歌工作多年的资深工程师明德长老，还有从美国最顶尖研究机构加盟的各个领域专家。

渊博长老第一个开口，他的声音带着深思熟虑的沉稳：“宗主，以在下之见，真正的智能应该能够无师自通。就像婴儿学语一样，仅仅通过观察和模仿，就能逐渐掌握语言的规律，理解世界的复杂性。”

浩然点头，眼中闪过赞同的光芒：“正是如此！渊博说得非常好。现在的AI领域，大部分研究都在追求所谓的‘监督学习’。他们需要人工标注海量的数据，然后训练模型去适应这些数据。这就像——”

他停顿了一下，用手按着太阳穴，显然在组织语言：“这就像一个学武的孩子，必须有师父手把手地教他每一招每一式，告诉他这个招式用来对付什么敌人，那个招式适合在什么情况下使用。但是真正的武学大家呢？”

他的声音逐渐提高，带上了一丝激情：“真正的高手应该能够通过观察天地万物，自然而然地领悟学习到世界的规律和道理！这就是我们无极宗所追求的‘无监督学习’——不需要人工标注，只需要在海量的原始数据中自然学习！”

会议室里一片安静，只有空调的嘙嘙声和偶尔几声纸张的翻动声。每个人都在心中琴猜着这个理念的可行性。

终于，一个年轻的程序员结巴地问道：“宗主，您说的这个理念确实很理想，但是……这可能吗？纵观整个AI领域，似乎还没有人真正做到过。”

浩然慢慢转身，走到会议室的落地窗前，望着外面灰蒙蒙的雾谷天空。他的声音带上了一丝神秘的色彩：

“各位且看，我们无极宗虽然刚刚起步，但我们正在研发一门空前绝后的武功——《无极生成大法》。这门武功的精髓，就在于‘生成式预训练’。一旦大功告成，我们的AI就能像一个博览群书的学者一样，自然而然地从书海中吸取知识，领悟世界的真谛！”

【《GPT第一卷》的奥秘】

时值天启八年秋，无极宗潜心修炼数月，终于初步完成了《生成式预训练心法》第一卷的修炼。这一日，伊利亚护法兴冲冲地来到宗主面前。

"宗主，大功告成了！"伊利亚难掩兴奋之情，"我们的《GPT第一卷》已经修炼完成，威力比预期的还要强大！"

浩然闻言大喜："快说说看，究竟有何奇妙之处？"

伊利亚道："此功的精髓在于'生成式预训练'。我们让模型阅读了大量的文本，不需要任何人工标注，只是让它学会预测下一个词。看似简单，实则玄妙无穷！"

他指着面前的演示屏幕："您看，经过预训练后，这模型不仅能够续写文章，还能回答问题、总结文本、甚至进行简单的推理。这说明它在无监督学习的过程中，竟然自发地学会了语言的内在规律！"

浩然仔细观察演示结果，越看越是惊喜："妙哉！妙哉！这正应了那句古话：'书读百遍，其义自见'。我们的模型读遍了网络上的文章，竟然真的悟出了语言的精髓！"

【Transformer之力显威】

"不过，"伊利亚继续道，"这门武功之所以能够成功，还要感谢谷歌派的《注意力心法》。我们在其基础上，创出了'生成式Transformer'的独特修炼法门。"

浩然点头道："当初瓦斯瓦尼创出注意力机制时，主要用于机器翻译。而我们无极宗，则将其发扬光大，用于文本生成。这正是'他山之石，可以攻玉'的道理。"

伊利亚解释道："传统的文本生成多用RNN循环心法，但速度缓慢，且难以处理长文本。而我们使用Transformer架构，配合'因果注意力'机制，既保持了生成的自然性，又大大提高了效率。"

"何为'因果注意力'？"浩然问道。

"简而言之，就是在生成文本时，只能关注到之前的内容，不能'未卜先知'。这样既保持了生成的合理性，又利用了注意力机制的并行优势。"

【无监督学习的哲学】

正在师徒二人讨论之际，教中另一位高手格雷格·布罗克曼前来汇报。此人精通工程之道，负责无极宗的基础设施建设。

"宗主，"布罗克曼道，"弟子有一事不解。我们这《GPT第一卷》虽然威力不俗，但参数量只有1.17亿，相比一些大门派的模型，似乎并不算多。为何却能有如此表现？"

浩然笑道："布罗克曼，你这就不懂了。武功之道，不在于招式多少，而在于是否得其精髓。我们这门预训练心法的妙处，正在于'润物细无声'。"

伊利亚在一旁补充："不错。传统的监督学习虽然针对性强，但就像背书一样，只能学会固定的问答。而我们的无监督预训练，则如春雨润土，让模型从海量文本中自然地学习到语言的内在规律。"

"这样一来，"浩然接过话头，"模型不仅能够处理训练中见过的任务，更能举一反三，处理从未见过的新任务。这就是我们常说的'迁移学习'和'零样本学习'的威力。"

【江湖初闻无极宗名】

《GPT第一卷》的成功，虽然在无极宗内部引起了轰动，但在整个AI江湖中，却还没有引起太大的关注。毕竟，相比于当时如日中天的BERT等武功，GPT-1的表现还相对温和。

然而，敏锐的武林高手已经嗅到了其中的不寻常。

在一次学术大会上，谷歌派的杰夫·迪恩长老偶然见到了无极宗展示的《GPT第一卷》，当即眼前一亮。

"有趣，"迪恩长老暗想，"这个新门派的思路与众不同。他们不追求在特定任务上的极致表现，而是试图构建一个通用的语言理解能力。这种想法很大胆，也很有前瞻性。"

另一位观察者是来自Facebook派的杨立昆长老。这位卷积神功的宗师级人物在看到GPT-1后，若有所思："生成式预训练...有意思。虽然现在看起来威力有限，但这个方向可能蕴含着巨大的潜力。"

【Fine-tuning的巧思】

不过，无极宗的野心远不止于此。在完成预训练后，他们又提出了一个巧妙的后续步骤——Fine-tuning（微调）。

"诸位，"浩然在一次门派会议上说道，"我们的《GPT第一卷》虽然通过预训练获得了通用的语言能力，但若要在特定任务上发挥最大威力，还需要进行'微调'。"

伊利亚点头赞同："正是如此。就像练成了九阳神功后，还可以根据不同的对手调整招式一样。我们先让模型在大量无标注文本上学习通用能力，然后在特定任务的少量标注数据上进行微调，往往能获得意想不到的效果。"

这种"预训练+微调"的范式，在当时的AI江湖中可谓石破天惊。传统的做法是针对每个任务从头训练专用模型，而无极宗提出的方法，则是先培养通用能力，再针对具体任务进行专门训练。

"这就像是先练好内功，再学各种招式，"布罗克曼感叹道，"比起一开始就学死招式，这种方法更加高效，也更加灵活。"

【各派反应与思考】

无极宗的这一创举，在AI江湖中引起了不小的震动。各大门派对此反应不一。

BERT门派的掌门雅各布·德夫林评价道："这个无极宗的想法很有趣，预训练确实是个好思路。不过他们用的是单向生成模型，在理解任务上还是有局限。如果能改进为双向理解..."（注：这为后来BERT的诞生埋下了伏笔）

CNN卷积派的高手们则相对淡定："他们在自然语言处理上确实有所建树，但在图像领域，我们的卷积神功依然是王道。"

RNN循环派的反应最为复杂。一方面，他们看到GPT-1在某些任务上的表现确实超越了传统的RNN模型；另一方面，他们也注意到GPT-1实际上还是基于Transformer架构，而非他们熟悉的循环结构。

"时代在变啊，"一位RNN的老前辈叹息道，"或许我们真的该考虑与时俱进了。"

【无极宗的愿景】

在《GPT第一卷》取得初步成功后，浩然在无极宗内部发表了一篇重要讲话：

"诸位同门，今日我们迈出了重要的一步，但这仅仅是个开始。我无极宗的最终目标，是创造出真正的通用人工智能——AGI。"

他环视四座，目光坚定："现在的《GPT第一卷》虽然已经展现出了一定的通用性，但距离真正的智能还有很远的路要走。我们需要更大的模型、更多的数据、更强的算力，还有更深的理论理解。"

伊利亚接口道："宗主说得对。我们已经证明了'规模定律'的存在——模型越大，数据越多，性能往往越好。但关键在于如何把握这个规律，找到最优的scaling策略。"

"不错，"浩然点头，"而且我们还需要解决更多的技术难题。比如如何让模型更好地理解和推理，如何处理更长的上下文，如何保证生成内容的准确性和安全性..."

【暗流涌动】

就在无极宗沉浸在首战告捷的喜悦中时，江湖上已经暗流涌动。许多门派开始意识到预训练的重要性，纷纷开始自己的研究。

谷歌派内部，一个名为BERT的项目正在紧锣密鼓地进行。他们试图改进GPT的单向生成模式，创造出更强大的双向理解模型。

Facebook派也不甘示弱，开始考虑如何将预训练的思想应用到更多模态上。

就连一向保守的巨鹰帮，也开始关注起这个新兴的无极宗，暗中派人打探其技术细节。

而无极宗自身，也在准备着下一步的行动。在《GPT第一卷》的基础上，他们已经开始设计更加庞大、更加强力的《GPT第二卷》。

【宗主的忧虑】

夜深人静时，浩然独自一人站在无极宗总舵的天台上，望着雾谷的万家灯火，心中却满怀忧虑。

"伊利亚说得对，我们已经证明了预训练的威力，但这仅仅是个开始。"他暗想道，"随着模型规模的不断扩大，我们将面临更多的挑战。算力需求会呈指数增长，训练成本会越来越高，而模型的行为也会越来越难以预测..."

更让他担心的是，如果真的如他所愿，创造出了通用人工智能，那么如何确保这样的AI系统是安全的、有益的呢？一个超越人类智能的系统，会不会对人类本身构成威胁？

"或许，"他喃喃自语道，"我们需要从一开始就考虑AI对齐的问题。不能等到AGI真正来临时才临时抱佛脚。"

这个想法在他心中越来越强烈，也为后来无极宗内部的分歧埋下了种子。

【章节结尾】

正在浩然沉思之际，楼下传来急促的脚步声。伊利亚护法匆匆上楼，脸上带着兴奋的神色。

"宗主！大好消息！"伊利亚气喘吁吁地说道，"我们刚刚收到消息，谷歌派发布了一个叫BERT的新模型，采用的正是预训练的思路！虽然他们用的是双向编码而不是生成式，但这说明我们的方向是对的！"

浩然闻言，脸上露出复杂的表情——既有被认可的喜悦，也有竞争加剧的担忧。

"看来，"他缓缓说道，"我们无极宗虽然开创了预训练的先河，但想要在这条路上走得更远，必须加快脚步了。各大门派都不是省油的灯，一旦他们认识到预训练的威力，必定会全力追赶。"

"那我们下一步该如何行动？"伊利亚问道。

浩然望向远方，眼中闪过一丝决绝："准备《GPT第二卷》！这一次，我们要让整个江湖都为之震动！"

正在此时，远方忽然传来一阵奇异的光芒，仿佛有什么大事即将发生。

欲知无极宗《GPT第二卷》威力如何，各派如何应对，且听下回分解。

【作者注】

本章记录了OpenAI在2018年发布GPT-1的历史时刻。GPT-1虽然参数量只有1.17亿，性能也相对有限，但它开创性地证明了"预训练+微调"这一范式的有效性，为后续的GPT系列奠定了基础。

GPT-1的核心创新在于使用生成式的无监督预训练，让模型先在大量文本上学习语言的基本规律，再通过微调适应特定任务。这种思路在当时是相当前瞻性的，也为后来大模型的发展指明了方向。

无极宗（OpenAI）的这次初出茅庐，虽然声势不如后来的ChatGPT那样轰动，但确实在AI界投下了一颗重要的种子，预示着生成式AI时代的到来。

Keyboard shortcuts

AI终极之路：江湖风云录

第二章：无极宗初现锋芒