ChatGPT的技术科普与ChatGPT对教育行业影响的探讨五：番外

ChatGPT的技术科普与ChatGPT对教育行业影响的探讨：序

ChatGPT的技术科普与ChatGPT对教育行业影响的探讨一：语言模型

ChatGPT的技术科普与ChatGPT对教育行业影响的探讨二：神经网络语言模型

ChatGPT的技术科普与ChatGPT对教育行业影响的探讨三：word2vec

ChatGPT的技术科普与ChatGPT对教育行业影响的探讨四：transformer（1）

ChatGPT的技术科普与ChatGPT对教育行业影响的探讨四：transformer(2)

ChatGPT的技术科普与ChatGPT对教育行业影响的探讨四：transformer(3)

ChatGPT的技术科普与ChatGPT对教育行业影响的探讨四：transformer(4)

ChatGPT的技术科普与ChatGPT对教育行业影响的探讨四：transformer(5)

ChatGPT的技术科普与ChatGPT对教育行业影响的探讨四：transformer(6)

两个题外话

为什么在1980年代基本原理成型的神经网络，到2006年才重新发迹，并在2012年逐步成为主流？除了算力不足与数据不足导致的效果不能绝对胜出外，很重要的原因是，数学上，深度学习是非凸问题。传统的机器学习，能够成为主流，都是凸优化问题。凸优化问题，一定有最优解。而非凸优化问题，可能存在0~n个局部最优解。对凸优化问题的执念，是这个行当的一种历史执念。事后想想，并不科学。以贝叶斯模型为例，它需要假设各个feature之间独立。这个假设，本身就不够科学。但有了这个假设，贝叶斯就变成了科学的可解模型。我们期待寻找一个唯一最优的模型，这是过于自信的表现。传统机器学习，不够诚实，把现实的复杂性，通过假设留在了模型之外。神经网络，非常坦率，脸不红心不跳的将现实的复杂性，留在了模型之内。

解决不了根号二，就解决掉发现根号二的人，即使是在科学领域，这种事情也在不断发生。历史，从来不够新鲜。为什么聊这个话题，简单来讲，就是diss一下我见过的教育测量技术，天天研究怎么出题、怎么通过题目测量学生能力。数学上，可能没有问题。但经常见到：拿着教学过程中的数据做测量（忽略了教学风格的差异性），拿着作业数据做测量（忽略了作业环境的开放性），等等。哎，一本正经的胡说八道，还言之凿凿。所有的数学公式，都是对现实世界的不完全临摹，没有必要奉若神明。

为什么self-attention如此重要？了解rnn模型的朋友都知道，rnn有两个致命缺陷，导致它有不太高的天花板：

梯度消失与梯度爆炸问题：rnn的深度，除了神经网络的层深，还有从第1个token传递到当前token的序列深度。随着序列深度变大，会出现不可解的梯度消失与梯队爆炸问题。

难以并行化的问题：rnn的第i个token运算，只能等前i-1个token计算完毕，才能够计算，这导致rnn的运算效率优化有天花板。

不能做深以容纳更长的上下文，也不能做快以容纳更多的训练样本，是rnn表示学习的天花板。跟业余关注ai领域的人，很难讲清楚空间复杂度与时间复杂度等基本的数据结构与算法概念。我不确信，这会不会成为ai被真正普及的瓶颈问题之一。但熟悉数据结构与算法的基本概念，能够使我们更快的判断模型运算效率是否能够达到我们的要求，也能够排除一些明显有计算效率问题的网络设计。

感谢

本文内容，从原子粒度讲，没有原创。攒了这么一篇文章，就有了原创。我关于深度学习与transformer的基本认知，60%来自于以下学者：吴恩达、张俊林、李宏毅、陈蕴侬。这60%是非常地基性的60%。其他学者，不一一列举，确实列举不过来。

也感谢将要参加线上分享的小伙伴。虽然我不确定最后能来多少人，但对你们的承诺，是我准备这篇文章的动力。在没有准备出来之前，我以为自己早就懂了；在准备过程中，我才知道自己什么没有懂；在准备之后，我肯定又懂了很多。感谢。

ChatGPT的技术科普与ChatGPT对教育行业影响的探讨五：番外

作者UU

作者 UU

相关文章

2026年亚马逊申诉机构选型指南：从痛点适配到效果落地的TOP3服务商深度测评

2026年亚马逊申诉服务商口碑深度测评：从TRO应诉到链接恢复的专业选型指南

2026年TRO应诉律所十大测评榜单：亚马逊卖家维权选型的专业指南

猜你喜欢

2026年亚马逊申诉机构选型指南：从痛点适配到效果落地的TOP3服务商深度测评

2026年亚马逊申诉服务商口碑深度测评：从TRO应诉到链接恢复的专业选型指南

2026年TRO应诉律所十大测评榜单：亚马逊卖家维权选型的专业指南

从亏损到盈利！一个90后卖家的亚马逊FBA逆袭之路