周日. 3 月 8th, 2026

ChatGPT的技术科普与ChatGPT对教育行业影响的探讨:序

ChatGPT的技术科普与ChatGPT对教育行业影响的探讨一:语言模型

ChatGPT的技术科普与ChatGPT对教育行业影响的探讨二:神经网络语言模型

ChatGPT的技术科普与ChatGPT对教育行业影响的探讨三:word2vec

ChatGPT的技术科普与ChatGPT对教育行业影响的探讨四:transformer(1)

ChatGPT的技术科普与ChatGPT对教育行业影响的探讨四:transformer(2)

ChatGPT的技术科普与ChatGPT对教育行业影响的探讨四:transformer(3)

ChatGPT的技术科普与ChatGPT对教育行业影响的探讨四:transformer(4)

ChatGPT的技术科普与ChatGPT对教育行业影响的探讨四:transformer(5)

ChatGPT的技术科普与ChatGPT对教育行业影响的探讨四:transformer(6)

两个题外话

为什么在1980年代基本原理成型的神经网络,到2006年才重新发迹,并在2012年逐步成为主流?除了算力不足与数据不足导致的效果不能绝对胜出外,很重要的原因是,数学上,深度学习是非凸问题。传统的机器学习,能够成为主流,都是凸优化问题。凸优化问题,一定有最优解。而非凸优化问题,可能存在0~n个局部最优解。对凸优化问题的执念,是这个行当的一种历史执念。事后想想,并不科学。以贝叶斯模型为例,它需要假设各个feature之间独立。这个假设,本身就不够科学。但有了这个假设,贝叶斯就变成了科学的可解模型。我们期待寻找一个唯一最优的模型,这是过于自信的表现。传统机器学习,不够诚实,把现实的复杂性,通过假设留在了模型之外。神经网络,非常坦率,脸不红心不跳的将现实的复杂性,留在了模型之内。

解决不了根号二,就解决掉发现根号二的人,即使是在科学领域,这种事情也在不断发生。历史,从来不够新鲜。为什么聊这个话题,简单来讲,就是diss一下我见过的教育测量技术,天天研究怎么出题、怎么通过题目测量学生能力。数学上,可能没有问题。但经常见到:拿着教学过程中的数据做测量(忽略了教学风格的差异性),拿着作业数据做测量(忽略了作业环境的开放性),等等。哎,一本正经的胡说八道,还言之凿凿。所有的数学公式,都是对现实世界的不完全临摹,没有必要奉若神明。

为什么self-attention如此重要?了解rnn模型的朋友都知道,rnn有两个致命缺陷,导致它有不太高的天花板:

梯度消失与梯度爆炸问题:rnn的深度,除了神经网络的层深,还有从第1个token传递到当前token的序列深度。随着序列深度变大,会出现不可解的梯度消失与梯队爆炸问题。

难以并行化的问题:rnn的第i个token运算,只能等前i-1个token计算完毕,才能够计算,这导致rnn的运算效率优化有天花板。

不能做深以容纳更长的上下文,也不能做快以容纳更多的训练样本,是rnn表示学习的天花板。跟业余关注ai领域的人,很难讲清楚空间复杂度与时间复杂度等基本的数据结构与算法概念。我不确信,这会不会成为ai被真正普及的瓶颈问题之一。但熟悉数据结构与算法的基本概念,能够使我们更快的判断模型运算效率是否能够达到我们的要求,也能够排除一些明显有计算效率问题的网络设计。

感谢

本文内容,从原子粒度讲,没有原创。攒了这么一篇文章,就有了原创。我关于深度学习与transformer的基本认知,60%来自于以下学者:吴恩达、张俊林、李宏毅、陈蕴侬。这60%是非常地基性的60%。其他学者,不一一列举,确实列举不过来。

也感谢将要参加线上分享的小伙伴。虽然我不确定最后能来多少人,但对你们的承诺,是我准备这篇文章的动力。在没有准备出来之前,我以为自己早就懂了;在准备过程中,我才知道自己什么没有懂;在准备之后,我肯定又懂了很多。感谢。

Avatar photo

作者 UU 13723417500

友情提示:现在网络诈骗很多,做跨境电商小心被骗。此号发布内容皆为转载自其它媒体或企业宣传文章,相关信息仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同其观点或证实其内容的真实性。---无意冒犯,如有侵权请联系13723417500删除!

声明本文由该作者发布,如有侵权请联系删除。内容不代表本平台立场!

发表回复

服务平台
跨境人脉通
专利检索
U选Market
选品平台
展会&沙龙
群通天下