小白也能够理解AI大语言模型背后的逻辑与发明思路
(1)
我先说说哲学范式。
时间序列属于结构性数据、文章属于非结构性数据,看似不相容。
现在大家看大模型,不少场景看似风马牛不相及,其实原理一样:
如机器翻译:英译汉,这句到那句,一对儿,这本质就是序列到序列。2013年IIya在谷歌发明Seq2Seq就这个思路,他2017年在谷歌又发明了Transformer中的序列到序列、encoder-decoder就是借鉴seq2seq思路。而IIya发明Seq2seq模型,当时的目标就是为了做机器翻译。
再如问答,其本质也是和机器翻译一样,这句到那句,有问就有答。
再如做数学题,看似风马牛不相及,其实也是问答本质。
再如多轮会话,也只不过类似多轮问答。
有机器翻译在前,大家就好理解文章生成了。如果有人翻译过图书,希望做到信雅达而不是逐字逐译,那这就很容易理解文本生成了。其实大模型并不知道它生成的东西是啥,只是它吃了全世界互联网上的文章,某些词总是和某些词挨在一起,挨着的概率非常高,它就这样一个词一个词的生成,一个词一个词地判断下一个词的出现概率,一句话一个段落一篇文章就这么逐字生成了。
你理解了文本生成,那对于文本摘要就更容易理解了。比如你把关于一个企业一段时间的新闻报道都输给大模型,大模型做摘要本质就是做新闻重要度判断。
如果你看明白我说的这段范式,你就明白了:不就是输入一段顺序挨顺序的Token序列,这个Token可能是一个词内容也可能是一个股票一天的收盘价数值,反正就这么输入给大模型了。大模型输出的就是一串Token序列,这串序列可以是N句词语和词语排列好的句子,也可以是一只股票未来N天的收盘价。
(2)
在2017年Transformer没有出来之前,大家搞事都是一个任务一种算法,小而精巧,大家各玩各的赛道互不打扰,为了刷那论文0.01分绞尽脑汁,真叫盆景里雕花。2017年Transformer一出,一统天下,各个小而精巧的算法都废了,无脑堆数据就行了,于是教授们又纷纷回归学术界。
你看时间序列,有四大任务:预测与填充、分类与异常检测。
时间序列预测是个非常老的应用数学范畴,这个细分专业的人有自己的独特算法,比如ARIMA。但是人工智能入侵时间序列应用数学领域后,人工智能专家就用人工智能专业领域的方法重新思考时间序列处理了。
过去人们搞分类,喜欢机器学习的决策树/随即森林乃至现在人们常用XGBoost。过去人们搞预测,常用1997年发明的机器学习LSTM。再顺带说一句,Transformer的长短注意力机制就是来自LTSM。
到了2010年代,深度学习神经网络又回魂了,把80年代发明的CNN、RNN又捡回来了。于是人工智能领域又用CNN处理时间序列,比如TCN就是专门魔改CNN以便适合处理时间序列。后来人们又发明了TimesNet,这也是CNN的原理本质但比TCN更复杂。
想一想,Transformer多强大,但内核是FFN前馈网络,这比CNN还要古老。Transformer火了后,人们又用Transformer适应时间序列,于是出现了大家看到的InTransformer-AutoTransformer等等。
大家不是想起大模型曾经也遇到处理的序列不够长的问题了吧,所以Transformer处理时间序列也遇到了这个问题。所以谷歌在去年3月又发明了PatchTST,用一个个批处理包Patch来处理更长序列的准确预测。
今年5月呢,谷歌在Patch思路的基础上,又结合大模型的预训练机制、海量数据预训练零样本无监督学习机制,推出了TimesFM。
这都是时间序列的专属模型。不过我又想起我朋友问我的一句话:你为啥总是能看到别人看不到的地方,你为啥总能看透众多表象背后的核心与本质?我回答他说:我的知识是包含政治、军事、历史、地理、金融、经济、宗教、人性、组织、管理、技术...,众多知识,给了我动态的、多面多维立体的非线性的关联思考。如果我只懂一面,我肯定也想不到。
所以,大模型这帮人也是这么想的。去年,有人搞了闭源的可以处理时间序列的大模型TimeGPT。去年GPT也推出了GPT4TS。今年1月,人们也发表了基于开源大模型的适合时间序列处理的Times-LLM,不过目前还是停留在论文阶段。
(3)
这就是我说的殊路同归。看似时间序列结构性数值数据和文章内容数据不相容,其实本质一样。
另外,站在我上述讲的我这个人脑思考问题的方法,需要把各种知识关联在一起才更有洞察力和预测性,所以这正是通用大模型的拿手好戏。这也是哲学原则。
而且LLM是目前世界的主航道,全世界的人都在给它添砖加瓦,所以LLM会进化的非常快,那么基于LLM的时间序列处理也会自然水涨船高。
请先 登录后发表评论 ~