(注:非严谨的研究文章,以易理解、实践为准)
先从基础概念讲起。
AI模型的活动大概过程:通过数据训练从规律中得到函数模型,通过函数计算输入数据,给出最大概率的结果。
大模型之所以大,是指模型参数够大,一般亿级以上。所以函数层级够深,兼顾到更多因素、精度更高。例如下棋,以往AI遍历10步以内怎么下胜算更大,现在就是1000步以内如何胜算更大。同时需要的资源也多。
从上面可以看出,训练数据的质量决定函数的质量。如果训练数据中,一直告诉程序1+1=3,那后面问训练完成的模型1+1,它就会告诉你3。
再说下预训练,其实是对训练的分步拆解。例如希望有个中文合同要素提取的AI模型,和以往对比,现在大模型做法就是先预训练中文语义模型,再用大量的合同模板进行训练,然后再对要素提取进行训练。有了拆解,就可以进行分工,降低成本。举例:openai负责第一步的语义模型,解决方案供应商负责合同训练,企业再对模型的要素提取精准度进行微调。
说完以上概念,下面说下我们自己的理解。
从ChatGPT和MidJourney来看,大模型目前看是非常可行的路子。资源也不是问题。在应用时,大模型区别于以往AI模型主要有:
考虑的因素多;支持的场景多;参与的个体多。
当然不仅限于自然语言生成、图片生成这种通用场景,诸多领域的问题都可以尝试解决。
比如交通,红绿灯的协调,可以把附近几公里的红绿灯、行人数量都计算进去,从而灵活调整红绿灯时间及协调车流疏散。自动驾驶也不再是每个车辆自己去识别、计算,而是与交通中心的总模型共同协作。
比如无人机,目前的无人机是预编程,机械型的组成图案,偏表演。如果是在军事领域,可以根据实地情况,在一个空间塞入大量便宜的无人机协同作战,形成战力碾压。
比如投资策略。使用ChatGPT问答式的制定投资策略不合适,它只能按自然语言分析获取投喂的策略,生成的策略依然是小参数、少因子的模型。可以尝试大模型包含更多的策略因子,包括国外、国内、宏观、微观、行业、企业、行情、舆情等,步步推导,给出最大胜算概率的投资标的。
这些场景共性是什么呢?对大资源的动态、精准的控制利用能力。所以可以打开思路,不要单纯被聊天、图片生成这种限制住。
同时,我们依然要考虑大模型AI的局限性。人工智能不能创造智能(模拟出电能到智能这条能量转化路径,估计还得百万年),也就是GPT3.5到GPT4不能自动演变,而只能程序员进行升级。人工智能也不能控制智能。
另外,试用了下最近开源的BLOOMChat,效果赶不上ChatGPT。应该是训练数据不行。就像meta的opt,也是数据质量问题。所以,依然保持前面选型中“私有化版本选ChatGLM”的决定。