现在正在迅猛发展中,人们正在追求建造能力更高的机器,各种智能机器层出不穷,最近的大语言模型的高热正好为这个趋势做一个注解。大语言模型看起来能力很强,令人惊艳,因此现在一种言论非常流行,那就是机器具备意识啦。我们就来谈谈这个事情。
首先开宗明义说明,我们认为,没有必要谈论机器的意识。很多人认为人和具有一定智能的生物都具备意识,而且意识是这些生物智能体形成智能行动的基础,因此他们认为,要发展智能机器,要让智能机器拥有强大的能力,就需要智能机器具备意识。我们认为不应该这样看。现在人们还不具备足够的知识来搞清楚究竟什么是意识,更遑论在人工智能体中建立意识。而且,也没有必要考虑意识,考虑智能机器的的主动性即可。
无疑,智能机器的主动性是提升人工智能的关键。要考虑智能机器的主动性,可以考虑智能机器的行为倾向就可以。对人工智能体而言,其行为倾向并不虚无缥缈,而是可以把握、可以对它展开工作的。而且,即使以后的人工智能体中有了意识,意识是感知、体验和意志,意识要起作用也还是需要先形成内部的倾向,然后用这种倾向去影响行动,也就是说,意识也要通过行为倾向来起作用。因此,直接对行为倾向展开研究展开工作,是更合理的,也是现实可行的。
我们将特别关注这两个方面:智能体的主观和能动。
值得再次强调,我们不知道人工智能体是否有意识,是否可以有意识,但是我们确切知道它有主观,而且主观起极为关键的作用,即使有意识,意识也要通过主观起作用。
什么是智能体的主观(jecvity)?智能体的主观是指智能体所具备的内部属性和倾向,这些属性和倾向形成智能体做推理和做反应的基础。
什么是智能体的能动(dynamic tion或者agency)?智能体的能动是指智能体可以做出自己的行动,而非仅遵循预设的规定。智能体的能动反映智能体的这样的能力:它可以根据具体情况作出针对性的决定和行动,这些决定和行动可能是全新的,而不仅仅是遵循预设的规定。
我们明确了最主要的宗旨:日益强大的智能体需要具备更高的主动性,主动性归结为主观和能动,具备良好的主观和积极的能动的智能体能更有效地应对复杂陌生的环境,这样的环境也催生和促进愈加丰富的主观和更加强大的能动。
由此可知人工智能的发展方向将是:发展出这样的智能体,它具备丰富正确的主观和积极正确的能动。对这样的智能体的需求,将会越来越大,越来越高级。这就要求我们深入研究主观和能动,研究它们的基本性质。
主观是智能体内部的倾向。可以由设计者来制定和灌输,也可以由智能体通过学习和经验来获取,也可以结合这两种。智能体总是有主观的。智能体的主观是分布式地隐藏于智能体的诸多内部结构里面,并没有被分离出来,而且很难被分离出来。对于智能体的主观,我们应该找到方法来描述和测度,进而调整,这种方法目前尚缺。当前的一个亟需解决的问题是:研究智能体的主观的结构,并且找到让主观和人类价值对齐的方法。这是一项困难的工作,但是,目前已经有了一些先期工作,特别是依据现象学的研究进路。这是非常值得开展的研究工作,将带来非常巨大的利益。
能动是指智能体可以做出并非预设的行动。智能体可以没有能动,那种完全没有能动的智能体,也可以工作得很好,如果其工作环境是熟知的和固定的。但是,具备能动的智能体才能应对复杂陌生的环境。智能体的能动是很困难的课题。要研究智能体的能动,就必须面临这个极其尖锐和突出的矛盾:图灵机是完全确定和基于固定规则的,怎么可能产生强大的能动(能动就是要超越预设的规则)?这个矛盾从计算时代的一开始就存在了。图灵在刚刚导入图灵机的两年后就导入了所谓的神谕机,就是试图对此有所突破。但是一直到现在,这个问题仍然非常尖锐存在。
如果不能在这个问题上有所前进,我们就不会有重大突破。最近我们试图导入一种新的计算方式,希望可以利用这种方式在智能体中建立一种结构,使用这种结构,积极的能动将成为可能。我们将在后续的文章中讨论这样的计算方式。
再强调一次:智能的机器都有主观,但是未必有能动;然而,如果要机器具备高级的主观,则必须有能动。主观和能动有密切的关系,以至于很多时候把它们合并称为主观能动性。当然,把它们分开加以研究,是更有利的。
我们相信,至此,我们已经基本上理清了围绕智能机器的意识的诸多概念上的混淆。后面需要的是真正深入的工作。
最后,作为一例,我们用如上的观点来看大语言模型。
大语言模型是一种使用大量的参数的,通过自监督学习或半监督学习,在大量的未标注的文本上进行训练,从而能够理解、生成、翻译和摘要化新的内容的语言模型。大语言模型使用技术和变换器模型来处理自然语言。这种智能体在多种自然语言任务上表现非常出色,表现出了这些特征:具有更强的灵活性和适应性,可以根据不同的任务和环境调整其参数和行为;具有更强的泛化能力和迁移能力,可以利用在大规模文本上预训练得到的知识,来解决特定领域或场景下的问题;具有更强的生成能力和创造力,可以根据给定的输入或提示,产生连贯、有意义、有趣甚至有创新性的文本或代码。
这种智能体的主观和能动是怎么样的呢?从智能体的外部看,人们往往会认为,这种智能体有非常强的主观和能动。但是,当我们和这种智能体有足够多的互动后,我们就可以发现这种智能体的主观在某些方面非常丰富,但是在某些关键方面相当薄弱,而其能动则非常弱小且经常出错。
大语言模型的内部程序是经过形成的,即不是直接编制内部程序,而是通过提供数据来影响内部程序,这其实是另外一种方式。在使用大语言模型时,它常有令人惊艳的表现,看起来其能动很强大,还有人认为大语言模型出现了涌现,即它的能动是涌现而出来的。但是,仔细考察后,可以知道它的行动来自于对训练数据的泛化。这种对数据的泛化如果可以看作是能动的话,也是非常薄弱的,这就是说,当大语言模型面对远超其训练数据的范围的问题,必然无法有效应对。
因为大语言模型是通过极大的数据训练而成的,因此其内部积累了非常丰富的知识,也就是说,当它面对一个问题时,它可以从很多角度,运用很多知识,就是说可以有非常多的倾向,从这个角度看,其主观非常丰富。但是另一方面,它的主观可以又非常薄弱。大语言模型的驱动不在其自己,而在于所谓的提示词,没有提示词,它就不能做任何事情。如果两个提示词仅有很小的差别,它也不会去主动考察和利用这种异同;如果两个提示词表面非常不同,但其实完全一样,它也不会去考察和利用异同,而是按照训练数据形成的既定的泛化做处理。
那么大语言模型是否具备能动?我们可以从内外两方面来考察。从外部看,大语言模型有非常令人惊艳的表现。例如,给它一些提示词,它可以做出一首动人的诗,而且从来没有人教过大语言模型这样的诗。用我们前面列出的标准看,我们自然可以认为大语言模型具备能动。从内部看,就更复杂一些。大语言模型是用一组大数据训练出来的,并不是人工编程实现的。
然后,当大语言模型运行时,它仍然是一个程序(只不过这个程序不是人工编程,而是大数据训练形成),也就是说它的一切行动都是已经规定在这个程序中了,因此就不可能产生能动。但是,大语言模型又可以写诗。这是非常令人困惑的事情,也是非常有争议的事情。这里,我们可以提供一个解释。一切都在泛化中。当用大数据做训练时,就形成了一个很庞大的程序,这个程序可以对训练集中的数据做正确的计算,但是对不在训练集中的数据,就有可能也做正确的计算,虽然这些数据并不在训练集中。这就是泛化。
就是说,训练可以使得程序正确计算某些没有在训练集中的数据。如果是这样的情况,大语言模型能做诗,就可以用泛化来解释。当然,要能做出有意义的良好的泛化,并不容易,需要训练集和学习过程达到一些严苛的要求。但是,如果我们能确定大语言模型的令人惊艳的能力来自于泛化时,我们也就知道大语言模型的能动很弱。事实上也很容易找到一些情况,使得大语言模型不具备强大能动这个事实凸显出来。有人做过这样的测试:先问一个问题,大语言模型通常会给出合适的答复,然后用答复中的某句话再问,这时,大语言模型就会陷入很糟糕的状态,道歉,胡说,等等。
也就是说,这样的做法,就形成了这样一个数据,它在训练集之外,而且和训练集非常不同,它使得大语言模型不能正确计算这个数据。世界超级复杂,训练集可以正确泛化到的数据仅是小部分。这样也就看清楚了的大语言模型的作用,它是一个超级有用的工具,可以帮助我们做很多事情,但是它并不是一个理解了世界的机器怪物,不能指望它可以做任何事情。如果我们仅让它做它擅长的事情,那就很好,否则就错了。然而,什么是它擅长的事情?这就需要研究它的主观。
审核编辑:刘清
- 使用 TC7106 ADC 实现 200 mV 满量程、每秒 3 个读数的典型应用
- PIC16F1509 太阳能 LED 安全灯
- KIT33662LEFEVBE,MC33662L CAN 评估套件,LIN2.1/SAEJ2602-2,LIN Phy
- 用于 TRIAC Crowbar 的 TL431 可编程精密基准的典型应用
- LTC3838IUHF-1 4.5V 至 14V 输入、1.2V/50A 2 相单输出的典型应用电路
- LT1506CS8-3.3 双路输出 SEPIC 转换器的典型应用电路
- BD48xxx系列BD48L32电压检测IC的典型应用
- LTC6990MPS6#TRMPBF 全范围 VCO 振荡器的典型应用,具有任何 NDIV 设置(正频率控制,fMIN 至 fMAX,VIN = 0V 至 VSET)
- L7824A 的典型应用通过降压电阻降低功耗
- ESP8266_WS2812B_心形