第七十九夜 学习(二)(1 / 2)

加入书签

强化的权变关系。

同自然界中波是一样,也就是说强化的频率(间隔多长时间给予强化),强化的强度(也就是振幅,一次给多少,波谷相当于给予负强化,波峰相当于正强化,振幅可以是个常数,也可以是变量,就好比波一样,频率和振幅都是可变的,但不会改变波的本质)。

波的横坐标可以看作是学习积累量,纵坐标看做学习加速度(积极性)。

连续强化和间接强化。

连续强化多用于学习新事物,每做正确一个行为,即使没有达到目的,都需要及时奖励,这是保证学习积极性和有效性的最佳策略。

间接强化多用于维持已学得行为,这时行为已经不再是学习(不再是新鲜事物和未知事物)而是重复性的行为,但如果一直不能得到强化(奖励,有益于生存和繁殖的所有行为或资源),个体无法积极响应和维持这种无意义的行为。

间隔多少次或多长时间进行强化,和行为的难度(花费的时间和代价)、个体的认知(阀值高低,多少次没有回报才算不值得)、环境压力(外因造成的不利己)等综合决定。

有意思的是,为什么间接强化对于已经习得的行为或认知要比连续强化更有效呢?

连续强化对于个体而言获得更多的收益是没错的,但我们现在研究的是教授和训练,主体不只是学习个体还有教授的个体,个体最佳的学习路径并不是以自身实践在环境中学习。

这样做一是效率不高,他要走很多弯路才能学习到正确的行为甚至永远都学习不到,二是风险大,例如哪些食物是有毒的,哪些动物最好离远点,这些学习往往是以生命为代价的,三是不具有种族累积性,个体的一生所学习到的知识和技能,如果不能教授给下一代,那么这个种族必将灭亡,因为这和基因进化性质一样,没有遗传,哪有变异。

所以传授、教授是个体学习的最佳路径,所有哺乳动物都具备这样的传授行为,这时以上的问题就能很好的解释了:

一是从传授者角度看,资源是有限的和必须要付出相应的代价获得,这是传授最基础的认知,因为个体学习的根本目的就是能获得更多的资源(或以更少的代价,更有效率的行为)来更好的生存和繁殖。

对于已经学会的行为,相比正在学习的行为已经习得行为作用个体的时间很长,有的可能是一生,而学习过程(学习行为)却很短暂,只要个体掌握了学习就算结束。

对于短期的学习行为因为要花费学习者更多的精力和时间(学习过程不产生效益),传授者如果不给予高频率大数量的奖励,个体很可能因为这个过程对自己没有收益而放弃。

而当学习完成,个体已经没有理由再从传授者这里获得收益,他可以用学习到的行为获得收益,除非这种行为有利于传授者,而这种已经学会的行为与那些正在学习的行为相比不再重要,传授者必须以最小的付出维持个体的习得行为。

从学习者(个体)来看,通过从教授者那里获得收益的频率和数量,让他们更关注那些新事物新学习,让个体明白什么才是相对重要的,这也是为什么差别化实质上是一种行为暗示。

再从资源边际效应上看,如果同一种奖励过多,其每一次产生的激励作用递减,总有这样的一个临界数量,这时奖励对于个体而言已经不再有什么区别。

例如食物训练时,每次只给一点就是因为当动物吃饱后,食物对他们而言已经不再有效益。

最后,间隔强化最大的特点就是不确定性,对于个体而言,他不确定哪次行为或什么时间会有奖励,这种不确定性之所以能给个体以更大的强化是因为他符合我们(包括动物)进化机制。

动物外出捕食并不是每次都能成功,他们不能确定收益的时间和数量,为了生存和繁殖,每次外出行为实质上都有一种获得食物和资源的预期,这种激励机制通过上百万年进化已经能十分有效的作用于几乎所有动物,相对于每次都能获得食物,这与我们自身进化和环境适应相冲突。

变动比率(时间)安排。

上面提到间隔强化中间隔有多种形式,有的以次数为依据(比率安排),有的以时间为依据(间隔安排),和前面提到的强化权变关系一样,强化具有波的性质。

这里以固定时间或固定次数为间隔的是频率不变的波(如果每次强化数量也一样则波幅也不变)。

例如工厂按件计费和按时计费就是这种情况,但环境中还存在一种不可预知、不可确定的间隔强化(个体掌控很少的情况,大多数生存环境都是这样),这种强化因为符合进化机制(动物捕食,存在超额收益的可能),所以对个体的作用和效果远大于固定强化。

例如赌博、彩票、推销、保险、抽奖等。

实验对饥饿的鸽子啄击铁板,但不确定次数出食,鸽子在一小时内不停的啄击12000多次,有的2次就出食了,有的198次才出食,平均一小时内需110次才出一次。

实验再对同样饥饿的鸽子,这次设定固定次数出食,110次出一次,由于不再有少于110次出食的情况(例如2次就出食),鸽子啄击的频率由开始很快到后面明显变慢,到后面变成基本固定的频率。

鸽子知道必须啄击同样的次数必定出食(在两次间隔中间,鸽子基本已经丧失了啄击的动力,但在次数快够出食时,啄击明显加快),这种确定性消除了超额收益的可能(短时间少次数获得收益),让个体获得收益的积极性完全丧失。

↑返回顶部↑

书页/目录