談奬勵的增強效果(下)
(What Makes a Reward Rewarding?)
原文出處:http://www.clickertraining.com/node/1642
作者:英國響片訓練師凱依.羅倫斯萊爾寫於2008年
譯者:黃薇菁
譯文出處:動物的事‧響片訓練奇摩部落格
奬勵呈現的時間
奬勵呈現的時間將強調行為的進行程序,如果召回時狗兒得離開其他狗,大老遠跑到人身邊,奬勵呈現的時間應該等於牠專注於這項行為的時間。這個奬勵也應該反映狗兒留在這個奬勵情境之下所必須展現的自制力。
如果你教狗兒用腳搭東西,奬勵應該等同這個行為的持續時間,搭一下=咬一口,吞下去
我對肢體式奬勵的施予不會超過3秒,但給予零食的時間我則可能拉長到10秒之久,這個過程由響片聲啟始,接下來是8秒鐘的迷你高潮,結尾是給予食物,請牢記:對奬勵的期待比奬勵本身更具奬勵效果。
當狗兒聽到響片聲,開始尋找奬勵,你立刻開始朝著食物罐方向接近(我甚至還會邀請牠和我一起找),然後打開罐子──確定牠好好聞到香味──在罐中攪個幾秒,再決定哪塊最適合奬勵這次牠出現的行為,這些互動的過程都是奬勵的一部分。
拖了很久才給予奬勵的過程有其風險,狗兒可能一心專注在奬勵上而忘記行為,學習新行為(特別是解題訓練)時尤其會如此,此時用的奬勵必須很簡單、不會令牠分心、具一致性,而且迅速給予(注意:如果你一直以來不斷與牠練習記憶技巧,那麼延遲給予奬勵的干擾則可增進牠的專注力)。
給予食物的時間或許並不長,但是如果拾取食物過程中狗兒先事探索,再決定性地聞聞,最後才品嚐,確認品質,那麼這個過程花掉的時間可能不具奬勵效果──使用熟悉或容易拾起吞下的食物都可以減少過程花掉的時間。
我家梅波就是實證,雖然巿售品牌零食的香味及大小皆佳,但是它會黏牙,因而需要超級強力的舌頭幫忙才能清理乾淨──屆時牠早已把剛才的行為忘光光,當然也不可能出現流暢的行為!有些狗則會拾起這類食物,邊吃邊進行下一個動作──一心二用的佼佼者!
遊戲的時間也可以變化,3秒鐘的拔河時間最好,長時間遊戲不僅會干擾記憶技能,而且消耗體力。你可發明各種不同程度的體力消耗遊戲,拔河遊戲可能很溫和(可玩久一些),也可能激烈(無法重復多次)。
放置奬勵的位置
它可以成就行為,也可以破壞行為,雖然響片聲保証會有奬勵,如果奬勵過了很久才出現,或者狗兒必須花很長時間才找得到,奬勵便會喪失價值,變得具有處罰意味了。
我看過狗兒聽到響片聲時向後縮了一下,因為食物被人用力迅速地向牠丟過去,使牠預期接下來將出現不快的事,當給予食物奬勵過快或過慢,行為的頻率和進步都可能極慢。
教導新行為時,奬勵的位置應該放在最易促成狗兒開始下一個行為的地方,如果狗兒在行為完成點獲得了食物,那麼它即需要自己出現一些動作才能找到下一個行為的啟始點。如果你正訓練從站到趴的姿勢,按下正確的動作,但是把奬勵在狗兒站起來才吃得到的位置,這樣讓牠吃到食物後立即可開始下一個動作,事先計畫奬勵位置對於教導流暢行為很重要,尤其牽涉到重覆的肌肉運動時更是。
如果食物是遞送到行為完成點,有兩個影響行為的後果:
1。增強效果將著重於行為的『結束』,被響片聲和奬勵共同增強,於是行為的「開始」較未受增強,然而它通常才是確保行為完整達成的重點。
2。狗兒完成行為後及在奬勵過程中可能會放鬆肌肉,這對教導持續行為很有用,但是若要教導迅速反應或快速重覆某個行為時即大為不利。
教導狗兒依訊號趴下時,你要找的是:
訊號和行為間的迅速關聯性
導致正確趴臥動作的肌肉收縮(不是坐下或身子前壓敬禮時的肌肉動作)
正襟圍坐的趴臥姿勢
如果這個趴臥姿勢用來控制機制或用來顯示自制力,狗兒可能極快便需要變換姿勢,以進行另一項行為,牠的肌肉必須收緊到位,準備行動。如果你等狗兒站起來才給予奬勵,牠學會趴下,維持肌肉張力,然後迅速起身去取奬勵。如果你要的是長時間趴臥姿勢,你可利用響片慢慢拉長趴臥的時間。
如果我想訓練狗兒長時間放鬆趴著,我會教牠聽到「settle」的訊號時就側臥,此時響片出現後的奬勵則直接拿給牠(我使用不同的響片聲表達不同訊息:一般響片聲代表『是,去拿吧,去追食物!』,較小聲的響片聲代表『你做得很好,我會把食物拿給你。』)
給予食物的位置必須多加變化,依照想教導的行為和狗兒的特性選擇適當的位置。
我教達蒂把頭轉向牠的右側時,我坐著椅子上,把食物放在牠鼻頭高度,為了避免動作強烈聯結到特定姿勢,我不斷改變基本姿勢──牠有時站著,有時坐著,有時趴著,當牠的頭一動,我按下響片,在牠的左側給賞,牠不必移動腳就可以領到賞,這樣我可以維持牠的基本姿勢,而且把牠的頭導向反方向的作法會讓牠右側頸部肌肉想要移動。當牠能夠出現轉向右側的動作時,為了延長這個姿勢的時間,我把給予食物的位置改為動作完成點──使牠的頭維持朝向右側,這個餵食位置的改變是學習改變後引起的結果,當行為已獲建立,我即改變給食位置。
測試口令的反應
我測試口令反應時常利用丟出零食的方式,當狗兒拾起零食時下口令,此時狗兒沒有看著我,只能聽到口令,不過有些狗兒吃東西時極其專注,沒辦法聽見任何口令。
簡化取得奬勵的過程
不要利用給食位置作為競爭點,想像一下,自己辛苦工作了一個月想去領薪水,卻聽到對方告訴你:「你的薪水在右邊第三間辦公室裡的某處,你必須自個兒去找。」好樣的,這招還真讓人感謝啊!
這種過程很容易對奬勵產生反應,也降低它的效果,如果你喜歡亂丟零食,請你改以放置零食的作法,不要依賴自己高超的丟擲技巧,尤其遇到視力不佳的狗兒時,請牢記:等狗兒看到你的手時再丟食物,牠才有機會看到它何時離手,往哪裡去。
如果地板花色不易看到零食,使用碗或容器讓牠確實可以看到食物。同樣地,要讓牠回到行為的啟始點,如果你想擴大啟始點的範圍,希望餵食位置多變又準確,在按下響片後,當狗兒一看著你時即開始出現引發牠對奬勵興趣的動作,然後把零食放在你要的確切定點。
奬勵的位置可多加變化,可放低緩慢移動,可放在不顯眼的地方,也可以讓牠跟著你跑去另一房間、車上或廚房裡去取玩具。當你開始整個奬勵的過程時,奬勵效果即已產生,最後是奬勵本身的出現。切勿忽略教導這個過程,要讓狗兒熟悉。
給予奬勵的方式
這對成功訓練很重要,如果狗兒專心一意聆聽響片聲,給予奬勵的方式即必須迅速一致,而且不可有太多的多餘肢體動作。奬勵的給予動作不應該打斷狗兒專注力或令牠自響片聲分心,在獲得新行為的過程中,對學習者而言響片聲比奬勵更為重要,狗兒必須找出響片聲出現時發生何事,把它與之前響片聲出現的事件作比較,開始察覺模式,並且朝著學習的方向加以試驗;對許多狗兒來說,這個解開謎底的過程引人入勝又具奬勵作用,於是訓練者不必使用到與行為難度相當的高檔奬勵,因為發生學習時的自我奬勵特性與單純重覆作練習有所不同。
舉個極端的例子,我利用鼻頭碰手教召回,並加上激動的『追逐臘腸』遊戲──當我按下響片,我即開始誇張至極地以打保齡球動作,把一塊臘腸儘快用力丟到房間另一頭,為了增加興奮程度,我會變化丟的方向,假裝丟到一邊,可是馬上叫回牠,讓牠看到我往另一邊丟──這個遊戲的重點是去追滾動的臘腸,而不是尋找沒看到的臘腸。 兩公分左右的小熱狗最適合這麼玩,它好似會邊彈起來還邊諷刺地說:「追不到,追不到!」這個遊戲對於召回訓練的成效立即呈現──臘腸滾得越快,召回來碰手的速度越快,在狗兒正在『殺死』熱狗或把熱狗吞下肚之後,你可以趁機加入召回的口令──成功的跑步召回在吞下食物後較為安全,不要在牠尚在進食時召回。
把給予奬勵的方式化為遊戲可加倍奬勵成效,也使想教授的行為增添一些情緒色彩,追逐臘腸的樂趣無可避免地與召回行為連結在一塊兒,使召回行為產生幾近相同的樂趣。
至於慢條斯理的狗兒,你必須配合牠們的學習風格,刻意放慢給賞速度:在你給予揮揮腳掌的訊號後,牠們可能會眨兩下眼睛(好比硬碟在資料庫中尋找著符合的資料),傳送訊息到身體後半部,停下來移動身子,往後出現坐姿,調整前半身重量到一側,以便舉起一隻前腳,你再按下響片,緩慢舉手伸向食物容器方向,伸入容器內,取了『新鮮獵物』,把『獵物』移到掌心,再從肩膀高度開始緩慢把掌心放低,送往牠嘴部。
這招對心急的狗兒也有效,這類狗兒聽到響片聲後利用心電感應把一股腦十萬火急的訊息傳達給提供奬勵的人,這種亂七八糟又挫折的狀況可能惡性循環,過度影響每項成功的行為,它對於慢吞吞起始行為的狗兒可能不錯,但是相反的作法則可促使急躁狗兒放鬆。激動的予賞方式可能燃起慢熟狗兒的激動情緒,但是有些狗兒的行為速度就是改不了,試圖這麼做可能增添牠的挫折,也可能具處罰性質。
利用另一項行為
如果某項行為極具奬勵效果,它可用來奬勵另一行為,代表前者的訊號可用來替代響片的功能,這個極棒的技巧利用行為的奬勵性情緒影響新的行為。
如果你利用遊戲奬勵行為,它的效果尤其明顯。你可用這個遊戲的訊號代替響片,不過假如狗兒覺得某個動作(例如轉圈圈、跳躍或在地上翻滾)具有奬勵性質,利用它奬勵另一行為同樣也不難,這在敏捷賽中顯而易見,跑去某個接觸點或轉彎的訊號被下一個項目的訊號所奬勵,於是下一項目的行為便具有奬勵作用。
獵犬或牧羊犬會依指示堅如磐石地穩定守在定點,因為這個行為將獲得最高層級的奬勵:「去幹活吧!」利用行為奬勵行為的技巧在教授連鎖行為時尤其有用,但是謹慎使用這個策略,因為狗兒能夠尋找自我奬勵的機會必須受到保護才行。
測試奬勵的效果
你可以試驗各式各樣的奬勵,結果可能相當有趣又重要,先列出一張你認為狗兒覺得什麼是奬勵的清單,例如:
舔一下鵝肝醬
起司
生的動物心臟
『好乖!』
摸摸頭
抱抱
跳跳
舔你的臉
搔肚皮
挑出一項,準備進行簡單的自由塑形練習。找個訓練完成的行為(例如舉前腳),然後轉移到一個新物件,按響片後給予這個奬勵,譬如摸摸頭,記下在一分鐘內狗兒重覆了幾次行為,如果增強頻率(按響片的次數)維持差不多或有提高,那麼摸摸頭即具有奬勵作用,如果反而下降,那麼就從奬勵清單中去掉這一項。
我不建議你花一整天測試奬勵的效果,否則響片可能變得失效,但是看看口頭稱讚或新的超級零食是否有效時還是值得測試一下,看看成效如何。增強率的維持或增加顯示相當實際的奬勵效用。
按下響片並給予測試奬勵後,狗兒很少出現中止行為的情形,因為牠信任響片,不過第二次給予測試奬勵之後牠可能會開始中止行為,因為牠不相信你竟會忘記奬勵,在此狀況下,這個奬勵顯然不具奬勵作用。
你不只可由增強率得到直接測試結果,也可以狗兒是否回頭重覆行為或進行嘗試來作判斷。狗兒再度達成行為的熱忱與牠對奬勵的熱忱、進行行為的自信心和學習過程的樂趣有關,狗兒幾乎是絕佳的學習者而且牠們有能力做得極好,但是低度熱忱、方式和位置不當的奬勵都可干擾學習過程。
狗兒領賞後回頭進行行為的熱切程度是優良訓練技巧的指標,這時的訓練要求合乎學習者的程度,而且狗兒的動機只想再度領賞。如果你正學習如何適當提高訓練要求,你要確定就各方面而言,你使用的奬勵必須能夠引發動機。
利用拔河作為響片奬勵的訓練時,樂趣、好的訓練和安全是使它發揮極致的三準則。
留言列表