Jdi na obsah Jdi na menu
 


Clicker: Stručný výklad základních pojmů, se kterými se můžete setkat při práci s klikrem

17. 4. 2010

 

Motivace - reinforcement (upevnění)

 

Motivace je libovolná událost, ke které dojde během nějakého chování a která má za následek zvýšení pravděpodobnosti, že k podobnému jednání dojde i v budoucnu.

Tedy, v čase jsou propojeny dvě události:

  • určité chování vyvolá motivaci
  • k chování pak díky tomu dochází častěji.

 

Existují dva druhy motivace:

  • pozitivní (odměna - něco, co má učící se rád - potrava, pohlazení, pochvala)
  • negativní (nepříjemnost - něco, čemu se snaží učící se vyhnout - vynadání, škubnutí obojkem, protivný zvuk). Negativní motivace často účinkuje jen díky tomu, že její ukončení a následná úleva učícího se je vlastně motivací pozitivní.

 

Správná pozitivní motivace je vždy účinnější než negativní. U některých zvířat (např. u koček) negativní motivace téměř neúčinkuje.

 

Velikost odměny - co nejmenší (nejkratší), zejména jedná-li se o jídlo. Učící se se s přijmutím odměny nesmí dlouho zabývat, neboť to narušuje jeho soustředění.

 

Negativní motivace není  to samé, co potrestání.

Trest přichází většinou až  jako následek nějakého chování a nemá předpověditelný dopad na budoucí jednání (dost často je dopad právě opačný) nebo má pouze za cíl okamžité ukončení nějakého chování násilnou cestou opět bez předpověditelného dopadu.

 

Načasování motivace

K motivaci musí dojít během chování, které chci posílit nebo modifikovat. Informace o tom, že k motivaci dojde je pro učícího se velmi důležitou zprávou, která mu říká, že to, co právě provádí je to, co po něm jeho učitel chce. Časem se dokonce samotná tato informace stává důležitější, než konkrétní motivace.

Slouží-li jako pozitivní motivace pochvala, je správné načasování velmi obtížné. Učíme-li například psa sednout, může se nám stát, že než ho stihneme pochválit, tak už zase stojí. Chováním, které jsme v tomto případě motivovali, je místo sednutí stoupnutí.

 

Mimořádná odměna (jackpot)

V praxi se velmi osvědčuje odměnit učícího se čas od času mnohem více než obvykle (10x). Jedná se buď o naprosté překvapení pro učícího se, které vyvolává zvědavost, kdy zase přijde, nebo o odměnu za mimořádný a náhlý úspěch, který je tak znatelně více pozitivně motivován.

 

Podmíněné motivátory (conditioned reinforcers)

Velmi často, zejména při používání potravy jako motivátoru = odměny, se stává, že není možné motivovat učícího se během požadovaného chování. Např. když motivujeme správné chycení frisbee nebo výskok delfína. Motivování, které přijde až po provedení akce se míjí účinkem nebo může být dokonce zavádějící. Učící se totiž neví, kterou část jeho předchozího chování jsme vlastně motivovali (výšku výskoku, natočení těla, šplouchnutí při dopadu, ...).

Podmíněný motivátor je původně naprosto nevýznamný signál (písknutí, pohyb, záblesk světla, kliknutí, ...), který je pro učícího se upozorněním: teď to děláš dobře (event marker), odměna je na cestě (bridging stimulus).

Před započetím tréninku je třeba ustanovit vazbu mezi podmíněným motivátorem a odměnou. Když je vazba pochopena a v průběhu dalšího výcviku upevněna, může být poskytnutí samotné odměny značně odloženo nebo se dokonce sám podmíněný motivátor může stát odměnou. Chceme-li být ale úspěšní při výcviku psů, je třeba v prvních krocích striktně dodržovat zásadu: Jeden klik = jedna odměna.

Pro lidi jsou klasickým podmíněným motivátorem peníze. Zejména tehdy, jsou-li placeni za svou práci ihned (odměna dětí za mytí nádobí). Tím, že je možné peníze vyměnit prakticky za cokoli, stávají se díky této generalizaci velmi účinným motivátorem.

U psů se obvykle stává, že ihned poté, co pochopí význam podmíněného motivátoru, začnou sami různé chování nabízet ve snaze "vysloužit si kliknutí".

Podmíněný motivátor zároveň často označuje konec požadovaného jednání (job´s done), což je například u cviků na výdrž poněkud v rozporu s tradičním způsobem výcviku. Časem je možné, zejména při dalším formování chování psa (shaping), používat kliknutí i jako signál s významem teď jsi na správné cestě, pokračuj.

 

Negativní podmíněný motivátor

Negativní motivátory nejsou doporučovány a měly by být vždy podmíněny. Například škubnutí řetízkem by vždy mělo předcházet slovní upozornění (= podmíněný motivátor) třeba slovo "Ne!", které dá psovi možnost poslechnout a tím se vyhnout  použití skutečného motivátoru (= škubnutí). Pokud pouze škubáme, je výsledek většinou žalostný.

 

Plánování motivace

Základním nedorozuměním je názor, že začneme-li trénink pomocí pozitivní motivace, musíme pak už vždy při požadovaní příslušného chování používat motivátor. To není samozřejmě pravda. Motivátory se používají pouze v průběhu učení.

Začátečník potřebuje samozřejmě mnoho motivace, ale poměrně záhy nastává fáze, kdy je třeba přistoupit k proměnlivému plánování motivace (variable schedule of reinforcement). To spočívá v nepravidelném odměňování požadovaného chování (prostě někdy i správně provedený cvik neodměníme kliknutím). Nepravidelnost musí být skutečně náhodná a pro učícího se nepředpověditelná. To v něm vyvolává zvědavost, kdy přijde odměna a podstatně urychluje jeho reakce.

Proměnlivé plánování nesmí být použito tehdy, když podmíněný motivátor slouží zároveň jako potvrzení úspěšného vyřešení nějakého problému (nalezení kapesníku pána mezi jinými kapesníky), protože pes musí být informován o tom, zda se mu problém podařilo vyřešit.

 

Formování (shaping) chování

Motivovat jednání, které se buď čas od času vyskytuje, nebo je možné ho snadno navodit, není problém. Co ale s chováním, které samo nikdy nenastane? Formování spočívá v zachycení velmi malé tendence k požadovanému jednání a v postupném posouvání se v malých krocích směrem k jeho konečné podobě.

 

Deset pravidel pro formování chování

  1. Zvedejte požadavky v tak malých krocích, aby učící se měl vždy reálnou šanci uspět a zasloužit si odměnu.
  2. V jednom okamžiku formujte pouze jeden parametr chování (rychlost, způsob, výdrž, ...).
  3. Než  zpřísníte nebo přidáte požadavky, použijte na dosaženou úroveň proměnlivé plánování motivace.
  4. Při přidání nového kritéria na chování dočasně zmírněte požadavky na už naučené chování.
  5. Mějte vždy náskok před učícím se: Plánujte pečlivě výcvik tak, abyste byli připraveni na náhlý postup v učení a byli schopni odměnit jeho další krok.
  6. Neměňte v průběhu učení trenéry. Trénovat jednoho psa může více lidí, ale zachovávejte zásadu: Jedno chování = jeden trenér.
  7. Jestliže jeden způsob formování nepřináší kýžený výsledek, vymyslete jiný. Je určitě spousta jiných možností, jak dosáhnout stejného cíle.
  8. Bezdůvodně nepřerušujte výcvik. To se pro psa rovná potrestání.
  9. Jestliže již jednou naučené chování vymizí, vraťte se zpět "do školky" a velmi rychle zopakujete celý proces formování.
  10. Každou lekci ukončete úspěchem. Poslední cvik, který uděláte si pes bude nejvíc pamatovat. Skončete vždy, když se ocitnete příliš napřed.

 

 

Targeting, Mimicry, Modeling

 

Targeting (cílení) = upoutání pozornosti, navedení psa do žádané pozice nebo situace. Obvykle se používá hůlka, jejíhož konce se pes naučí dotýkat a my ho pak tímto způsobem můžeme vodit.

 

Mimicry (napodobování) psi se obvykle ve srovnání s jinými zvířaty málo "opičí", funguje to zejména u ptáků, koček a delfínů.

 

Modeling (tvarování rukama). Klasickým přípkladem je učení povelu sedni tím, že psovi zatlačíme na zadní část těla a přinutíme ho usednout. Tento způsob je velmi špatný pro učení, neboť pes si obvykle neuvědomuje, do jaké pozice jsme ho to nacpali. Spíš si pamatuje svůj marný boj proti nám. Při používání klikru se modelingu zásadně vyhýbáme a na psa pokud možno vůbec nesaháme.

 

Podnět (Stimuli)

Cokoli, co způsobí výskyt nějakého chování.

 

Povel (Cue)

Povelem může být cokoli. Od slovního povelu přes signál rukou až po písknutí na píšťalku.

Při tradičním výcviku se začíná s povelem a poté je, většinou pomocí tvarování rukama, pes přinucen povel splnit. Nakonec se naučí, že když nám vyhoví a například si sedne, vyhne se tomu, že ho budeme postrkovat a přitlačovat do žádané pozice. Vlastně se jedná o podmíněný negativní motivátor.

Při pozitivním motivování se pes nejprve naučí určité chování (cvik) tak, že se nám ho buď podaří "zachytit" kliknutím nebo, že použijeme formování, a sám nám ho pak aktivně  a spolehlivě nabízí, ve snaze vymámit z nás motivátor. Teprve poté se zavádí slovní povel ve smyslu jakéhosi semaforu, který psovi říká: "Teď máš zelenou a můžeš si bezchybným předvedením žádaného chování vysloužit motivátor". Takovýto povel se zároveň ihned stává pozitivním podmíněným motivátorem sám o sobě.

 

Zavedení povelu

Jednou z možností jak zavést povel je vydat ho těsně po začátku požadovaného chování, motivovat jeho dokončení a poté opakovat tento postup v různou dobu a na různých místech s tím, že se snažíme posunovat načasování povelu dopředu tak, že jej nakonec vydáváme před cvikem.

Druhá metoda (která se také používá pro delfíny) spočívá v tom, že střídavě povel vydáváme a nevydáváme, ale motivujeme jen ten výskyt chování, který následuje po povelu. Pes sám chování s vysokou frekvencí nabízí. Řekneme tedy "sedni" a motivujeme nejbližší sednutí. Pak necháme několik dalších sednutí bez povšimnutí a bez odměny a opět vydáme povel a motivujeme následné sednutí.

Třetí metoda spočívá ve formování reakce na povel tak, jako by to byl samostatný druh chování. Nejprve se po povelu motivuje byť i jen náznak sednutí a postupně se sednutí prohlubuje a zrychluje.

 

Zvládnutí povelu

Panuje obecný omyl: Jestliže si pes po vydání povelu "sedni" skutečně sedne, pak tento povel zvládl.

O tom, že byl nějaký povel zvládnut se však dá hovořit až po splnění následujících podmínek:

  1. Chování se vždy vyskytuje okamžitě po vydání povelu. (Sedni.)
  2. Chování se nikdy nevyskytuje bez vydání povelu. (Eliminace spontáního nabízení chování.)
  3. Chování se nikdy nevyskutuje po vydání jiného povelu. (Pes si nikdy nesedne např. na povel lehni.)
  4. Žádné jiné chování se nevyskytne jako reakce na tento povel. (Pes si nikdy na povel sedni např. nelehne.)

 

"Utlumení" (blednutí, vymizení) povelu (Fading)

Míra reakce na povel obvykle nezávisí na intenzitě povelu. (Zastavujeme-li v autě na červenou, neřídí se intenzita brzdění jasem světla semaforu.) Po zvládnutí povelu je proto možné jeho intenzitu (npř. pohyb ruky) postupně tlumit tak, že se stane pro nezasvěceného téměř neviditelnou.

 

Vodění (Targeting)

Pěst, hůlka, světelná stopa nebo cokoli jako cíl, pomocí něhož lze zvíře snadno vodit nebo přinutit něco dělat.

 

Posloupnosti chování (Behavior Chain)

Učíme-li psa nějaké posloupnosti chování je třeba dodržet následující pravidla:

  1. Každé jednotlivé chování učíme a motivujeme zvlášť.
  2. Posloupnost chování je třeba učit tak, aby pes postupoval vždy od neznámého ke známému, tedy nejprve učíme chování, které je na konci posloupnosti, pak přidáváme předposlední a tak se postupně dostaneme až k prvnímu. Tento způsob výcviku se nazývá zpětné zřetězení (back chaining). Jeho hlavním přínosem je, že pes má vždy maximální šanci úspěšně dokončit celou posloupnost, a to samo působí jako pozitivní motivátor. Tímto způsobem se dají učit například zóny na kladině v agility.

     

 

Komentáře

Přidat komentář

Přehled komentářů

Zatím nebyl vložen žádný komentář