Le regole dell’apprendimento nell'addestramenrto del cane

Nel mondo degli istruttori cinofili, esistono due scuole di pensiero. C’è chi sostiene che sia utile, se non necessario, passare prima possibile a un tasso di rinforzo variabile.

(articolo tecnico) VIDEO

Una costante del mio lavoro per i cani, è non fermarmi mai. C’è sempre qualcosa che mi mette in movimento, che mi spinge a cercare, sperimentare, a ragionare anche su elementi che sembrano ormai definiti e accettati come regola da tutti. Di solito la prima reazione che ottengo è negativa. Chi sei, tu, per mettere in discussione quello che dicono gli esperti? Ma io continuo a cercare, sperimentare e ragionare, anche quando nella discussione non ricevo ascolto, o ottengo solo risposte negative. E’ quello che mi è successo, e mi succede, con la questione “tasso di rinforzo variabile”.

Se avete studiato principi e terminologia della psicologia animale, sapete che un rinforzo positivo è un evento piacevole associato a un comportamento, che produce un aumento nella probabilità che il cane (un animale) esibisca quel comportamento. Il cane fa un passo indietro, ottiene un boccone. Il cane fa un altro passo indietro, ottiene un altro boccone. Il cane mangia il boccone, ci guarda, e fa un altro passo indietro, per avere un boccone.

Questo, molto in breve, è il passaggio da condizionamento classico (una associazione puramente temporale tra comportamento e conseguenza piacevole), e condizionamento operante (il cane propone il comportamento per produrre la conseguenza piacevole). I tassi di rinforzo misurano la relazione tra comportamento di successo e conseguenza positiva.

Se il cane ottiene un boccone ogni volta che fa un passo indietro, il tasso di rinforzo è fisso, ed è in rapporto 1:1. Se il cane ottiene un boccone ogni due passi indietro, il tasso di rinforzo è fisso, ed è in rapporto 2:1. Se il cane ottiene un boccone per un numero variabile di passi, il tasso di rinforzo è, appunto, variabile.

lavoro col cane in apprendimento

Questo perché l’imprevedibilità del rinforzo aumenta la motivazione nel cane e rende il comportamento resistente all’estinzione.

Immaginate di pigiare un tasto e ottenere un euro. Se ottenete un euro ogni volta che lo pigiate, appena non avrete in cambio l’euro, penserete che quel tasto non funziona più. Ma se ottenete l’euro in modo imprevedibile, la strategia migliore è continuare a pigiare. E’ il principio del gioco d’azzardo.

L’altra scuola di pensiero prevede invece che l’unica strategia funzionale per ottenere e mantenere un comportamento appreso sia un tasso di rinforzo fisso 1:1. Credo di averlo sentito spiegare da Ken Ramirez, a un suo seminario, e ricordo di aver pensato: “Finalmente qualcuno che la pensa come me”. Un tasso di rinforzo fisso 1:1 non implica affatto che il cane debba ottenere un boccone per ogni passo indietro. Questa è una visione limitata di cos’è l’apprendimento, come agiscono i rinforzi e cosa sono i comportamenti appresi.

Per mantenere un tasso fisso di rinforzo 1:1 e evitare di dover dare un boccone per ogni passo indietro, le strategie sono diverse:

variare i rinforzi. Si può insegnare all’animale a accettare rinforzi diversi, primari, secondari, di maggior valore, di minor valore, sociali. Il cane viene rinforzato ogni volta, ma il rinforzo varia.
si può usare un comportamento per rinforzare un altro comportamento. E’ il principio di Premack. In Obedience, possiamo mandare il cane al coppetta e quando è al cono, mandarlo al box. Se andare al box gli piace tanto, l’essere andato alla coppetta è rinforzato dall’andare in box. Il cane ottiene la palla solo quando è nel box, ma andare al box rinforza andare alla coppetta. Il tasso di rinforzo è ancora fisso 1:1
si può trasformare il comportamento iniziale in qualcosa di più complesso. Abbiamo associato un passo indietro a un boccone. Aspettiamo, e quando il cane ne propone due, associamo due passi indietro a un boccone. Stiamo ancora rinforzando a tasso fisso 1:1, ma la nostra unità è passata da un passo a due passi. E’ il principio delle durate, delle sequenze e delle catene. Il nostro mattoncino, il passo indietro, è diventato un mattone più grande, o un insieme di mattoni diversi.

Mentre discutevo di tutto questo, in un inglese un po’ incespicante, ho realizzato che in realtà per me esistono due fasi ben distinte:

apprendimento: il cane impara a associare un comportamento a un rinforzo
performance: il cane esibisce un comportamento appreso.
Ne esiste una terza:
durata, sequenza, catena: il cane impara a esibire lo stesso comportamento più a lungo, o a esibire più comportamenti insieme, o in una sequenza temporale.
E persino una quarta:
niente rinforzi (allenamento alla gara)

addestramento del cane in apprendimento

Ragionando sulle due diverse fasi apprendimento/performance, ho cominciato a pensare che più che il tasso di rinforzo, quello che cambiano sono le regole dell’apprendimento per il cane.

Si passa da “ogni comportamento corretto = rinforzo” dell’apprendimento, a “nessuna informazione (positiva o negativa) = comportamento corretto = nessun rinforzo” della gara...

1. Apprendimento

In questa fase, il cane inizialmente non sa qual è il comportamento di successo. Sta a noi trovare un procedimento efficace per riuscire a farglielo capire. La regola è che ogni comportamento giusto viene rinforzato, per creare una associazione tra comportamento e rinforzo, e ogni comportamento sbagliato non viene rinforzato.
Il cane ottiene quindi due informazioni:

comportamento - rinforzo = questo comportamento funziona
comportamento - no rinforzo = questo comportamento non funziona

Se stiamo lavorando in stimolo (luring), l’informazione è solo positiva.
In questa fase, nessuno applica rinforzi a tasso variabile, perché il cane ha bisogno di ogni informazione utile per capire, per memorizzare, per ripetere. Soprattutto i cani con nessuna o poca esperienza possono crollare emotivamente se un comportamento “giusto” non viene rinforzato, quando ancora l’associazione comportamento/rinforzo è debole, e il cane manca di sicurezza e di motivazione sul comportamento appreso.

In questa fase quindi il tasso di rinforzo è fisso, 1:1. Questo non significa affatto rinforzare sempre e solo lo stesso comportamento, nel modellamento possiamo rinforzare comportamenti differenti (io lavoro spesso a due set di criteri in parallelo), ma la logica è che ogni comportamento utile a far capire al cane l’obiettivo finale, viene rinforzato. Nell’apprendimento in stimolo, l’informazione è solo positiva, non c’è errore (il comportamento viene indotto).

Nell’apprendimento in rinforzo, le informazioni sono due: comportamento corretto = rinforzo, comportamento scorretto = no rinforzo. L’assenza di rinforzo quindi viene associata a un errore.

2. Performance, esibire un comportamento appreso

Il comportamento è stato appreso: il cane ha associato comportamento a rinforzo, ha iniziato a proporre il comportamento, e quel comportamento è stato associato a un segnale. In questa fase il rinforzo serve per confermare al cane la scelta del comportamento associato al segnale, per discriminare o generalizzare il comportamento. Ogni volta che il cane esibisce il comportamento appreso in risposta al segnale, che discrimina o generalizza il comportamento, viene rinforzato. Se il comportamento è sotto segnale, e il cane lo esibisce in assenza del segnale, non viene rinforzato.
In questa fase è importante che il cane impari nuove regole:

il comportamento ha successo solo in presenza del segnale
il comportamento ha successo anche se cambia il contesto (generalizzazione)
il comportamento ha successo solo se esibito nella forma in cui è stato appreso

In questa fase, almeno all’inizio, il tasso di rinforzo è ancora fisso, 1:1. Questo perché vogliamo che il cane capisca quando il comportamento appreso funziona, e quando non funziona (non funziona se esibito senza segnale, non funziona esibire un comportamento diverso da quello associato al segnale, o in una forma diversa da quella appresa, funziona esibirlo anche se cambia il contesto).

In questa fase, si può passare a un tasso di rinforzo variabile lavorando a ripetizioni della stessa coppia segnale/comportamento, o in generale sulle ripetizioni. Questa strategia inizialmente può provocare frustrazione (il cane non ottiene il rinforzo anche se ha esibito il comportamento corretto), e può aumentare l’intensità del comportamento (Ramirez lo chiama “surfare la frustrazione”), ma può anche portare alla comparsa di comportamenti di stress (vocalizzazioni), di comportamenti di sicurezza (comportamenti appresi che hanno una lunga storia di rinforzo, o graditi al cane), a variazioni del comportamento appreso (se non va più bene farlo così, provo a cambiarlo). In realtà in questa fase è più probabile che si introducano rinforzi diversi, piuttosto di una totale assenza di rinforzo, a meno che il comportamento non sia in se gratificante per il cane. Il rischio infatti è che l’assenza di rinforzo sia ancora associata, correttamente, a un errore. Quindi, in questa fase il cane riceve sempre informazioni positive.

clicker training in apprendimento

3. Durata, sequenza, catena

Nelle durate, le sequenze e le catene, la regola cambia completamente. Se prima l’assenza di rinforzo implicava un errore, adesso il cane deve capire che l’assenza di rinforzo equivale al comportamento corretto.
Torniamo ai passi indietro. Ho insegnato al cane a fare tre passi indietro, ogni volta che li fa, rinforzo. Ho associato i passi indietro a un segnale, “back”, e ho introdotto come regola che i passi indietro funzionano solo se sono tre, se vengono esibiti subito dopo il segnale. Voglio aumentare la durata, passare da tre a 10, ad esempio.

Esistono diversi procedimenti per aumentare la difficoltà, ma quello che mi interessa discutere, qui, è che nel momento in cui il cane deve ripetere il comportamento, o continuare con un comportamento, deve essere sicuro che anche in assenza di rinforzo, quel comportamento è comunque corretto e di successo. Possiamo rassicurare il cane con la voce “Bravo, back”, ma dobbiamo arrivare al punto in cui senza informazioni da parte nostra, il cane riesce comunque a non perdere sicurezza, a credere che continua a funzionare anche se non produce un rinforzo.

Nelle durate, possiamo pensare che il nostro mattoncino da un passo indietro è diventato un mattoncino da tre passi indietro. A questo punto abbiamo allineato diversi mattoncini da tre passi indietro, e attraverso il meccanismo dell’anticipazione, il cane ha iniziato a proporre cinque passi indietro invece di tre, dopo il segnale. Questo è un procedimento piuttosto semplice, per aumentare la durata.

La nuova regola quindi è:

se dopo un segnale/comportamento, ti do un altro segnale, il comportamento esibito in precedenza è corretto, e per ottenere il rinforzo devi esibire tutti e due i comportamenti richiesti.

Il comportamento è corretto, funziona, ma non è sufficiente per ottenere il rinforzo, devi lavorare di più, impegnarti di più, per ottenere quello che vuoi e ti piace.
All’inizio i cani sono piuttosto confusi, ma si adattano piuttosto velocemente a questa nuova regola. Anche perché i cani con più esperienza di apprendimento in un setting positivo, tendono a aumentare la motivazione per i comportamenti appresi. Hanno meno bisogno di un rinforzo come motivazione a esibire il comportamento.

In questa fase esiste una seconda regola:

se dopo un segnale/comportamento, non ti do un altro segnale, e interrompo la durata (sequenza, catena), il comportamento esibito in precedenza è scorretto, e dobbiamo ricominciare tutto da capo.

Questa è una regola fondamentale, nel passaggio da un livello elementare dell’apprendimento, a un livello superiore. Non è più l’assenza di rinforzo, a indicare l’errore, ma l’interruzione della sequenza di eventi. In una sequenza o una catena obbligata (es. gli esercizi di Obedience), il cane impara che ricominciare da capo l’esercizio implica un errore, e impara a concentrarsi e impegnarsi di più, per arrivare all fine dell’esercizio.

4. Niente rinforzi (preparazione alla gara)

C’è qualcosa oltre durata, sequenze e catene? Io l’ho rivissuto con Puma, nel percorso di preparazione alla classe tre di Obedience. Puma patisce l’assenza di rinforzo a fine esercizio. E’ un problema che non ho avuto con gli altri cani, in passato. Ho sempre potuto usare rinforzi in allenamento senza che il cane fosse così stressato in gara da diventare sordo a ogni mio segnale. Puma non ce la fa. Se la regola è: eseguire correttamente tutti i comportamenti di un esercizio per ottenere la palla, questa è la sua aspettativa. Io non credo che lei viva l’assenza di rinforzo come un errore suo, quanto una aspettativa tradita. Non perde sicurezza nei comportamenti appresi, ma in me, e nel contesto.

Così, ho dovuto fare un ultimo passaggio:

comportamento - rinforzo
durata, sequenza, catena - rinforzo
esercizio - rinforzo
sequenza di esercizi - rinforzo

Il mattoncino iniziale, quel passo indietro, è diventato un gruppo di esercizi.
La nuova regola è:

se l’esercizio è corretto, passiamo a un esercizio successivo, e alla fine della sequenza di esercizi, c’è il rinforzo.

A forza di accumulare mattoni, abbiamo costruito una casa!

obedience preparazione del cane in apprendimento

Quello che ha stupito me, è quanto Puma si sia adattata alla nuova regola. All’inizio è stata dura, lo stress era tale da farle perdere concentrazione su ogni esercizio. Quando ha capito che la palla non era sparita, era solo ritardata nel tempo, ha iniziato a concentrarsi sugli esercizi, invece di disperdere energie e provare stress nella ricerca della pallina.
Un effetto collaterale, inatteso, è stato che la motivazione per la palla (il rinforzo), è aumentata, al punto che non sono più in grado di lavorare agli esercizi conosciuti con la palla in tasca. Se ho di nuovo la palla in tasca (di solito la lascio in entrata in uno zaino), è così eccitata da non riuscire a concentrarsi. Al contrario, se non ho la palla, e non le do la palla, è motivata e concentrata.
A questo livello, è raro rinforzare comportamenti, o frammenti delle sequenze e delle catene. Quello che viene rinforzato è l’intero esercizio, come viene esibito in gara.

Nella chiamata con due fermate, ad esempio, non rinforzo la partenza veloce, o la fermata in piedi e a terra, ma l’esercizio da gara: chiamata, fermata in piedi, partenza, fermata a terra, ritorno al piede. Il rinforzo può essere la palla, o passare all’esercizio successivo. Uno degli aspetti interessanti della preparazione alla gara, è che in gara il comportamento corretto non è più associato a un qualche tipo di rinforzo, e l’errore non viene segnalato.
Questo implica due regole:

l’esecuzione è associata a assenza di informazioni (il cane riceve informazioni solo a fine esercizio, e in gara è meglio tutelare lo stato emotivo, mantenendo un atteggiamento positivo anche se il cane ha sbagliato),
e all’assenza di rinforzo primario. Il cane deve essere autonomo, non dipendere più da noi per le proprie scelte (parlo, ovviamente, di conseguenze e non di segnali), e neppure dipendere dai rinforzi primari.

Il passaggio dalla prima fase alla quarta, con Puma, ha richiesto tre anni di lavoro. Ci sono cani più precoci, e conduttori più precoci, ma non cercate mai di forzare i tempi. Un conto è giocare con delle regole, e un conto è costringere il cane a fare qualcosa che gratifica solo noi.

L’apprendimento deve essere un gioco che, per quanto le regole siano impegnative, vince sempre il cane.