Rozdział 4 Zmienna celu w modelach scoringowych
4.1 Dobry i zły klient, zaniechanie spłaty (default)
W przypadku scoringu kredytowego tradycyjnie mówi się o klientach lub obserwacjach złych (bad) i dobrych (good). Jako złego klienta można traktować takiego, który zaniechał spłaty (ang. default — zaniechanie). W praktyce default może oznaczać, przykładowo, opóźnienie w spłacie większe niż 90 dni w ciągu pierwszych dwunastu miesięcy po uruchomieniu kredytu.
Zaniechanie realizacji zobowiązań kredytowych (default) rozpoznajemy najczęściej po opóźnieniu w spłacie. Typowy sposób liczenia opóźnienia to opóźnienie w dniach (skrót DPD, days past due oznacza dni opóźnienia). Opóźnianie się w spłacie nazywane jest czasem szkodowością (ang. delinquency). Typowe poziomy opóźnienia to 30, 60, 90, 120 dni (wielokrotności trzydziestki, czyli w przybliżeniu pełne miesiące). O ile określenia default używa się w przypadku dużych opóźnień (90 dni), o tyle scoring kredytowy może być budowany na podstawie niższych poziomów szkodowości, np. opóźnień 30-dniowych.
Zadaniem w modelowaniu scoringowym jest więc utworzenie rankingu klientów, kredytów, wniosków kredytowych według prawdopodobieństwa złego lub dobrego. Zgodnie z przyjętą konwencją, scoring kredytowy będzie działał poprawnie, jeżeli częstość złych (ang. bad rate) będzie wyższa dla obserwacji z niższą oceną punktową, a niższa dla obserwacji o wysokiej ocenie.
4.2 Szansa, log-odds
Zamiast częstości (prawdopodobieństwa) złego stosuje się czasem szansę (ang. odds) lub logarytm naturalny szansy (ang. log-odds).
Jeżeli prawdopodobieństwo (lub częstość) złego dla danej obserwacji lub grupy obserwacji oznaczymy symbolem pB, a prawdopodobieństwo dobrego symbolem pG, gdzie pG=1−pB, to szanse złego i dobrego dla tej samej obserwacji/grupy (oB i oG) możemy zdefiniować następująco:
oB=pB1−pB=pBpG;oG=pG1−pG=pGpB
Warto zauważyć, że szansa złego do odwrotność szansy dobrego:
oB=1oG Przekształcenie odwrotne, z szansy na prawdopodobieństwo wygląda następująco:
pB=oBoB+1=11+oGpG=oGoG+1=11+oB
Prawdopodobieństwa przyjmują wartości z przedziału [0;1], odpowiadające im szanse przyjmują wartości z przedziału [0;+∞)

Rysunek 4.1: Prawdopodobieństwa z przedziału (0,1) i odpowiadające im szanse.
Czasem (np. w przypadku regresji logistycznej) używa się logarytmów szans (log-odds):
lB=lnoB=lnpB1−pB=lnpBpG
Jak łatwo sprawdzić, spełniona jest równość:
lB=−lG
Funkcję f(x)=lnx1−x nazywa się funkcją logitową.
Odwrotne przekształcenia wyglądają tak7:
oB=exp(lB)
pB=exp(lB)1+exp(lB)=11+exp(−lB)
Funkcję f(x)=11+exp(−x) nazywa się funkcją logistyczną.
Prawdopodobieństwa przyjmują wartości z przedziału [0;1], odpowiadające im szanse przyjmuja wartości z przedziału (−∞;+∞)

Rysunek 4.2: Prawdopodobieństwa z przedziału (0,1) i odpowiadające im logarytmy szans.
Zapis exp(x) oznacza ex.↩︎