Rozdział 1 Scoring bankowy – podstawowe pojęcia

1.1 Scoring i model scoringowy

Scoring to, tłumacząc dosłownie, nadawanie oceny punktowej (ang. score – ocena punktowa)¹.

Przez model scoringowy rozumiemy najczęściej algorytm, który na podstawie danych nadaje ocenę punktową.

W ramach tego przedmiotu omawiamy przede wszystkim bankowe modele scoringowe. W bankach typowym zastosowaniem modeli scoringowych jest credit scoring, czyli scoring kredytowy. W przypadku scoringu kredytowego ocena punktowa (credit score) określa zdolność i wiarygodność kredytową klienta, czyli wskazuje na prawdopodobieństwo, że klient spłaci lub nie spłaci w terminie zobowiązania kredytowego. Banki stosują również inne niż credit scoring modele scoringowe, służące do oceny np. prawdopodobieństwa oszustwa, prawdopodobieństwa odejścia klienta czy prawdopodobieństwa odzyskania zobowiązania.

W przypadku scoringu kredytowego najczęściej przyjmuje się konwencję, że wysoka ocena punktowa oznacza niskie ryzyko kredytowe (niskie prawdopodobieństwo braku spłaty), a niska ocena punktowa wysokie ryzyko (wysokie prawdopodobieństwo braku spłaty).

1.2 Karta (tablica) scoringowa

Terminu „karta scoringowa” używa się obecnie często jako synonimu modelu scoringowego.

Jednak w węższym znaczeniu „karta scoringowa” to przedstawienie modelu scoringowego w formie tablicy scoringowej, np. takiej:

Cecha	Poziom	Punkty
Iloraz DtI (obsługa długu do dochodu)	[0-20]	75
	(20-40]	30
	powyżej 40	0
Liczba rachunków kredytowych z opóźnieniem 30+ w ostatnich 12 miesiącach	0	50
	1	20
	2+	0
Wykorzystanie limitu odnawialnego (%)	[0-30]	35
	(30-50]	25
	(50-70]	10
	powyżej 70	0

Jak widać, w przypadku karty scoringowej każda cecha (zarówno ilościowa, jak i jakościowa) podzielona jest na poziomy, każdemu poziomowi odpowiada liczba punktów.

Cechy (ang. features) nazywane są także zmiennymi (variables), atrybutami (attributes) czy charakterystykami (characteristics). Statystycy czy specjaliści od uczenia maszynowego nazywają cechy wchodzące w skład modelu predykcyjnego również predyktorami (ang. predictors), zmiennymi objaśniającymi (explanatory variables) czy zmiennymi wejściowymi (input variables).

Poziomy (levels) to inaczej kategorie (categories), warianty albo – szczególnie w przypadku cech ilościowych – przedziały (intervals). W terminologii uczenia maszynowego i modelowania bankowego przyjęło się również angielskie słowo bins, które będziemy tutaj tłumaczyć jako kubełki. Czynność podziału na kubełki to kubełkowanie (ang. binning).

Jeżeli w modelu scoringowym występują „punkty bazowe” — czyli stała wartość przyznawana każdej obserwacji na wejściu — to powinny one zostać uwzględniane w tablicy scoringowej. Zwykle umieszcza się je w pierwszym wierszu w tablicy. Brak punktów bazowych w tablicy oznacza zazwyczaj, że w danym modelu ich wartość wynosi zero. Punkty bazowe można, przez analogię do modeli regresji, określić jako „wyraz wolny”.

1.3 Przykładowy kod w R

Załóżmy, że mamy następującą prostą tablicę scoringową:

Cecha	Poziom	Punkty
Wyraz wolny (punkty bazowe)		50
Cecha1	10 lub mniej	10
	(10-30]	0
	powyżej 30	-10
Cecha2	0	44
	1	22
	2	11
	3+	0

Mamy dwóch klientów. Klienta A, dla którego cecha 1 wynosi 15, a cecha 2 to 3 oraz klienta B, dla którego pierwsza cecha ma wartość 10, a wartość drugiej cechy to 2.

Kod wyznaczający ocenę punktową dla tych klientów mógłby wyglądać na przykład tak:

# Tworzenie ramki danych z klientami
df <- data.frame(klient = c("A", "B"), cecha1 = c(15, 10), cecha2 = c(3,2))

# Wyznaczanie punktów dla każdej z cech
df$punkty_start <- 50
df$cecha1_punkty <- ifelse(df$cecha1 <= 10, 10, ifelse(df$cecha1 > 30, -10, 0))
df$cecha2_punkty <- ifelse(df$cecha2 == 0, 44, ifelse(df$cecha2==1, 22, ifelse(df$cecha2==2, 11, ifelse(df$cecha2>=3, 0, NA))))

# Obliczanie oceny punktowej (ang. score)
df$ocena_punktowa <- df$punkty_start + df$cecha1_punkty + df$cecha2_punkty
head(df)

klient	cecha1	cecha2	punkty_start	cecha1_punkty	cecha2_punkty	ocena_punktowa
A	15	3	50	0	0	50
B	10	2	50	10	11	71

1.4 Zadania

Warto zaznaczyć, że w języku polskim słowem scoring określa zarówno samą koncepcję nadawania oceny punktowej, jak i konkretną wartość tej oceny (ang. score), a także modele (algorytmy) nadające tę ocenę.↩︎