Pobranie dwóch zbiorów danych:
Statistic | N | Mean | St. Dev. | Min | Max |
coarse | 19,036 | 13.159 | 10.629 | 0 | 83 |
clay | 17,939 | 18.884 | 13.005 | 0 | 79 |
silt | 17,939 | 38.226 | 18.300 | 0 | 92 |
sand | 17,939 | 42.883 | 26.107 | 1 | 99 |
pH.in.CaCl2 | 19,036 | 5.594 | 1.426 | 2.570 | 9.250 |
pH.in.H2O | 19,036 | 6.198 | 1.353 | 3.210 | 10.080 |
OC | 19,036 | 50.003 | 91.307 | 0.000 | 586.800 |
CaCO3 | 19,036 | 51.601 | 125.318 | 0 | 944 |
N | 19,036 | 2.925 | 3.755 | 0.000 | 38.600 |
P | 19,036 | 30.076 | 32.855 | 0.000 | 1,366.400 |
K | 19,035 | 197.052 | 229.299 | 0.000 | 7,342.000 |
CEC | 19,036 | 15.757 | 14.485 | 0.000 | 234.000 |
POINT_ID | 19,036 | 42,757,642.000 | 7,506,485.000 | 26,521,974 | 57,981,484 |
OBSERVED | 19,036 | 1.002 | 0.048 | 1 | 2 |
OBS_TYPE | 19,036 | 1.034 | 0.194 | 1 | 3 |
GPS_PREC | 19,036 | 32.310 | 489.697 | 1 | 8,888 |
GPS_LAT | 19,036 | 50.547 | 7.953 | 34.984 | 88.889 |
GPS_LONG | 19,036 | 10.682 | 11.406 | -9.746 | 88.889 |
OBS_DIST | 19,036 | 283.467 | 4,898.888 | 0 | 88,888 |
OBS_DIRECT | 19,036 | 1.031 | 0.208 | 1 | 3 |
OBS_RADIUS | 19,036 | 1.587 | 0.492 | 1 | 2 |
LC1_PERCENT | 19,036 | 4.269 | 1.261 | 1 | 5 |
LC2_PERCENT | 18,062 | 0.281 | 1.068 | 0 | 5 |
AREA_SIZE | 19,036 | 3.023 | 0.834 | 1 | 4 |
TREES_HEIGHT | 19,001 | 0.605 | 0.906 | 0 | 2 |
FEATURES_WIDTH | 19,000 | 0.572 | 0.899 | 0 | 2 |
LAND_MNGT | 19,036 | 1.926 | 0.352 | 1 | 3 |
WM_WATER_MNGT | 19,036 | 5.702 | 1.880 | 1 | 8 |
WM_SRC_IRRIGATION | 19,036 | 0.313 | 1.881 | 0 | 16 |
WM_TYP_IRRIGATION | 19,036 | 0.297 | 1.777 | 0 | 16 |
WM_DELIVERY_SYST | 19,036 | 0.226 | 1.058 | 0 | 8 |
SOIL_SURVEY | 19,036 | 1.006 | 0.107 | 1 | 3 |
SOIL_PLOUGH | 19,036 | 1.701 | 0.467 | 0 | 2 |
SOIL_CROP | 19,036 | 1.598 | 1.042 | 0 | 4 |
SOIL_STONES | 19,036 | 1.395 | 0.766 | 0 | 4 |
X_LAEA | 19,036 | 4,275,455.000 | 750,602.800 | 2,652,000 | 5,798,000 |
Y_LAEA | 19,036 | 3,089,891.000 | 842,917.900 | 1,464,000 | 5,214,000 |
STRATA | 19,036 | 2.333 | 1.354 | 1 | 5 |
STRATA2 | 18,332 | 0.173 | 0.779 | 0 | 7 |
area0 | 19,036 | 352,862.900 | 185,687.900 | 2,596 | 638,341 |
area1 | 19,036 | 115,072.300 | 103,440.500 | 387 | 335,767 |
area2 | 19,036 | 40,000.290 | 36,056.480 | 387 | 165,075 |
area3 | 19,036 | 11,095.510 | 15,762.700 | 43 | 105,862 |
PHOTO_POINT | 19,036 | 1.020 | 0.345 | 1 | 8 |
PHOTO_CROP | 19,036 | 1.226 | 1.160 | 1 | 8 |
PHOTO_N | 19,036 | 1.001 | 0.035 | 1 | 2 |
PHOTO_E | 19,036 | 1.001 | 0.037 | 1 | 2 |
PHOTO_S | 19,036 | 1.001 | 0.035 | 1 | 2 |
PHOTO_W | 19,036 | 1.003 | 0.050 | 1 | 2 |
PHOTO_I | 19,036 | 7.631 | 1.562 | 1 | 8 |
PHOTO_T | 19,036 | 1.061 | 0.363 | 1 | 8 |
PHOTO_SOIL | 19,036 | 1.036 | 0.450 | 1 | 8 |
PHOTO_CONFLICT | 19,036 | 1.109 | 0.845 | 0 | 2 |
PCAREA | 19,018 | 54.129 | 15.346 | 0 | 100 |
PARMADO1 | 19,018 | 4.595 | 1.889 | 0 | 8 |
PARMADO2 | 19,018 | 47.761 | 18.861 | 0 | 80 |
PARMADO3 | 19,018 | 478.577 | 188.260 | 0 | 800 |
PARMASE1 | 19,018 | 2.622 | 2.637 | 0 | 8 |
PARMASE2 | 19,018 | 27.474 | 27.231 | 0 | 80 |
PARMASE3 | 19,018 | 274.339 | 272.532 | 0 | 800 |
Zbiór posiadał także zmienne nienumeryczne, między innymi takie jak:
Dodatkowo, w zbiorze znajdowały się pomiary spektralne 4200 długości fali dla każdej obserwacji. Nie zawierały one jednak powtórzeń.
RD wyliczono poprzez:
Wydzielono dwa zbiory do analizy:
ZBIÓR A - Zawierający wartość RD dla każdej długości fali w każdej obserwacji. Przykład dla jednego z pomiarów:
obserwacja | wavelength | powtorzenie_1 | powtorzenie_2 | diff | mean | RD |
---|---|---|---|---|---|---|
1 | 400.0 | 0.7564347 | 0.7557260 | 0.0007087 | 0.7560803 | 0.0009373 |
1 | 400.5 | 0.7655868 | 0.7648741 | 0.0007128 | 0.7652305 | 0.0009315 |
1 | 401.0 | 0.7746894 | 0.7739715 | 0.0007179 | 0.7743305 | 0.0009271 |
1 | 401.5 | 0.7837104 | 0.7829874 | 0.0007230 | 0.7833489 | 0.0009230 |
1 | 402.0 | 0.7926247 | 0.7918956 | 0.0007291 | 0.7922602 | 0.0009203 |
1 | 402.5 | 0.8014045 | 0.8006683 | 0.0007362 | 0.8010364 | 0.0009191 |
ZBIÓR B Zawierający medianę, średnią, odchylenie standardowe, oraz 95% przedział ufności średniej dla wartości RD w każdej obserwacji (brak długości fali w zbiorze). Do tego zbioru dołączono metadane z Pierwszej bazy danych. W efekcie połączenia uzyskano 16934 obserwacje. Przykład:
obserwacja | RD_mean | RD_median | RD_sd |
---|---|---|---|
1 | 0.0012313 | 0.0012444 | 0.0004211 |
10 | 0.0062178 | 0.0062494 | 0.0011757 |
100 | 0.0016846 | 0.0019665 | 0.0005974 |
10002 | 0.0010547 | 0.0010784 | 0.0005268 |
10004 | 0.0054591 | 0.0056815 | 0.0005605 |
10005 | 0.0082551 | 0.0085443 | 0.0012659 |
Do analizy różnic pomiędzy parami wykorzystano ZBIÓR B.
Podstwowe statystyki:
RD_mean | RD_median | RD_sd | |
---|---|---|---|
Min. :0.0000712 | Min. :0.00004446 | Min. :0.00006993 | |
1st Qu.:0.0013685 | 1st Qu.:0.00128928 | 1st Qu.:0.00046620 | |
Median :0.0026944 | Median :0.00270712 | Median :0.00070979 | |
Mean :0.0037372 | Mean :0.00382124 | Mean :0.00088616 | |
3rd Qu.:0.0049934 | 3rd Qu.:0.00513453 | 3rd Qu.:0.00108702 | |
Max. :0.0293527 | Max. :0.03173210 | Max. :0.01031784 |
Powyższe statystyki i wykresy pokazują, że istnieją sytuacje w których średnia wartość RD przekracza 0,01. Nie występują one jednak bardzo często. W 94.2% przypadków średnia wartość RD jest niższa niż 0,01, a więc odwrotna sytuacja występuje w 5.8% przypadków.
Sprawdzono korelację pomiędzy RD_mean a kilkoma wybranymi zmiennymi, aby określić która z nich najbardziej wpływa na wartości RD.
Korelacja ze zmienną RD_mean | |
---|---|
RD_mean | 1.0000000 |
coarse | 0.1287916 |
clay | 0.1882575 |
silt | 0.0106097 |
sand | -0.1018697 |
pH.in.CaCl2 | 0.0570795 |
pH.in.H2O | 0.0625079 |
OC | 0.1539108 |
CaCO3 | 0.0952680 |
N | 0.1834410 |
P | -0.0494880 |
K | 0.0811864 |
CEC | 0.2189456 |
Wyniki korelacji przedstawiono także na wykresie.
Wsród powyższych zmiennych, żadna nie wykazała znaczacego wpływu na wartość RD_mean. Najwyższe korelacje dodanie miały zmienne CEC, clay, N i OC - wynosiły one od ok. 0,15 do 0,22. W przypadku korelacji ujemnych najniższą wartość miała zmienna sand - ale znów była ona dość niewielka (-0,10).
Następnie nastąpiło bliższe przyjrzenie się relacjom RD do zmiennej clay oraz OC.
##
## Spearman's rank correlation rho
##
## data: danee$RD_mean and danee$clay
## S = 554360000000, p-value < 0.00000000000000022
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.1782827
Test korelacji rangowej Spearmana dał podobny wynik do powyższej korelacji liniowej Pearsona - ok. 0,18. Mimo dość niewielkiej wartości, jest ona istotna statystycznie.
Na pierwszym (“surowym”) wykresie relacji RD do clay nie można zbyt wiele powiedzieć o ich zależności. Zmienna clay ma dość skośny rozkład - większość jej wartości jest niższa niż ok. 30. Wyliczono więc logarytm ze zmiennej clay. Jego porówanenie do wartości RD daje trochę wyraźniejsze wyniki. Na ostatnim wykresie powyżej widać, że wartości RD poniżej 0,01 występują przy każdej możliwej wartości logarytmu clay. Z drugiej jednak strony - obserwacje z dużą wartością RD pojawiają się częściej wraz z wyższą wartością logarytmu clay.
Wartości zmiennej clay pogrupowano do ośmiu kategorii i porównano z wartościami RD. Tutaj również widoczny jest najniższy błąd (najniższa wartość RD) w kategoriach najmniejszej zawartości gliny, następnie błąd wzrasta do wartości gliny około 30-40, od tego momentu się stabilizujac.
Wykonano również odwrotną operację - pogrupowano wartości błędu na dwie kategorie - poniżej i powyżej 0,01. Na poniższej rycinie widać, że zawartość gliny jest wyraźnie niższa dla niższej grupy wartości RD. Wykres zawiera nacięcia - jeżeli one się na siebie nie nakładają to sugeruje to, że mediany pomiędzy kategoriami są istotnie statystycznie różne.
Podobą analizę wykonano w stosunku do zmiennej OC.
##
## Spearman's rank correlation rho
##
## data: danee$RD_mean and danee$OC
## S = 661080000000, p-value < 0.00000000000000022
## alternative hypothesis: true rho is not equal to 0
## sample estimates:
## rho
## 0.1831785
Tutaj również korelacja była dość niewielka (ok. 0,18), ale istotna statystycznie.
Wartości OC były bardzo skośne, więc również zostały zlogaritmizowane.
Uzyskane w ten sposób wykresy również ukazują, że wartości OC są wyższe w przypadkach większej wartości RD, jednak tutaj ta relacja nie jest tak widoczna jak dla zmiennej clay.
Do analizy różnic pomiędzy pomiędzy zmiennością wartości RD a długością fali wykorzystano ZBIÓR A.
Dla każdej obserwacji wyliczono zmienność RD w zależności od długości fali. Poniżej można zobaczyć przykład dla obserwacji numer 10:
Następnie takie przejścia wartości RD zostały uśrednione oraz wyliczono dla nich odchylenie standardowe. Na poniższym wykresie, czarna linia oznacza wartość średnią, a kolejne szare pasy - jedno, dwa i trzy odchylenia standardowe.
Zbudowano model próbujący określać średnią wartość RD na podstawie wybranych cech numerycznych. Poniżej widać wyniki prostego modelu liniowego:
##
## Call:
## lm(formula = log10(RD_mean) ~ ., data = ddd)
##
## Residuals:
## Min 1Q Median 3Q Max
## -1.42060 -0.25923 0.02627 0.27423 1.01463
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) -2.735e+00 5.983e-01 -4.571 4.90e-06 ***
## coarse 2.730e-03 2.871e-04 9.509 < 2e-16 ***
## clay 2.677e-03 5.986e-03 0.447 0.654702
## silt -2.180e-03 5.986e-03 -0.364 0.715677
## sand -6.812e-04 5.981e-03 -0.114 0.909324
## pH.in.CaCl2 -1.136e-01 1.520e-02 -7.471 8.40e-14 ***
## pH.in.H2O 1.107e-01 1.590e-02 6.966 3.40e-12 ***
## OC 9.709e-04 2.463e-04 3.941 8.13e-05 ***
## CaCO3 2.018e-04 2.951e-05 6.840 8.19e-12 ***
## N 1.572e-02 4.549e-03 3.456 0.000549 ***
## P -5.025e-04 1.012e-04 -4.964 6.98e-07 ***
## K 3.036e-05 1.548e-05 1.961 0.049921 *
## CEC 3.106e-03 5.045e-04 6.156 7.62e-10 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.3756 on 15924 degrees of freedom
## Multiple R-squared: 0.07752, Adjusted R-squared: 0.07683
## F-statistic: 111.5 on 12 and 15924 DF, p-value: < 2.2e-16
Uzyskane wyniki są bardzo niskie, z R2 na poziomie około 0.08.
Druga próba modelowania miała na celu określenie grup wielkości RD w zależności od cech numerycznych. Użyto w niej metodę lasów losowych.
TrainAccuracy | TrainKappa | method |
---|---|---|
0.3799605 | 0.0412619 | ranger |
Wyniki, podobnie jak powyżej, okazały się niezadowalające. Dokładność predykcji klas wynosiła ok. 0.38, wartości Kappy równa była 0.04.