Унадаг дугуйчдын амжилт наснаас хамаардаг уу гэсэн асуултад хариулахын тулд 2024 оны 5 сарын 18 өдөр Монголын дугуйн холбоо, Монгол наадам цогцолбор болон Номадик дугуйн клуб хамтран зохиосон Морь хурдан уу дугуй хурдан уу тэмцээнийн дүнг авч үзье. Өөрөөр хэлбэл тус асуултад өгөгдлийн шинжилгээгээр хариулна. Өгөгдлийг Монголын дугуйн холбооны албан ёсны Фейсбүүк хуудас дээрх мэдээ дэх зургуудаас хиймэл оюуны OCR багажийн тусламжтай гарган авсан. Ийнхүү бэлдсэн өгөгдлийг CSV форматтай файл болгоод www.magadlal.com веб сайт дээр хадгалсан. Өгөгдлийн шинжилгээг R програмын 4.5.2 хувилбар дээр хийв.
"https://www.magadlal.com/d/datasets/race.csv" |> read.csv(skip = 1) -> race
Ачаалсан өгөгдлийн 5 мөрийг санамсаргүй сонгоод хэвлэж харуулав.
set.seed(0)
race[sort(sample.int(n = nrow(race), size = 5)),] |> print()
Байр Овог.нэр Нас Харьяа.байгууллага...Клуб Хувийн.дугаар Амжилт
1 1 Б.Батбаяр 20 Мөнгөн Хэгээс 239 00:52:11
14 14 Ч.Анхбаяр 21 Darkhan road team 217 01:03:12
34 12 У.Одбаяр 38 УДА 311 01:00:32
39 17 Д.Гэрэлт-Од 38 Хувиараа 319 01:04:18
68 3 Г.Махгал 42 УДА 408 00:56:57
Хувьсагчдыг дуудах баганын нэрс зохимжгүй байгаа тул багануудын нэрийг солив.
colnames(race) <- c("place", "name", "age", "club", "number", "time")
Түүнчлэн тамирчдын амжилтыг илэрхийлэх хувьсагчийн утга 00:52:11 буюу HH:MM:SS форматтай character төрлийнх байгааг time төрөл рүү хувиргана. Улмаар тус хувьсагчийн утгуудыг хамгийн түрүүнд тэмцээний барианд орсон тамирчнаас тухайн тамирчин хэдэн секундын дараа барианд орсоныг секундээр илэрхийлдэг болгов. Тус шинэ хувьсагчийг seconds гэж нэрлэсэн.
Тэмцээний дүн мэдээнээс зөвхөн эрэгтэйчүүдийн сонирхогч ангиллын тамирчдын 20-29, 30-39 болон 40-49 насыг л авсан. Өөрөөр хэлбэл seconds хувьсагч нь хүйс ба мэргэжлийн тамирчид зэрэг хүчин зүйлийн нөлөөнөөс ангид юм. Өөрөөр хэлбэл тус хувьсагч дээр зөвхөн насны нөлөө л байж болно.
seconds болон age хувьсагчдын хамаарлыг цэгэн диаграммаар дүрслэн харуулав.

Хоёр хувьсагчийн хамаарлыг шугаман хэлбэртэй гэмээр тул хамаарлыг статистикийн шугаман загвараар илэрхийлэгдэнэ гэж таамаглана. Өөрөөр хэлбэл шугаман регрессийн шинжилгээ хийнэ.
Дээр дурдсанчлан seconds болон age хувьсагчдын хамаарлыг \[\text{seconds}=a+b\cdot\text{age}\]шугаман загвараар илэрхийлэгдэнэ гэж таамаглана.
Эхлээд загварын парамтрүүдийг үнэлнэ.
fit <- lm(formula = seconds ~ age, data = race)
Шугаман загварын хувьд үлдэгдлийн дисперс тогтмол, үлдэгдэл хэвийн тархалттай зэрэг таамаглал биелнэ гэж тооцдог. Эдгээр таамаглал хэр үнэмшилтэй байгааг харахаар загварын оношлогооны диаграммуудыг байгуулна. Бас таамаглалуудыг зохих шинжүүрээр шалгана.
Таамаглалуудыг 0.05 ач холбогдлын түвшинд шалгана.
Сая шугаман загварыг ашиглах үед тодорхой таамаглалуудыг биелнэ гэсэн шаардлага тавьдаг гэсэн. Мөн түүнчлэн өөр нэг шаардлага тавьдаг. Энэ бол түүврийн элементүүд хамааралгүй гэдэг шаардлага юм. Хэрэв хамааралтай бол өгөгдлийг өөр загвараар шинжилдэг. Манай тохиолдолд түүврийн элементүүд нь тэмцээнд оролцогч тамирчид юм. Тамирчдын амжилт буюу жийлтийн эрчим нь өөр хоорондоо хамааралгүй гэсэн таамаглал биелнэ гэж үзэх үндэстэй. Учир нь Морь хурдан уу, дугуй хурдан уу уралдааны үеэр тамирчид "толгой толгойгоо даан" жийцгээдэг. Өөрөөр хэлбэл баг багаараа хамтарч салхиа авах гэх мэтчилэн арга хэрэглэдэггүй. Миний ажиглалтаар ийм арга хэрэглэхээр оролдсон нь замын бартаанд онхолдох зэргээр бүтэлгүйтдэг юм билээ. Иймдээ ч тамирчид тус тэмцээнд оролцохдоо тийнхүү толгой толгойгоо даан хамааралгүйгээр уралддаг биз ээ. Дүгнэвээс, түүврийн элементүүд хамааралгүй буюу шугаман загвар дээрх уг шаардлага биелнэ хэмээн үзнэ.
Эхлээд үлдэгдлийн дисперс тогтмол гэсэн таамаглалыг авч үзье. Residuals vs Fitted Plot диаграмм байгуулж харвал ерөнхийдөө хонгил хэлбэр л ажиглагдана. Диаграммыг дараах тушаалаар байгуулна.
plot(fit, which = 1)

Бас Scale-Location Plot диаграмм ашиглаж болно.
plot(fit, which = 3)

Диаграмм харж "нүдээрээ" дүгнэлт гаргах нь өрөөсгөл юм. Иймээс үлдэгдлийн дисперс тогтмол эсэхийг Бройш-Паганы шинжүүрээр шалгана.
lmtest::bptest(fit)
studentized Breusch-Pagan test
data: fit
BP = 0.0015106, df = 1, p-value = 0.969
\(p\text{-утга}=0.969>0.05\) гэж гарсан нь тус шинжүүр тэг таамаглалыг 0.05 ач холбогдлын түвшинд үл няцааж буйг илтгэнэ.
Одоо шугаман загварын үлдэгдэл хэвийн тархалттай гэдэг таамаглалыг шалгана. Тархалт хэвийн эсэхийг Q-Q диаграммаас ажиглаж болно.
plot(fit, which = 2)

Диаграммыг харвал хэвийн тархалттай гэмээргүй төрх ажиглагдана. Гэсэн хэдий ч уг таамаглалыг зохих шинжүүрээр нь шалгана. Ингээд загварын үлдэгдлийг олж улмаар үлдэгдэл хэвийн тархалттай гэсэн тэг таамаглалыг Шафиро-Уилкийн шинжүүрээр шалгана.
res <- residuals(fit)
shapiro.test(res)
Shapiro-Wilk normality test
data: res
W = 0.82278, p-value = 3.92e-09
\(p\text{-утга}=3.92\cdot10^{-9}<0.05\) гэж гарсан нь бидний авч үзэж буй шугаман загварын үлдэгдэл хэвийн тархалттай гэсэн тэг таамаглалыг тус шинжүүр 0.05 ач холбогдлын түвшинд няцааж буйг илтгэнэ. Энэ бол нэг талаас өгөгдөл дотор, шугаман загвартай харшлах онцгой утгууд байна гэсэн үг юм. Мөн нөгөө талаас шугаман бус хамааралтай хувьсагчид дээр шугаман загвар хэрэглэсэн байж болно. Гэхдээ дээрх оношлогооны диаграммуудыг ажиглавал өгөгдлийг агуулж буй датафреймын 22, 64 болон 65 дугаар мөр дэх утгууд хэт хазайлттай үлдэгдэл ба хэвийн тархалтаас гажих явдлыг нөхцөлдүүлж буй нь харагдана. Харин шугаман бус хамаарал бий гэдэг нь саяын дүгнэлтээс үнэмшил муутай. Иймээс тэдгээр гурван утгыг өгөгдлөөс зайлуулна.
race <- race[-c(22,64,65),]
Ийнхүү өгөгдөлд цэвэрлэгээ хийсэн тул шугаман загварыг ахин ажиллуулна. Түүнчлэн шугаман бус хамаарал гэдэг хүчин зүйлийг ч орхиж болохгүй. Иймээс 22, 64 болон 65 дугаар мөрүүдийг зайлуулсан өгөгдөл дээр загвараа ахин үнэлээд улмаар Бокс-Коксын хувиргалт хийнэ. Тус хувиргалт нь үлдэгдлийг хэвийн тархалттай болгоход ач холбогдолтой. Эцэст нь ингэж хувиргасны дараах өгөгдөл дээр шугаман загварыг ахин ажиллуулаад, гарсан үр дүнг нь нарийвчлан шинжилнэ.
Энэ удаад цэвэрлэсэн өгөгдөл дээр регрессийн шинжилгээ хийнэ.
fit <- lm(formula = seconds ~ age, data = race)
Үлдэгдлийн тархалтыг хэвийн болгох зорилгоор Бокс-Коксын хувиргалт хийнэ.
bc <- MASS::boxcox(fit, plotit = FALSE)
lambda <- bc$x[which.max(bc$y)]
bc_transform <- \(y, lambda) {
if (abs(lambda) < 1e-6) {
log(y)
} else {
(y^lambda - 1) / lambda
}
}
race$seconds_bc <- bc_transform(race$seconds, lambda)
Хувиргалтаар үүссэн шинэ хувьсагчийг seconds_bc гэж нэрлэв.
fit <- lm(formula = seconds_bc ~ age, data = race)
Одоо нэн тэргүүнд өмнө зөрчигдөж байсан шаардлага буюу загварын үлдэгдэл хэвийн тархалттай гэсэн таамаглалыг шалгана.
res <- residuals(fit)
shapiro.test(res)
Shapiro-Wilk normality test
data: res
W = 0.97829, p-value = 0.1416
\(p\text{-утга}=0.1416\) гэж 0.05 ач холбогдлын түвшингээс их гарсан буюу үлдэгдэл хэвийн тархалттай гэсэн тэг таамаглалыг үл няцаана. Түүнчлэн үлдэгдлийн дисперс тогтмол гэсэн тэг таамаглалыг шалгахад \(p\text{-утга}=0.2096\) гэж олдсон.
Эцэст нь хувьсагчдын хамаарал шугаман хэлбэртэй байгаа эсэхийг шугаман загварын оношлогооны диаграммын тусламжтай ажиглая. Үүний тулд Residuals vs Fitted Plot диаграмм байгуулна.
plot(fit, which = 1)

Хэрэв хамаарал үнэхээр шугаман бол диаграмм дээрх улаан шугам бараг тэгш байх ёстой. Гэвч хугарсан мэт хэлбэр ажиглагдаж буй тул хамаарлыг шугаман биш гэж дүгнэнэ. Улмаар нэг л хугарал буй тул загварт квадрат эрэмбийн \(\text{нас}^2\) тайлбарлах хувьсагч нэмнэ.
fit <- lm(formula = seconds_bc ~ age + I(age^2), data = race)
Шинээр зохиосон хоёр дугаар эрэмбийн шугаман загварын хувьд Residuals vs Fitted Plot диаграмм ахин байгуулъя.
plot(fit, which = 1)

Одоо улаан шугам V, U эсвэл S гэх мэт тодорхой зүй тогтолгүй, зүгээр л тэгийн орчим хэлбэлзжээ. Иймд квадрат эрэмбийн загвар хангалттай. Гэхдээ дээр дурдсанчлан диаграммаас дүгнэлт гаргах нь өрөөсгөл тул үүнийг зохих шинжүүрээр шалгана.
lmtest::raintest(fit)
Rainbow test
data: fit
Rain = 0.94836, df1 = 45, df2 = 41, p-value = 0.5704
\(p\text{-утга}=0.5704\) гэж 0.05 ач холбогдлын түвшингээс их гарсан нь шугаман загварын үлдэгдлийн хэлбэлзэл санамсаргүй гэсэн тэг таамаглалыг тус шинжүүр үл няцааж буйг илтгэнэ.
Мөн хоёр дугаар эрэмбийн шугаман загвар шинээр авч үзэж буй тул уг загварын үлдэгдлийн дисперс тогтмол эсэхийг ч шалгах хэрэгтэй.
lmtest::bptest(fit)
studentized Breusch-Pagan test
data: fit
BP = 1.5169, df = 2, p-value = 0.4684
Гарсан үр дүнг харвал үлдэгдлийн дисперс тогтмол гэсэн тэг таамаглал үл няцаагджээ.
Түүнчлэн шинэ загварын хувьд түүний үлдэгдэл хэвийн тархалттай гэсэн таамаглал үнэн эсэхийг бас л шалгах хэрэгтэй.
res <- residuals(fit)
shapiro.test(res)
Shapiro-Wilk normality test
data: res
W = 0.9841, p-value = 0.3496
Дээрх үр дүн хоёр дугаар эрэмбийн шугаман загварын үлдэгдэл хэвийн тархалттай гэсэн тэг таамаглалыг Шафиро-Уилкийн шинжүүр үл няцааж буйг илтгэнэ.
Ийнхүү урьдчилсан таамаглалууд үл зөрчигдөж буйг олж тогтоосноор \[\text{seconds_bc}=a+b\cdot\text{age}+c\cdot\text{age}^2\]хоёр дугаар эрэмбийн шугаман загварыг найдвартай гэж үзэх үндэслэлтэй боллоо. Иймээс уг загварт тулгуурлан "Унадаг дугуйчдын амжилт наснаас хамаардаг уу?" гэсэн асуултад эцэслэн хариулна.
Унадаг дугуйчдын амжилт наснаас хамаардаг уу гэсэн асуулт нь дээрх хоёр дугаар эрэмбийн шугаман загвар статистик ач холбогдолтой юу гэсэн асуулттай эквивалент юм. Ийм асуултад F шинжүүрийн тусламжтай хариулт өгнө. F статистикийг загварын дүгнэгч статистикууд дундаас харж болно.
summary(fit)
Call:
lm(formula = seconds_bc ~ age + I(age^2), data = race)
Residuals:
Min 1Q Median 3Q Max
-5.249e-06 -1.729e-06 2.577e-07 1.712e-06 5.502e-06
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.692e-01 4.263e-06 180450.477 <2e-16 ***
age 5.124e-07 2.578e-07 1.988 0.050 .
I(age^2) -7.047e-09 3.771e-09 -1.869 0.065 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.468e-06 on 86 degrees of freedom
Multiple R-squared: 0.0506, Adjusted R-squared: 0.02852
F-statistic: 2.292 on 2 and 86 DF, p-value: 0.1072
F шинжүүрийн \(p\text{-утга}=0.1072>0.05\) байгаа нь "унадаг дугуйчдын амжилт наснаас хамаардаг" гэсэн таамаглалыг статистик ач холбогдолтойгоор баталж чадахгүй байна гэсэн үг юм. Цаашилбал Adjusted R-squared: 0.02852 нь загвар (манай тохиолдолд нас) дугуйчдын амжилтын хэлбэлзлийн ердөө 2.8%-ийг л тайлбарлаж байна гэсэн үг. Үлдсэн 97% гаруй нь бэлтгэл сургуулилт, унадаг дугуйны чанар, туршлага гэх мэт наснаас өөр хүчин зүйлээс хамаарч байна.
Коэффициентүүдийн шинжилгээ буюу t шинжүүрийн үр дүнгээс насны квадрат нөлөөгүй хувьсагч болох нь ажиглагдана. Харин age хувьсагчийн хувьд p-value яг 0.05 эсэхийг тодруулбал зохино.
summary(fit)$coefficients
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.692048e-01 4.262692e-06 180450.477298 0.00000000
age 5.123754e-07 2.577680e-07 1.987738 0.05002209
I(age^2) -7.047112e-09 3.770839e-09 -1.868844 0.06504863
0.05002209 буюу 0.05 ач холбогдлын түвшингээс их утга гарчээ. Иймд нас мөн л тамирчдын амжилтыг тайлбарлахад ач холбогдолгүй хувьсагч гэж дүгнэнэ.
Ийнхүү тамирчдын амжилт наснаас хамаардаг гэсэн алтернатив таамаглал статистик ач холбогдолтойгоор батлагдахгүй байна.
Тус тэмцээнд оролцсон сонирхогч ангиллын эрэгтэй тамирчдыг насаар нь 20-29, 30-39 болон 40-49 гэсэн гурван категороор ангилж уралдуулсан. Өдгөө ч уг ангилал өөрчлөгдөөгүй байна. Одоо нэмэлтээр тус насны ангиллын хувьд тамирчдын амжилтын статистик ач холбогдол бүхий ялгаа байна уу гэдгийг шинжилнэ.
Насны гурван категор дахь тамирчдын амжилт ижил гэсэн таамаглалыг дисперсийн шинжилгээний тусламжтай шалгаж болно. Үүний тулд эхлээд манай өгөгдөл дисперсийн шинжилгээний шаардлага хангах эсэхийг нягтална.
seconds хувьсагч хэвийн тархалттай.Эхний таамаглалыг дараах байдлаар шалгана.
subset("x" = race, "subset" = age < 30, select = seconds, "drop" = TRUE) |> shapiro.test()
subset("x" = race, "subset" = age >=30 & age < 40, select = seconds, "drop" = TRUE) |> shapiro.test()
subset("x" = race, "subset" = age >=40, select = seconds, "drop" = TRUE) |> shapiro.test()
Гурван бүлэг тус бүртэй харгалзах шинжүүрийн p-value харгалзан 0.1731, 0.3538 болон 0.03251 гэж гарсан. Эдгээрээс 40-49 насны бүлэгт хамаатай \(p\text{-value}=0.03251<0.05\) байгаа нь тус бүлгийн хувьд тамирчдын амжилтыг илэрхийлэх seconds хувьсагч хэвийн бус тархалттай гэдгийг баталж буй явдал юм. Иймээс тус бүлэг дэх тархалт яагаад хэвийн тархалттай биш байгааг нягтална. Ийм нөхцөл байдлын шалтгаан нь онцгой утга байх нь түгээмэл. Ингээд онцгой утга илрүүлэхийн тулд хайрцган диаграмм байгуулна.
subset(x = race, subset = age >=40, select = seconds, drop = TRUE) |> boxplot() -> bp
print(bp$out)

Ингээд 4856 секунд гэсэн нэг ширхэг онцгой утга илрүүлэв. Энэ нь 1 цаг 20 минут 56 секунд гэсэн үг. Одоо тус утгыг оролцуулалгүйгээр таамаглал шалгана.
subset(x = race, subset = age >=40 & seconds < min(bp$out), select = seconds, drop = TRUE) |> shapiro.test()
Shapiro-Wilk normality test
data: subset(x = race, subset = age >= 40 & seconds < min(bp$out), select = seconds, drop = TRUE)
W = 0.93098, p-value = 0.08178
\(p\text{-утга}=0.08178\) буюу 0.05 ач холбогдлын түвшингээс багагүй болсоноор 40-49 насны тамирчдын амжилт хэвийн тархалттай биш гэж батлах үндэслэл үгүй боллоо. Тэгэхээр тархалтыг хэвийн бус болгож буй мөнөөх онцгой утгыг өгөгдлөөс зайлуулна.
race <- race[!{race$age >=40 & race$seconds >= min(bp$out)},]
Одоо насны бүлгүүд дэх тамирчдын амжилтын дисперс ижил гэсэн таамаглалыг шалгана. Ийм таамаглалыг Бартлетийн шинжүүрээр шалгана. Үүний тулд насны бүлгийг илэрхийлэх хувьсагч хэрэгтэй.
race$age_group <- cut(x = race$age, breaks = c(18,30,40,50), labels = c("20", "30", "40"), include.lowest = TRUE, right = TRUE, ordered_result = TRUE)
bartlett.test(formula = seconds ~ age_group, data = race)
Bartlett test of homogeneity of variances
data: seconds by age_group
Bartlett's K-squared = 5.1336, df = 2, p-value = 0.07678
\(p\text{-утга}=0.07678\) гэж гарсан нь гурван бүлгийн дисперс тэнцүү гэдэг тэг таамаглалыг 0.05 ач холбогдлын түвшинд үл няцааж буйг илтгэнэ.
Ийнхүү дисперсийн шинжилгээний шаардлагыг манай өгөгдөл хангахгүй гэх статистик үндэслэл алга байгаа тул тус шинжилгээг хийж болно.
fit <- aov(formula = seconds ~ age_group, data = race)
summary(fit)
Df Sum Sq Mean Sq F value Pr(>F)
age_group 2 799930 399965 2.113 0.127
Residuals 85 16091830 189316
\(p\text{-утга}=0.127>0.05\) байгаа нь насны гурван бүлэг ялгаатай гэдэг алтернатив таамаглал үл батлагдаж буйг илтгэнэ. Өөрөөр хэлбэл тамирчдын амжилт наснаас хамаардаг гэх статистик үндэслэл гарахгүй байна.
Ийнхүү янз бүрээр шинжилж үзсэний эцэст 20-50 насны унадаг дугуйн тамирчдын амжилт буюу гараанаас бариа хүртэл жийхдээ зарцуулах хугацаа наснаас хамаардаггүй гэх үндэслэл байна гэсэн дүгнэлтэд хүрлээ.
Эцэст нь тэмдэглэхэд нэг жил Монголын дугуйн холбоо (МДХ) унадаг дугуйчдыг гурван категорт ангилаад уралдуулж байж билээ. Тухайн үед МДХ-ны ЕНБД асан З.Наран хэлэхдээ олон улсад тамирчдыг насаар бус харин чансаагаар нь эрэмбэлэн ангилж уралдуулдаг жишгийн дагуу тийнхүү тамирчдыг насны бус ангилалаар хуваалаа гэсэн. Гэвч буцаад насаар ангилах болсон ба өдгөө ч насаар ангилах нь хэвээрээ л байна. Дээрх өгөгдлийн шинжилгээний үр дүнг харвал Наран ахын зөв байсан бололтой.
Цааш үргэлжлүүлэн seconds хувьсагч нормал тархалттай эсэхийг шалгав.
race$seconds |> shapiro.test()
Shapiro-Wilk normality test
data: race$seconds
W = 0.96514, p-value = 0.01809
Дээрх үр дүн бол хэвийн тархалттай гэсэн тэг таамаглал няцаагдаж буйг илтгэнэ. Ийнхүү няцаагдсан нь 5172 секунд буюу 1 цаг 26 минут 12 секунд гэсэн онцгой утгаас шалтгаалсан болохыг нэмэлт шинжилгээний явцад харагдана.
race$seconds |> boxplot() -> bp
bp$out |> print()
subset(x = race, subset = seconds == min(bp$out))$time |> print()

Дээрх онцгой утгыг оролцуулахгүй бол хувьсагч хэвийн тархалттай гэсэн таамаглал 0.05 ач холбогдлын түвшинд үл няцаагдана. Энэ үр дүн дараах байдлаар гарсан.
subset(x = race, subset = seconds < min(bp$out), select = seconds, drop = TRUE) |> shapiro.test()
Shapiro-Wilk normality test
data: subset(x = race, subset = seconds < min(bp$out), select = seconds, drop = TRUE)
W = 0.97206, p-value = 0.05642
Ингээд дээрх үр дүнд үндэслэн унадаг дугуйчдын жийлтийн эрчим хэвийн тархалттай гэж үзнэ.
Бид унадаг дугуйчдын жийлтийн эрчмийг өөр хоорондоо хамааралгүй гэж тооцсон. Жийлтийн эрчим нь бэлтгэл сургуулилт, дадлага туршлага, унадаг дугуйн чанар зэргээс гадна хувь хүний бие физиологи хийгээд бусад онцлог ялгаа гэх мэт олон тусдаа хүчин зүйлийн нийлэмж тул ийм хамааралгүйн чанар үнэхээр хүчинтэй байж болно. Ингээд нэг ялихгүй мэт боловч маргаан дагуулах нэг асуудал авч үзье.
\(n\) унадаг дугуйчин байг. Унадаг дугуйчдын жийлтийн эрчмийг илэрхийлэх санамсаргүй хувьсагчийг \(X\) гэж тэмдэглэе. Тэгвэл тэдгээр дугуйчдын жийлтийн эрчмийг харгалзан \(X_1,X_2,\ldots,X_n\) гэж тэмдэглэнэ. Дээр дурдсанчлан эдгээр хувьсагчид хамааралгүй бас хэвийн тархалттай. Харин эдгээрийг эрэмбэлэн жагсаахад үүсэх вариацын цувааны хувьд нөхцөл байдал өөр болно. Вариацын цувааны \(i\) дүгээр элемент буюу \(i\) дүгээр эрэмбийн статистикийг \(X_{(i)}\) гэж тэмдэглэнэ. \(X_1,X_2,\ldots,X_n\) түүврийн элементүүдийг эрэмбэлсэнээр тэдгээр нь өөр хоорондоо хамааралтай болно. Өөрөөр хэлбэл \(X_{(i)}\) ба \(X_{(j)}\) хоёр эрэмбийн статистик хамааралтай. Энэ бол тэмцээний тэргүүн байр эзэлсэн тамирчин ба баян ходоод болсон тамирчин хоёрын жийлтийн эрчим хамааралтай гэсэн үг юм. Нөгөө талаас үүнийг манай Улаанбаатар уулын дугуйн клубийн зохиодог олон хоногийн аялалд оролцож буй групп аялагчдын цувран яваатай зүйрлүүлж болно. Олон хоногийн аяллын явцад "нурах"-гүйн тулд яг өөрийн жийлтийн эрчмээрээ л жийх болдог. Тэмцээн уралдааны үед мөн л хурдан явахыг хэчнээн хүссэн ч өөрийн жийлтийн эрчимдээ л уягддаг. Тэгэхээр \(X_i\) ба \(X_j\) хоёр хамааралгүй. Гэвч эрэмбэлсэний дараах \(X_{(i)}\) ба \(X_{(j)}\) хоёр хамааралтай болдог. Иймдээ ч статистикт эдгээрийн хамтын тархалтын ерөнхий томъёог олсон байдаг. Тэгэхээр эдгээрийн хоорондын хамаарлыг илэрхийлэх корреляцийн коэффициентыг тооцоолох боломжтой.
Одоо \(X_{(1)}\) ба \(X_{(n)}\) буюу цувааны хамгийн эхний ба хамгийн сүүлийн элементүүдийн хоорондох корреляцийг олно. Үүний тулд эдгээрийн хамтын тархалтыг авч үзнэ. Хамтын тархалт нь \(X\) хувьсагчийн тархалт оролцсон нийлмэл томъёогоор илэрхийлэгддэг. Цаашлаад ковариац ба стандарт хазайлт гэдэг тоон характеристикууд хэрэгтэй. Эдгээрийг илэрхийлэх томъёо төдийгүй томъёоны дагуух тооцоолол нарийн түвэгтэй тул тооцох бодох математикийн арга техник хэрэглэв. Тооцооллыг R програмын тусламжтай хийв. Ийнхүү \(n\geq2\) хэмжээтэй түүврийн хувьд \(X_{(1)}\) ба \(X_{(n)}\) эрэмбийн статистикуудын корреляцийн коэффициентын утгыг оллоо. Эдгээрээс тухайлбал \(n=2,\ldots,10\) үед 0.467, 0.295, 0.213, 0.166, 0.135, 0.114, 0.099, 0.087, 0.078 тоон утгууд олдсон. Тодруулбал 0.099 нь \(n=8\) унадаг дугуйчны жийлтийн эрчмээрээ хамгийн сайн ба муу хоёрын жийлтийн эрчмийн хамаарал (корреляцийн коэффициент) төдий хэмжээтэй гэдгийг илтгэнэ. Эдгээр есөн корреляцийг цэг-шугаман диаграммаар дүрслэн харуулав.

Цувааны минимал ба максимал элементүүдийн корреляц түүврийн хэмжээ өсөх тусам буурна. Гэхдээ хэзээ ч абсолют тэг утгад хүрэхгүй. Тэгэхээр түүврийн хэмжээ хэд болоход хоёр эрэмбийн статистикийг хамааралгүй гэж тооцож болох вэ гэсэн асуулт гарна. Энэ бол корреляцийн босго утгын тухай асуулт юм. Тухайлбал статистикт өргөн ашигладаг Коэны санал болгосон шатлал дахь "маш сул" хамааралтай харгалзах доод босго 0.1 байдаг. 0.1 утгыг сул хамаарлын доод босго гэж заасан өөр шатлалууд ч байдаг. Тэгэхээр корреляцийн утга 0.1 тооноос бага болох үед вариацын цувааны минимал ба максимал элементүүд статистик хамааралгүй гэж тооцно. Тэгвэл үүнд харгалзах түүврийн хэмжээ \(n=7\) гэж олдоно. Энэ бол групп аялалд оролцогдын тоо 8 байх үед цувааны толгойд яваа дугуйчны жийлтийн эрчим цувааны сүүлд яваа дугуйчинд нөлөөлөхгүй болно гэсэн үг юм.
Сая бид групп аялалд оролцчдын тооны талаар статистик дүгнэлт гаргасан. Аялалд оролцогчдын тоог үндэслэлтэй тогтоох нь нэн ялангуяа олон хоногийн аяллын зохион байгуулалтад маш ач холбогдолтой гэж үзэж байна. Олон хоногийн аялал бол ганц хоёр хоногийн тухай бус харин 7 хоног, сар, бүр жил гэсэн урт хугацааны үйл явдал юм. Ийм урт хугацаанд үргэлжлэх аялал амжилттай болохын тулд өдөр өдөртөө хэвийн байх хэрэгтэй болно. Үүний тулд аяллын групп яг нэг баг байх хэрэгтэй. Хэрэв багийн гишүүдийн жийлтийн эрчим нь уялдаа холбоогүй буюу статистик хамааралгүй бол өдөр өдөртөө туулах замаа дуусгаж чадахгүй байх улмаар тус олон хоногийн аялал амжилтгүй болох магадлалтай. Манай Улаанбаатар уулын дугуйн клубийн аяллын түүхийг харвал клубийн үүсгэн байгуулагч Э.Отгонжаргал админы 2016 оноос 2023 онуудад зохион явуулсан, майхан сэлтээ унадаг дугуй дээрээ ачаад явдаг "жинхэнэ" олон хоногийн аяллуудад оролцогчдын тоо 8, 7, 6, 3, 3, 3, 3, 2, 2 байна. Максимум утга нь 8 байна.

Манай клубийн дүрэмд олон хоногийн аялалд оролцогчдын тоог 15 гэж хязгаарласан байдаг. Клубийн дүрмийн талаарх нэг удаагийн хэлэлцүүлгийн үеэр Э.Отгонжаргал админ хэлэхдээ үүнээс ч бага байвал зохимжтой гэж байсан. Гэхдээ тодорхой тоо хэлээгүй юм. Харин админы зохиосон "жинхэнэ" олон хоногийн аялалд оролцогчдын тоог харвал 7, 8-аас хэтрээгүй ажээ. Хэтрүүлээгүй ч байж болох л шүү дээ. Өөрөөр хэлбэл "жинхэнэ" олон хоногийн аялалд оролцогчдын тооны максимум утга 7-8 гэж үзсэн байж болно. Энд "жинхэнэ" гэж тодотгоод буйн учир бол "Хэнтий, Сүхбаатар аймаг 2019" гэдэг 3 өдөр 72 цагийн буюу хоногийн аяллыг олон хоногийн гэдэг категорит оруулсан байсан явдал юм. Гишүүдийнхээ сэтгэлийг бодсон админ олон хоногийн аяллын тоо гэдэг үзүүлэлтийг нь тэг биш болгох гэсэндээ тус аяллыг ийм категорит оруулсан гэдэг. Эргээд оролцогчдын тоо руу анхаарлаа хандуулан, олон аялал зохиосон туршлагатай админы субьектив дүгнэлт нь бодит өгөгдөл дээрх статистик дүгнэлттэй нийцэж буйг онцолъё.