0% found this document useful (0 votes)
293 views81 pages

Sondaje Și Anchete Statistice - Carte PDF

The document contains two tables. The first table lists x-values from 0 to 3.4 and the corresponding y-values of the standard normal distribution N(0,1). The second table lists z-values from 0 to 2.64 and the corresponding y-values of the Gaussian or normal distribution. Both tables provide probability density function (PDF) values for the normal distribution.

Uploaded by

OanaElena
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
293 views81 pages

Sondaje Și Anchete Statistice - Carte PDF

The document contains two tables. The first table lists x-values from 0 to 3.4 and the corresponding y-values of the standard normal distribution N(0,1). The second table lists z-values from 0 to 2.64 and the corresponding y-values of the Gaussian or normal distribution. Both tables provide probability density function (PDF) values for the normal distribution.

Uploaded by

OanaElena
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
You are on page 1/ 81

Anexa 1

Funcţia de repartiţie normală normată N(0,1)

x 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
Anexa 2
Tabel cu valorile funcţiei Gauss-Laplace

z Φ(z) z Φ(z) z Φ(z) z Φ(z) z Φ(z) z Φ(z)


0 0.0000 0.42 0.3255 0.84 0.5991 1.26 0.7923 1.68 0.9070 2.2 0.9722
0.01 0.0080 0.43 0.3328 0.85 0.6047 1.27 0.7959 1.69 0.9090 2.22 0.9736
0.02 0.0160 0.44 0.3401 0.86 0.6102 1.28 0.7995 1.7 0.9109 2.24 0.9749
0.03 0.0239 0.45 0.3473 0.87 0.6157 1.29 0.8029 1.71 0.9127 2.26 0.9762
0.04 0.0319 0.46 0.3545 0.88 0.6211 1.3 0.8064 1.72 0.9146 2.28 0.9774
0.05 0.0399 0.47 0.3616 0.89 0.6265 1.31 0.8098 1.73 0.9164 2.3 0.9786
0.06 0.0478 0.48 0.3688 0.9 0.6319 1.32 0.8132 1.74 0.9181 2.32 0.9797
0.07 0.0558 0.49 0.3759 0.91 0.6372 1.33 0.8165 1.75 0.9199 2.34 0.9807
0.08 0.0638 0.5 0.3829 0.92 0.6424 1.34 0.8198 1.76 0.9216 2.36 0.9817
0.09 0.0717 0.51 0.3899 0.93 0.6476 1.35 0.8230 1.77 0.9233 2.38 0.9827
0.1 0.0797 0.52 0.3969 0.94 0.6528 1.36 0.8262 1.78 0.9249 2.4 0.9836
0.11 0.0876 0.53 0.4039 0.95 0.6579 1.37 0.8293 1.79 0.9265 2.42 0.9845
0.12 0.0955 0.54 0.4108 0.96 0.6629 1.38 0.8324 1.8 0.9281 2.44 0.9853
0.13 0.1034 0.55 0.4177 0.97 0.6680 1.39 0.8355 1.81 0.9297 2.46 0.9861
0.14 0.1113 0.56 0.4245 0.98 0.6729 1.4 0.8385 1.82 0.9312 2.48 0.9869
0.15 0.1192 0.57 0.4313 0.99 0.6778 1.41 0.8415 1.83 0.9328 2.5 0.9876
0.16 0.1271 0.58 0.4381 1 0.6827 1.42 0.8444 1.84 0.9342 2.52 0.9883
0.17 0.1350 0.59 0.4448 1.01 0.6875 1.43 0.8473 1.85 0.9357 2.54 0.9889
0.18 0.1428 0.6 0.4515 1.02 0.6923 1.44 0.8501 1.86 0.9371 2.56 0.9895
0.19 0.1507 0.61 0.4581 1.03 0.6970 1.45 0.8529 1.87 0.9385 2.58 0.9901
0.2 0.1585 0.62 0.4647 1.04 0.7017 1.46 0.8557 1.88 0.9399 2.6 0.9907
0.21 0.1663 0.63 0.4713 1.05 0.7063 1.47 0.8584 1.89 0.9412 2.64 0.9917
0.22 0.1741 0.64 0.4778 1.06 0.7109 1.48 0.8611 1.9 0.9426 2.68 0.9926
0.23 0.1819 0.65 0.4843 1.07 0.7154 1.49 0.8638 1.91 0.9439 2.72 0.9935
0.24 0.1897 0.66 0.4907 1.08 0.7199 1.5 0.8664 1.92 0.9451 2.76 0.9942
0.25 0.1974 0.67 0.4971 1.09 0.7243 1.51 0.8690 1.93 0.9464 2.8 0.9949
0.26 0.2051 0.68 0.5035 1.1 0.7287 1.52 0.8715 1.94 0.9476 2.84 0.9955
0.27 0.2128 0.69 0.5098 1.11 0.7330 1.53 0.8740 1.95 0.9488 2.88 0.9960
0.28 0.2205 0.7 0.5161 1.12 0.7373 1.54 0.8764 1.96 0.9500 2.92 0.9965
0.29 0.2282 0.71 0.5223 1.13 0.7415 1.55 0.8789 1.97 0.9512 2.96 0.9969
0.3 0.2358 0.72 0.5285 1.14 0.7457 1.56 0.8812 1.98 0.9523 3 0.9973
0.31 0.2434 0.73 0.5346 1.15 0.7499 1.57 0.8836 1.99 0.9534 3.2 0.998626
0.32 0.2510 0.74 0.5407 1.16 0.7540 1.58 0.8859 2 0.9545 3.4 0.999326
0.33 0.2586 0.75 0.5467 1.17 0.7580 1.59 0.8882 2.02 0.9566 3.6 0.999682
0.34 0.2661 0.76 0.5527 1.18 0.7620 1.6 0.8904 2.04 0.9586 3.8 0.999855
0.35 0.2737 0.77 0.5587 1.19 0.7660 1.61 0.8926 2.06 0.9606 4 0.999937
0.36 0.2812 0.78 0.5646 1.2 0.7699 1.62 0.8948 2.08 0.9625 4.5 0.999993
0.37 0.2886 0.79 0.5705 1.21 0.7737 1.63 0.8969 2.1 0.9643 5 0.999999
0.38 0.2961 0.8 0.5763 1.22 0.7775 1.64 0.8990 2.12 0.9660
0.39 0.3035 0.81 0.5821 1.23 0.7813 1.65 0.9011 2.14 0.9676
0.4 0.3108 0.82 0.5878 1.24 0.7850 1.66 0.9031 2.16 0.9692
0.41 0.3182 0.83 0.5935 1.25 0.7887 1.67 0.9051 2.18 0.9707
Anexa 3
Tabel cu valorile repatiţiei Student în funcţie de probabilitatea P(t≤tα) şi numărul
gradelor de libertate df
nivel de semnificaţie α pentru testul bilateral
df 0.5 0.2 0.1 0.05 0.025 0.01 0.001
1 1.0000 3.0777 6.3137 12.7062 25.4519 63.6559 636.5776
2 0.8165 1.8856 2.9200 4.3027 6.2054 9.9250 31.5998
3 0.7649 1.6377 2.3534 3.1824 4.1765 5.8408 12.9244
4 0.7407 1.5332 2.1318 2.7765 3.4954 4.6041 8.6101
5 0.7267 1.4759 2.0150 2.5706 3.1634 4.0321 6.8685
6 0.7176 1.4398 1.9432 2.4469 2.9687 3.7074 5.9587
7 0.7111 1.4149 1.8946 2.3646 2.8412 3.4995 5.4081
8 0.7064 1.3968 1.8595 2.3060 2.7515 3.3554 5.0414
9 0.7027 1.3830 1.8331 2.2622 2.6850 3.2498 4.7809
10 0.6998 1.3722 1.8125 2.2281 2.6338 3.1693 4.5868
11 0.6974 1.3634 1.7959 2.2010 2.5931 3.1058 4.4369
12 0.6955 1.3562 1.7823 2.1788 2.5600 3.0545 4.3178
13 0.6938 1.3502 1.7709 2.1604 2.5326 3.0123 4.2209
14 0.6924 1.3450 1.7613 2.1448 2.5096 2.9768 4.1403
15 0.6912 1.3406 1.7531 2.1315 2.4899 2.9467 4.0728
16 0.6901 1.3368 1.7459 2.1199 2.4729 2.9208 4.0149
17 0.6892 1.3334 1.7396 2.1098 2.4581 2.8982 3.9651
18 0.6884 1.3304 1.7341 2.1009 2.4450 2.8784 3.9217
19 0.6876 1.3277 1.7291 2.0930 2.4334 2.8609 3.8833
20 0.6870 1.3253 1.7247 2.0860 2.4231 2.8453 3.8496
21 0.6864 1.3232 1.7207 2.0796 2.4138 2.8314 3.8193
22 0.6858 1.3212 1.7171 2.0739 2.4055 2.8188 3.7922
23 0.6853 1.3195 1.7139 2.0687 2.3979 2.8073 3.7676
24 0.6848 1.3178 1.7109 2.0639 2.3910 2.7970 3.7454
25 0.6844 1.3163 1.7081 2.0595 2.3846 2.7874 3.7251
26 0.6840 1.3150 1.7056 2.0555 2.3788 2.7787 3.7067
27 0.6837 1.3137 1.7033 2.0518 2.3734 2.7707 3.6895
28 0.6834 1.3125 1.7011 2.0484 2.3685 2.7633 3.6739
29 0.6830 1.3114 1.6991 2.0452 2.3638 2.7564 3.6595
30 0.6828 1.3104 1.6973 2.0423 2.3596 2.7500 3.6460
35 0.6816 1.3062 1.6896 2.0301 2.3420 2.7238 3.5911
40 0.6807 1.3031 1.6839 2.0211 2.3289 2.7045 3.5510
45 0.6800 1.3007 1.6794 2.0141 2.3189 2.6896 3.5203
50 0.6794 1.2987 1.6759 2.0086 2.3109 2.6778 3.4960
60 0.6786 1.2958 1.6706 2.0003 2.2990 2.6603 3.4602
70 0.6780 1.2938 1.6669 1.9944 2.2906 2.6479 3.4350
80 0.6776 1.2922 1.6641 1.9901 2.2844 2.6387 3.4164
90 0.6772 1.2910 1.6620 1.9867 2.2795 2.6316 3.4019
100 0.6770 1.2901 1.6602 1.9840 2.2757 2.6259 3.3905
120 0.6765 1.2886 1.6576 1.9799 2.2699 2.6174 3.3734
200 0.6757 1.2858 1.6525 1.9719 2.2584 2.6006 3.3398
500 0.6750 1.2832 1.6479 1.9647 2.2482 2.5857 3.3101
∞ 0.6745 1.2816 1.6449 1.9600 2.2414 2.5758 3.2905
df 0.25 0.1 0.05 0.025 0.0125 0.005 0.0005
nivel de semnificaţie α pentru testul unilateral
Anexa 4
Valorile variabilei χ2α în funcţie de probabilitatea α=P(χ2 > χ2α ) şi
numărul de grade de libertate df

nivel de semnificaţie α

df 0.1 0.05 0.025 0.01 0.001


1 2.7055 3.8415 5.0239 6.6349 10.8274
2 4.6052 5.9915 7.3778 9.2104 13.8150
3 6.2514 7.8147 9.3484 11.3449 16.2660
4 7.7794 9.4877 11.1433 13.2767 18.4662
5 9.2363 11.0705 12.8325 15.0863 20.5147
6 10.6446 12.5916 14.4494 16.8119 22.4575
7 12.0170 14.0671 16.0128 18.4753 24.3213
8 13.3616 15.5073 17.5345 20.0902 26.1239
9 14.6837 16.9190 19.0228 21.6660 27.8767
10 15.9872 18.3070 20.4832 23.2093 29.5879
11 17.2750 19.6752 21.9200 24.7250 31.2635
12 18.5493 21.0261 23.3367 26.2170 32.9092
13 19.8119 22.3620 24.7356 27.6882 34.5274
14 21.0641 23.6848 26.1189 29.1412 36.1239
15 22.3071 24.9958 27.4884 30.5780 37.6978
16 23.5418 26.2962 28.8453 31.9999 39.2518
17 24.7690 27.5871 30.1910 33.4087 40.7911
18 25.9894 28.8693 31.5264 34.8052 42.3119
19 27.2036 30.1435 32.8523 36.1908 43.8194
20 28.4120 31.4104 34.1696 37.5663 45.3142
21 29.6151 32.6706 35.4789 38.9322 46.7963
22 30.8133 33.9245 36.7807 40.2894 48.2676
23 32.0069 35.1725 38.0756 41.6383 49.7276
24 33.1962 36.4150 39.3641 42.9798 51.1790
25 34.3816 37.6525 40.6465 44.3140 52.6187
26 35.5632 38.8851 41.9231 45.6416 54.0511
27 36.7412 40.1133 43.1945 46.9628 55.4751
28 37.9159 41.3372 44.4608 48.2782 56.8918
29 39.0875 42.5569 45.7223 49.5878 58.3006
30 40.2560 43.7730 46.9792 50.8922 59.7022
Anexa 5
Valorile critice pentru repartiţia F corespunzător nivelului de semnificaţie de 5%.

df1
df2
1 2 3 4 5 6 8 10 12
1 161.45 199.50 215.71 224.58 230.16 233.99 238.88 241.88 243.90
2 18.51 19.00 19.16 19.25 19.30 19.33 19.37 19.40 19.41
3 10.13 9.55 9.28 9.12 9.01 8.94 8.85 8.79 8.74
4 7.71 6.94 6.59 6.39 6.26 6.16 6.04 5.96 5.91
5 6.61 5.79 5.41 5.19 5.05 4.95 4.82 4.74 4.68
6 5.99 5.14 4.76 4.53 4.39 4.28 4.15 4.06 4.00
7 5.59 4.74 4.35 4.12 3.97 3.87 3.73 3.64 3.57
8 5.32 4.46 4.07 3.84 3.69 3.58 3.44 3.35 3.28
9 5.12 4.26 3.86 3.63 3.48 3.37 3.23 3.14 3.07
10 4.96 4.10 3.71 3.48 3.33 3.22 3.07 2.98 2.91
11 4.84 3.98 3.59 3.36 3.20 3.09 2.95 2.85 2.79
12 4.75 3.89 3.49 3.26 3.11 3.00 2.85 2.75 2.69
13 4.67 3.81 3.41 3.18 3.03 2.92 2.77 2.67 2.60
14 4.60 3.74 3.34 3.11 2.96 2.85 2.70 2.60 2.53
15 4.54 3.68 3.29 3.06 2.90 2.79 2.64 2.54 2.48
16 4.49 3.63 3.24 3.01 2.85 2.74 2.59 2.49 2.42
17 4.45 3.59 3.20 2.96 2.81 2.70 2.55 2.45 2.38
18 4.41 3.55 3.16 2.93 2.77 2.66 2.51 2.41 2.34
19 4.38 3.52 3.13 2.90 2.74 2.63 2.48 2.38 2.31
20 4.35 3.49 3.10 2.87 2.71 2.60 2.45 2.35 2.28
21 4.32 3.47 3.07 2.84 2.68 2.57 2.42 2.32 2.25
22 4.30 3.44 3.05 2.82 2.66 2.55 2.40 2.30 2.23
23 4.28 3.42 3.03 2.80 2.64 2.53 2.37 2.27 2.20
24 4.26 3.40 3.01 2.78 2.62 2.51 2.36 2.25 2.18
25 4.24 3.39 2.99 2.76 2.60 2.49 2.34 2.24 2.16
26 4.23 3.37 2.98 2.74 2.59 2.47 2.32 2.22 2.15
27 4.21 3.35 2.96 2.73 2.57 2.46 2.31 2.20 2.13
28 4.20 3.34 2.95 2.71 2.56 2.45 2.29 2.19 2.12
29 4.18 3.33 2.93 2.70 2.55 2.43 2.28 2.18 2.10
30 4.17 3.32 2.92 2.69 2.53 2.42 2.27 2.16 2.09
40 4.08 3.23 2.84 2.61 2.45 2.34 2.18 2.08 2.00
60 4.00 3.15 2.76 2.53 2.37 2.25 2.10 1.99 1.92
120 3.92 3.07 2.68 2.45 2.29 2.18 2.02 1.91 1.83
Anexa 6
Valorile critice pentru repartiţia F corespunzător nivelului de semnificaţie de 1%.

df1
df2
1 2 3 4 5 6 8 10 12
1 4052.18 4999.34 5403.53 5624.26 5763.96 5858.95 5980.95 6055.93 6106.68
2 98.50 99.00 99.16 99.25 99.30 99.33 99.38 99.40 99.42
3 34.12 30.82 29.46 28.71 28.24 27.91 27.49 27.23 27.05
4 21.20 18.00 16.69 15.98 15.52 15.21 14.80 14.55 14.37
5 16.26 13.27 12.06 11.39 10.97 10.67 10.29 10.05 9.89
6 13.75 10.92 9.78 9.15 8.75 8.47 8.10 7.87 7.72
7 12.25 9.55 8.45 7.85 7.46 7.19 6.84 6.62 6.47
8 11.26 8.65 7.59 7.01 6.63 6.37 6.03 5.81 5.67
9 10.56 8.02 6.99 6.42 6.06 5.80 5.47 5.26 5.11
10 10.04 7.56 6.55 5.99 5.64 5.39 5.06 4.85 4.71
11 9.65 7.21 6.22 5.67 5.32 5.07 4.74 4.54 4.40
12 9.33 6.93 5.95 5.41 5.06 4.82 4.50 4.30 4.16
13 9.07 6.70 5.74 5.21 4.86 4.62 4.30 4.10 3.96
14 8.86 6.51 5.56 5.04 4.69 4.46 4.14 3.94 3.80
15 8.68 6.36 5.42 4.89 4.56 4.32 4.00 3.80 3.67
16 8.53 6.23 5.29 4.77 4.44 4.20 3.89 3.69 3.55
17 8.40 6.11 5.19 4.67 4.34 4.10 3.79 3.59 3.46
18 8.29 6.01 5.09 4.58 4.25 4.01 3.71 3.51 3.37
19 8.18 5.93 5.01 4.50 4.17 3.94 3.63 3.43 3.30
20 8.10 5.85 4.94 4.43 4.10 3.87 3.56 3.37 3.23
21 8.02 5.78 4.87 4.37 4.04 3.81 3.51 3.31 3.17
22 7.95 5.72 4.82 4.31 3.99 3.76 3.45 3.26 3.12
23 7.88 5.66 4.76 4.26 3.94 3.71 3.41 3.21 3.07
24 7.82 5.61 4.72 4.22 3.90 3.67 3.36 3.17 3.03
25 7.77 5.57 4.68 4.18 3.85 3.63 3.32 3.13 2.99
26 7.72 5.53 4.64 4.14 3.82 3.59 3.29 3.09 2.96
27 7.68 5.49 4.60 4.11 3.78 3.56 3.26 3.06 2.93
28 7.64 5.45 4.57 4.07 3.75 3.53 3.23 3.03 2.90
29 7.60 5.42 4.54 4.04 3.73 3.50 3.20 3.00 2.87
30 7.56 5.39 4.51 4.02 3.70 3.47 3.17 2.98 2.84
40 7.31 5.18 4.31 3.83 3.51 3.29 2.99 2.80 2.66
60 7.08 4.98 4.13 3.65 3.34 3.12 2.82 2.63 2.50
120 6.85 4.79 3.95 3.48 3.17 2.96 2.66 2.47 2.34
Sondajul
simplu aleator
Principalele noţiuni pereche din colectivitatea generală şi din eşantion utilizate în
tehnica sondajelor.

Tabel 1.1
Xi simbol pentru o caracteristică cantitativă pe care o posedă unităţile din populaţie
xi simbol pentru o caracteristică cantitativă pe care o posedă unităţile din eşantion
n Volumul eşantionului
N Volumul populaţiei totale
X Media caracteristicii cantitative în populaţia totala
x Valoarea mediei de sondaj pentru caracteristica cantitativă
σ2 Dispersia caracteristicii cantitative în populaţia totală
S2 Dispersia caracteristicii cantitative în eşantion
p Media caracteristicii calitative în populaţia totala
σp 2 Dispersia caracteristicii calitative în populaţia totală
Sw2 Dispersia caracteristicii calitative în eşantion

Sumarul determinării intervalului de încredere în cazul utilizării unui sondaj simplu


aleator cu probabilităţi egale:

Tabel 1.2
Sondaj cu revenire Sondaj fără revenire
Condiţiile de
desfăşurare σ2 σ2
σ2 cunoscută σ2 necunoscută
cunoscută necunoscută
Populaţie infinită şi σ2 S2 σ2 S2
x±z x±z x±z x±z
eşantion de volum n n n n
normal (n<0,05N), w (1 − w ) w (1 − w )
n>30 w±z w±z
n n
Populaţie finită şi σ2 S2 σ2 N − n S2 N −n
x±z x±z x±z ⋅ x±z ⋅
eşantion de volum n n n N −1 n N −1
normal (n>0,05N), w (1 − w ) w (1 − w ) N − n
n>30 w±z w±z ⋅
n n N −1
σ2 S2 σ2 N − n S2 N − n
x±t x±t x±t ⋅ x±t ⋅
n n −1 n N −1 n −1 N −1
Eşantion de volum
redus n<30 w (1 − w ) w (1 − w ) N − n
w±t w±t ⋅
n −1 n −1 N −1
Probleme rezolvate
Problema 1

În rândul celor 2000 de salariaţi ai unei întreprinderi s-a realizat un sondaj.


Eşantionul de 300 de persoane a fost obţinut printr-o selecţie aleatoare fără revenire.
Rezultatele centralizate pentru două întrebări din chestionar sunt:

Q1. Vârsta în ani împliniţi este (limita inferioară inclusă în interval):


Tabelul 1.3
20-30 30-40 40-50 50-60 50-60 60-70 Total
20 40 160 50 20 10 300

Q2. Ce părere aveţi despre activitatea desfăşurată de sindicat:


Tabelul 1.4
Foarte bună bună indiferent proastă foarte proastă Total
80 150 10 50 10 300

Se cere:
1. Să se reprezinte grafic distribuţia salariaţilor după vârstă.
2. Caracterizaţi variaţia şi asimetria distribuţiei salariaţilor după vârstă.
3. Să se estimeze pentru o probabilitate de 0.95 vârsta medie a salariaţilor.
4. Dacă procedeul de selecţie ar fi fost simplu aleator cu revenire, care era volumul
eşantionului în aceleaşi condiţii de eroare şi probabilitate?
5. Dacă eroarea limită se reduce cu 25%, cât de mare trebuie să fie volumul
eşantionului (probabilitatea cu care se garantează rezultatul rămâne
neschimbată)?
6. Să se estimeze ponderea salariaţilor care au o părere bună şi foarte bună despre
activitatea desfăşurată de sindicat.
Rezolvare:
1. Distribuţia salariaţilor după vârstă se reprezintă grafic cu ajutorul histogramei
(vezi figura 1.1)
Distribuţia salariaţilor din eşantion după vârstă
nr. salariaţi
180
160
140
120
100
80
60
40
20
0 ani
20-30 30-40 40-50 50-60 60-70

Figura 1.1
2. Pentru caracterizarea gradului de variaţie al distribuţiei se va calcula coeficientul
de variaţie. Calculele necasate sunt sistematizate în tabelul 1.5

Tabelul 1.5

ni xi xini (x i − x) 2 n i
20-30 20 25 500 8268.89
30-40 40 35 1400 4271.11
40-50 160 45 7200 17.78
50-60 70 55 3850 6541.11
60-70 10 65 650 3867.78
Total 300 13600 22966.67

Calculăm media caracteristicii vârsta pe baza datelor din eşantion.

x=

x i n i 13600
= =45.33 ani
∑ni 300
Calculăm dispersia caracteristicii vârsta pe baza datelor din eşantion.
2
S =
∑(x i − x) 2 n i 22966.67
= =76.56
∑ ni 300
Coeficientul de variaţie este dat de relaţia:
S 8.75
v = 100 = 100 =19.3%
x 45.33
Valoarea coeficientului de variaţie este mai mică de 35% ceea ce înseamnă ca
distribuţia este omogenă ; iar media reprezentativă.

Pentru caracterizarea asimetriei vom calcula coeficientul de asimetrie

m0 valoarea modală a caracteristicii vârsta în eşantion;


x0 limita inferioară a intervalului modal;
k mărimea intervalului;
Δ1 diferenţa dintre frecvenţa intervalului modal şi a celui precedent
Δ2 diferenţa dintre frecvenţa intervalului modal şi acelui următor.
Intervalul modal este [!40-50) deoarece are frecvenţa maximă.
Δ1 120
mo = x 0 + k = 40 + 10 =45.71
Δ1 + Δ 2 120 + 90
( x − m 0 ) 45.33 − 45.71
c as = = =-0.043
S 8.75
Valoarea obţinută indică o asimetrie foarte redusă de stânga.

3. Înainte de a estima vârsta medie în populaţie trebuie stabilit dacă sondajul a fost
efectuat într-o populaţie finită sau infinită. Pentru aceasta calculăm cât reprezintă
5% din volanul populaţiei.
0.05*N=0.05*2000=100
Deoarece n (300) >100 considerăm că sondajul aleator fără revenire a fost realizat
într-o populaţie finită. Dispersia caracteristicii cantitative vârsta în populaţiei nu este
cunoscută şi va fi înlocuită cu dispersia caracteristicii în eşantion.
Calculul erorii de reprezentativitate (eroare standard).
S2 N − n 76.56 2000 − 300
σ = ⋅ = ⋅ = 0.4657 ani
x n N −1 300 2000 − 1
Calculul erorii limită
Δ x = z ⋅ σ x =1.96*0.4657=0.9129 ani
Intervalul de încredere:
x − Δ x < X < x + Δ x 45.33 − 0.9129 < X < 45.33 + 0.9129 44.4171 < X < 46.2429
Vârsta medie a salariaţilor întreprinderii este de cel puţin 44.4171 ani şi cel mult
46.2426 ani. Această estimaţie este garantată cu o probabilitate de 0.95.

4. Dacă sondajul s-ar fi efectuat după procedeul simplu aleator cu revenire volumul
eşantionului este dat de relaţia:
z 2 ⋅ σ 2 z 2 ⋅ S 2 1.96 2 ⋅ 76.56
n SAR = ≈ = ≈ 322 persoane
Δ2x Δ2x 0.9129

5. Volumul eşantionului este direct proporţional cu dispersia şi cu argumentul


funcţiei de probabilitate şi invers proporţional cu precizia estimaţiei. Dacă eroarea
limită se va reduce este de aşteptat ca volumul eşantionului să crească.
'
Δ x = 0,75 ⋅ Δ x = 0.75 ⋅ 0.9129 = 0.6847 persoane

6. Ponderea salariaţilor din eşantion care au o părere bună şi foarte bună despre
activitatea sindicatului se calculează după relaţia:
m 80 + 150
w= = = 0.77
n 300
Calculul erorii de reprezentativitate (eroare standard).
w (1 − w ) N − n 0.77(1 − 0.77) 2000 − 300
σw = ⋅ = ⋅ = 0.000502
n N −1 300 2000 − 1
Calculul erorii limită
Δ w = z ⋅ σ w =1.96*0.000502=0.000983
Intervalul de încredere:
w − Δ w < p < w + Δ w 0.77 − 0.000983 < p < 0.77 + 0.000983
0.7690173 < p < 0.770983
Se garantează cu o probabilitate de 0.95 că cel puţin 76.90176% şi cel mult
77.0983% din salariaţii întreprinderii au o părere bună şi foarte bună despre activitatea
desfăşurată de organizaţia de sindicat.

Problema 2

În rândul celor 4000 de studenţi ai unei facultăţi s-a realizat un sondaj simplu
aleator pe un eşantion de 175 persoane.
La întrebarea ‘Câte ore studiaţi în medie pe săptămână (exceptând sesiunea)?’
răspunsurile centralizate se găsesc în tabelul 1.6.
Tabel 1.6
Intervale de
0-2 2-6 6-12 12 h şi peste Total
variaţie (ore)*
Nr. studenţi 50 55 40 30 175
* limita inferioară este inclusă în interval

Se cere:
1. Să se estimeze pentru o probabilitate de 0.95 numărul mediu de ore studiate de
un student din facultate.
2. Să se estimeze cu aceeaşi probabilitate ponderea studenţilor care studiază mai
puţin de 6 ore pe săptămână.

Rezolvare:

1. Calculăm cât reprezintă 5% din volumul populaţiei.


0.05*N=0.05*4000=200
Deoarece n (175) <200 considerăm că sondajul aleator a fost realizat într-o
populaţie infinită. Dispersia caracteristicii cantitative ‚numărul de ore studiate’ în
populaţiei nu este cunoscută şi va fi înlocuită cu dispersia caracteristicii în eşantion.

Tabel 1.7
Intervale de variaţie (ore)* ni xi xini (x i − x ) 2 n i

0-2 50 1 50 1337.18
2-6 55 4 220 259.33
6-12 40 9 360 320.03
12 şi peste 30 15 450 2338.31
Total 175 1080 4254.86
*limita inferioară inclusă în interval

Calculăm estimatorul numărului mediu de ore studiate pe săptămână. Calculele


necesare sunt sistematizate în tabelul 1.7.

x=
∑ x i n i 1080
= =6.17 ore
∑ ni 175
Calculăm dispersia estimatorului.
2
S =
∑(x i − x) 2 n i 4254.86
= =24.31

ni 175
Calculul erorii de reprezentativitate (eroare standard).
S2 24.31
σ = = ⋅ = 0.37 ore
x n 175
Calculul erorii limită
Δ x = z ⋅ σ x =1.96*0.37 =0.73 ore
Intervalul de încredere:
x − Δ x < X < x + Δ x 6.17 − 0.73 < X < 6.17 + 0.73 5.44 < X < 6.9 ore
Numărul mediu de ore studiate de un student într-o săptămână este de cel puţin 5,44
şi cel mult 6,9. Garantăm acest rezultat cu o probabilitate de 0,95.

2. Estimatorul ponderii studenţilor care studiază mai puţin de 6 ore pe săptămână se


calculează pe baza relaţiei:
m 50 + 55
w= = = 0.6
n 175
Calculul erorii de reprezentativitate (eroare standard).
w (1 − w ) 0.6(1 − 0.6)
σw = = = 0.037
n 175
Calculul erorii limită
Δ w = z ⋅ σ w =1.96*0.037=0.072
Intervalul de încredere:
w − Δ w < p < w + Δ w 0.6 − 0.072 < p < 00.6 + 0.072 0.528 < p < 0.672
Garantăm cu 95% că cel puţin 52.8% şi cel mult 67.2% din studenţi studiază mai
puţin de 6 ore pe săptămână.

Problema 3

În rândul celor 110 studenţi ce locuiesc într-un cămin s-a realizat un studiu privind
nivelul de mulţumire faţă de condiţiile existente prelevându-se un eşantion de 25 persoane.
Răspunsurile la întrebarea „În ce măsură sunteţi mulţumiţi de următoarele condiţii din
căminul în care locuiţi?” sunt centralizate în tabelul 1.8.

Tabel 1.8
Condiţiile privind Foarte mulţumit mulţumit aşa şi aşa nemulţumit Total
Curăţenia 8 10 5 2 25
Căldura 6 7 2 10 25
apa caldă 10 9 4 2 25
apa rece 11 10 3 1 25

Se cere:
1. Să se stimeze pentru o probabilitate de 95% ponderea studenţilor care se
consideră mulţumiţi şi foarte mulţumiţi de condiţiile din cămin.

Rezolvare

Eşantionul prelevat este de volum redus. În acest caz distribuţia mediilor


eşantioanelor posibile depinde de forma de distribuţie a populaţiei. Cum de cele mai multe
ori forma de distribuţie a populaţiei nu este cunoscută, nici legea de distribuţie a mediilor
eşantioanelor nu poate fi determinată. Teoria sondajului demonstrează că în cazul selecţiei
de volum mic probabilitatea de apariţie a mediilor de diferite mărimi se distribuie mai
uniform. Cu alte cuvinte probabilităţile de apariţie a mediilor nu descresc în aceeaşi măsură
ca în cazul eşantioanelor de volum normal în momentul în care acestea se apropie de
valorile extreme, mediile eşantioanelor posibile distribuindu-se după curba lui Student şi nu
după curba normală.
Calculele necesare estimării procentelor celor ce se consideră în general mulţumiţi
de condiţiile existente sunt sistematizate în tabelul 1.9.
Tabel 1.9

Condiţiile privind Foarte mulţumit şi mulţumit Wi σwi Δwi θ1i θ2i

curăţenia 18 0.72 0.0809 0.1670 0.5530 0.8870


căldura 13 0.52 0.0901 0.1859 0.3341 0.7059
apa caldă 19 0.76 0.0770 0.1589 0.6011 0.9189
apa rece 21 0.84 0.0661 0.1364 0.7036 0.9764

Estimatorul ponderii studenţilor mulţumiţi şi foarte mulţumiţi de condiţia i se


calculează pe baza relaţiei:
m
w i = i unde mi reprezintă numărul celor mulţumiţi şi foarte mulţumiţi de
n
condiţia i.
Calculul erorii de reprezentativitate (eroare standard). În cazul în care nu se
cunoaşte dispersia caracteristicii în populaţie aceasta este înlocuită în relaţia de calcul a
erorii standard cu dispersia caracteristicii în eşantion care se va împărţi la numărul de
grade de libertate n-1.
w i (1 − w i ) N − n
σ wi = ⋅
n −1 N −1
Calculul erorii limită în cazul sondajului de volum redu.
Δ w i = t ⋅ σ wi unde t este valoarea corespunzătoare nivelului de siguranţă ales şi
numărului de grade de libertate df=n-1.
În cazul nostru df=25-1=24. Primul pas în determinarea valorii lui t este
identificarea este identificarea coloanei din tabela distribuţiei Student. Deoarece
probabilitatea de garantare a rezultatelor este de 0,95 aria de interes este (1-0,95)/2=0,025.
Pentru a construi intervalul de încredere căutăm în tabelul repartiţiei Student valoarea
corespunzătoare pentru df=24 şi nivelul de semnificaţie α=0,025 şi obţinem valoarea
t=2,064.
Intervalul de încredere pentru estimarea procentelor celor ce se consideră în general
mulţumiţi pentru fiecare condiţie se determină calculând limita inferioară a intervalului θ1i
şi limita superioară θ2i după relaţiile: θ1i = w i − Δ w i şi θ 2i = w i + Δ wi
În ceea ce priveşte curăţenia 72% din cei intervievaţi se consideră în general
mulţumiţi. Garantăm cu o probabilitate de 95% că 72% ±16.7% din studenţii ce locuiesc în
cămin se consideră mulţumiţi de curăţenie.
52% ± 18.59% din totalul studenţilor sunt mulţumiţi de căldură, 76% ± 15.89% sunt
mulţumiţi de apa caldă şi 84% ± 13.64% de apa rece.

Problema 4
În rândul celor 4000 de studenţi ai unei facultăţi urmează să se realizeze un sondaj
cu privire la modul de petrecere a timpului liber, utilizîndu-se un procedeu de selecţie
simplu aleator fără revenire. Din surse administrative se cunosc informaţiile din tabelul
1.10. Din cercetări anterioare pe teme similare efectuate în mediul studenţesc s-a constata
că variabilele din tabelul 1.10 sunt puternic corelate cu variabilele de interes ale studiului.
Tabel 1.10
ponderea studenţilor locuiesc în cămin au un loc de muncă sunt bursieri
care (%):
35 20 25

Se cere:
1. Alegeţi variabila pe baza căreia se va calcula volumul eşantionului.
2. Ştiind că unităţile ce vor forma eşantionul se vor selecta după procedeul simplu
aleator fără revenire din lista studenţilor furnizată de către secretariatul facultăţii,
să se calculeze volumul eşantionului pentru o probabilitate de 95% şi o eroare
limită de 3%.
3. Tot din cercetări anterioare se cunoaşte că proporţia de nonrăspunsuri în acest tip
de populaţii este de 5%. Pe de altă parte se apreciază că 2% din studenţii ce
figurează în baza de date urmează să fie exmatriculaţi. Aceştia se consideră
unităţi non-eligibile. Să se calculeze în aceste condiţii eşantionul de pornire.

Rezolvare:

1. Pentru a asigura reprezentativitatea eşantionului pentru toate variabilele de


interes volumul eşantionului se va calcula pornind de la acea variabilă auxiliară
pentru care coeficientul de variaţie are valoarea maximă. Calculele necesare sunt
sistematizate în tabelul 1.11.
Tabel 1.11
ponderea studenţilor care: % Media dispersia coeficient de variaţie (%)

locuiesc în cămin 35 0.35 0.2275 73.38

au un loc de muncă 20 0.2 0.16 50


sunt bursieri 25 0.25 0.1875 57.73

Media unei caracteristici calitative de tip alternativ se calculează după relaţia:


M
p= unde M reprezintă numărul celor care îndeplinesc condiţia în populaţie iar
N
N este volumul populaţiei.
Dispersia caracteristicii alternative se calculează astfel:
σ 2 p = p ⋅ (1 − p)
Valoarea coeficientului de variaţie este dată de relaţia:
σp
V= 100
max(p, (1 - p))
Din datele din tabelul 1.11 se observă că după variabila: „locuiesc în cămin”
populaţia studenţilor este cel mai puţin omogenă. Se recomandă calcularea volumului
eşantionului pornind de la această variabilă.
2. Deoarece procedeul de selecţie utilizat este simplu aleator fără revenire la
calculul volumului eşantionului se foloseşte relaţia:
z 2 p(1 − p) 1.96 2 ⋅ 0.35 ⋅ (1.0.35)
n= = ≈ 781 persoane
2 z 2 p(1 − p) 2 1.96 2 ⋅ 0.35 ⋅ (1.0.35
Δw + 0.03 +
N 4000
3. După determinarea volumului eşantionului teoretic necesar trebuie să
determinăm care este volumul eşantionului de pornire astfel încât în final să
ajungem la numărul teoretic de unităţi selectate.
Se pune problema să ţinem cont de imperfecţiunea listei utilizate ca bază de sondaj.
Considerăm unităţi non-valide acele unităţi care n-ar trebui să figureze pe listă dacă aceasta
ar corespunde perfect populaţiei studiate. În practică, în ciuda eforturilor actualizării
bazelor de date utilizate ca baze de sondaj, există în mod curent un număr de unităţi non-
valide. Trebuie estimată această proporţie astfel încât să putem determina cât mai precis
volumul de pornire al eşantionului.
În funcţie de modul de definire a populaţiei supuse studiului este posibil ca unele
unităţi să fie considerate non-eligibile. De exemplu dacă populaţia de interes este formată
din totalitatea persoanelor cu vârsta cuprinsă între 15 şi 64 ani (populaţia în vârstă de
muncă) iar unitatea de selecţie este gospodăria, persoanele ce nu îndeplinesc condiţia de
vârstă sunt considerate non-eligibile.
Existenţa non-răspunsurilor este o problemă întâlnită în orice sondaj. Din această
cauză se recomandă anticiparea ratei non-răspunsurilor încă din faza de proiectare a
sondajului pentru a redimensiona eşantionul.
Relaţia de calcul a volumului eşantionului de pornire este:
1 1 1
n p = n th ∗ ∗ ∗ unde:
Pr Pe Pv
np= volumul eşantionului de pornire; nth= volumul eşantionului teoretic;
Pr=proporţia de răspuns; Pe=proporţia de eligibilitate; Pv=proporţia de validitate
1 1 1
n p = 781 ∗ ∗ ∗ = 839 persoane.
0.95 1 0.98

Problema 5

În rândul celor 640 de salariaţi ai unei societăţi din sectorul minier urmează să se
realizeze un studiu cu privire la rolul organizaţiei sindicale şi măsura in care aceasta
reprezintă în interesele salariaţilor. Deoarece se consideră că variabila vârsta este puternic
corelată cu variabilele de interes ale studiului volumul eşantionului se va calcula pornind de
la această variabilă. Vârsta medie a salariaţilor este de 42 ani cu o dispersie de 12.

Se cere:
1. Să se calculeze volumul eşantionului teoretic, corespunzător unei erori limită de
± 2% din medie, garantată cu o probabilitate de 95%, ştiind că procedeul de
selecţie utilizat este simplu aleatoriu fără revenire.
2. Să se calculeze volumul eşantionului de pornire ştiind că doar 85% din salariaţi
sunt membri ai sindicatului. Proporţia de răspuns aşteptată este de 95% iar cea de
validitate este de 100%.

Rezolvare:

1. Eroarea limită propusă este:


Δ x = 0,03 ⋅ X = 0,02 ⋅ 42 = 0,84 ani
Relaţia de calcul a volumului eşantionului este:
z 2σ 2 1.96 2 ⋅ 12
n th = = ≈ 60 persoane
2 z 2σ 2 2 1.96 2 ⋅ 12
Δx + 0.84 +
N 640

2. Calcul volumului eşantionului de pornire:


1 1 1
n p = n th ∗ ∗ ∗ unde:
Pr Pe Pv
nth= 60;
Pr=0,95
Pe=0,85;
Pv=1
1 1 1
n p = 60 ∗ ∗ ∗ = 74 persoane.
0.95 0.85 1

Probleme propuse

Problema 1

La târgul de turism s-a realizat un sondaj în rândul vizitatorilor. Eşantionul de 400


de persoane a fost obţinut printr-o selecţie mecanică. Rezultatele centralizate pentru două
întrebări din chestionar sunt:

Q1. Vârsta în ani împliniţi este (limita inferioară inclusă în interval):

Tabelul 1.12
Sub 30 30-40 40-50 50-60 50-60 Peste 60 Total
60 100 160 50 20 10 400

Q2. Cum vi s-au părut condiţiile de cazare la munte anul acesta?

Tabelul 1.13
Foarte bune Bune Acceptabile Proaste Nu ştiu
Hoteluri 70 190 50 60 30
Vile 190 90 100 80 40

Se cere:
1. Să se reprezinte grafic distribuţia vizitatorilor după vârstă.
2. Caracterizaţi variaţia si asimetria distribuţiei vizitatorilor după vârstă.
3. Să se estimeze pentru o probabilitate de 0,95 vârsta medie a vizitatorilor.
4. Dacă eroarea limită se reduce cu 25% cât de mare trebuie să fie volumul
eşantionului (probabilitatea cu care se garantează rezultatul rămâne
neschimbată)?
5. Să se estimeze ponderea vizitatorilor care au o părere bună şi foarte bună despre
condiţiile de cazare de anul acesta la munte.
Problema 2

În rândul celor 90 de proprietari dint-un bloc de locuinţe s-a realizat un studiu


privind nivelul de mulţumire faţă de condiţiile existente prelevându-se un eşantion de 23
persoane. În urma centralizării răspunsurilor la două din întrebările din chestionar s-au
obţinut datele următoarele date:

Q1. În ce măsură sunteţi mulţumiţi de:

Tabel 1.14
Condiţiile privind Foarte mulţumit mulţumit aşa şi aşa nemulţumit Total
curăţenia 8 9 4 2 23
căldura 10 7 2 4 23
apa caldă 9 8 4 2 23
apa rece 11 10 1 1 23

Q2. Cât de des vă vizitaţi vecinii?

Tabel 1.15
De 2-3 ori pe
Zilnic De 2-3 ori pe lună De câteva ori pe an niciodată
săptămână
2 6 9 5 1

Se cere:
1. Să se stimeze pentru o probabilitate de 95% ponderea celor care se consideră
mulţumiţi şi foarte mulţumiţi de condiţiile de locuit.
2. Să se estimeze cu aceeaşi probabilitate ponderea celor care îşi vizitează vecinii
de cel puţin 2-3 ori pe lună.

Problema 3

În rândul celor 3600 de agenţi economici dintr-un judeţ urmează să se realizeze un


sondaj. Din surse administrative se cunosc informaţiile din tabelul 1.16. Din cercetări
anterioare pe teme similare efectuate în rândul agenţilor economici s-a constata că
variabilele din tabelul 1.16 sunt puternic corelate cu variabilele de interes ale studiului.

Tabel 1.16
variabila Cifra de afaceri Număr salariaţi
medie 4 mld. lei 26 pers
dispersie 0,45 38,4

Se cere:
1. Alegeţi variabila pe baza căreia se va calcula volumul eşantionului.
2. Ştiind că unităţile ce vor forma eşantionul se vor selecta după procedeul simplu
aleator fără revenire din lista agenţilor economici, să se calculeze volumul
eşantionului pentru o probabilitate de 95% şi o eroare limită de 3% din nivelul
mediu al variabilei după care se va calcula volumul eşantionului.
3. Tot din cercetări anterioare se cunoaşte că proporţia de nonrăspunsuri în acest tip
de populaţii este de 10%. Pe de altă parte se apreciază că 3% din agenţii
economici ce figurează în baza de date se află în curs de lichidare a societăţii.
0,4489Să se calculeze în aceste condiţii eşantionul de pornire.
Sondajul stratificat

Sumarul relaţiilor de calcul necesare calculului erorilor de reprezentativitate


utilizate în cazul sondajului stratificat sunt sistematizate în tabelul 2.1.
Notaţii utilizate:


k
N1, N2,….. Nk, reprezintă volumul straturilor în populaţia totală şi Ni = N
i =1


k
n1, n2,….. nk, reprezintă volumul straturilor în eşantion şi n i = n unde k
i =1
reprezintă numărul straturilor.

Probleme rezolvate
Problema 1

În rândul salariaţilor unei întreprinderi se va realiza un sondaj stratificat .


Organizatorii sondajului propun criteriul de stratificare sexul, selecţia unităţilor din fiecare
strat urmând să se realizeze după procedeul simplu aleator fără revenire. Pe baza datelor din
evidenţa personalului s-a calculat, pornind de la variabila „vârsta în ani împliniţi” media şi
dispersia pe fiecare strat. Rezultatele se găsesc în tabelul 2.2:
Tabel 2.2
sex număr salariaţi (pers.) vârsta medie (ani) Dispersia
masculin 535 48 36,4
feminin 365 39 45,8

Se cere:
1. Să se calculeze volumul eşantionului pentru o probabilitate de 95% şi o eroare
limită maximă admisă de ±3% din valoarea vârstei medii tuturor angajaţilor.
2. Să se calculeze volumul eşantioanelor pe fiecare strat.
3. Dacă sondajul organizat ar fi simplu aleator fără revenire ce volum de eşantion ar
fi necesar în aceleaşi condiţii de eroare şi probabilitate.

Rezolvare

Calculele necesare sunt sistematizate în tabelul 2.3.


1. Vârsta medie a celor 900 de salariaţi se calculează ca medie aritmetică ponderata
a vârstei medii a salariaţilor din cele două straturi după relaţia:
k k
39915
X = ∑
i =1
Xi ⋅ N i ∑N
i =1
i =
900
= 44.35 ani

Eroarea limită propusă este:


Δ x = 0.03 ⋅ X = 0.02 ⋅ 42 = 1.33 ani
Tabelul 2.1
Selecţia din interiorul straturilor s-a realizat cu revenire Selecţia din interiorul straturilor s-a realizat fără revenire

k N i2 σi 2 k N i2 S i 2 k N i2 σ i 2 ⎛ N i − ni ⎞ k N i2 S i 2 ⎛ N i − ni ⎞
σ x~ = ∑ ≈ ∑ σ x~ = ∑ ⎜ ⎟≈ ∑ ⎜ ⎟
i =1 N
2
ni i =1 N ni − 1
2
i =1 N
2
ni ⎜⎝ N i − 1 ⎟


i =1 N ni − 1 ⎝ N i − 1
2 ⎟

k N i2 k N i2
Sondaj stratificat σ x~ = ∑ σ2
2 xi σ x~ = ∑ 2
σ 2x i
i =1 N i =1 N
simplu
(neproporţional) k N i2 pi (1 − pi ) k N i2 wi (1 − wi ) k N i2 pi (1 − pi ) N i − ni k N i2 wi (1 − wi ) N i − ni
σw = ∑ ≈ ∑ σw = ∑ 2
⋅ ≈ ∑ 2

i =1 N
2
ni i =1 N
2
ni − 1 i =1 N ni Ni −1 i =1 N ni − 1 Ni −1
k N i2 k N i2
σw = ∑ 2
⋅ σ2w i σw = ∑ 2
⋅ σ2w i
i =1 N i =1 N

k ni2 σi 2 σ2 k ni2 S i 2 k ni2 σi 2 ⎛ N i − ni ⎞ σ2 ⎛ N − ni ⎞ k ni2 S i 2 ⎛ N i − ni ⎞


σ x~ = ∑ = ≈ ∑ σ ~x = ∑ ⎜ ⎟= ⋅ ⎜⎜ i ⎟≈ ∑ ⎜ ⎟

i =1 n ni ⎝ N i − 1
2 ⎟ ⎟ ⎜ ⎟
⎝ Ni −1 i =1 n ni ⎝ N i − 1
2 2 2
i =1 n ni n i =1 n ni ⎠ n ⎠ ⎠
k ni2 k ni2 σ i 2 ⎛ N i − ni ⎞
σ x~ = ∑ σ2 ∑ ⎜ ⎟
i =1 n
2 xi ⎜
i =1 n ni ⎝ N i − 1
2 ⎟
Sondaj stratificat ⎠
proporţional k ni2 w i (1 − w i ) σw2 k ni2 w i (1 − wi ) N i − ni σ 2p N − n
σw = ∑ 2
= σw = ∑ ⋅ = ⋅
i =1 n ni − 1 n i =1 n
2
ni Ni −1 n N −1
k ni2 2 k ni2
σw = ∑ 2
⋅ σw i σw = ∑ ⋅ σ2w i
i =1 n 2
i =1 n

Sondaj stratificat
Aceleaşi relaţii de calcul ca şi în cazul sondajului neproporţional
optim
Tabel 2.3

(X )
ni ni
Ni Xi N i σ 2i sondaj Niσ i 2
sex
(pers.) σ i2 N i Xi sondaj
i − X Ni
(ani) proporţional optim

M 535 48 36.4 25680 19474 48 3227.784 45 33813.34


F 365 39 45.8 14235 16717 32 2470.163 35 767.4125
Total 39915 36191 5697.947 34580.75

Variaţia totală a populaţiei după o anumită caracteristică (măsurată de dispersia σ 2 )


este compusă din variaţia din interiorul straturilor (măsurată de dispersia σ 2 ) şi variaţia
dintre straturi (măsurată de dispersia δ 2 ). Cele trei dispersii se calculează după relaţiile:
k

∑ (X
N k
∑ (X
j=1
j − X) 2
∑σ N 2
i i i − X) 2 N i
i =1
σ2 = ; σ2 = i =1
k
; δ2 = k
N
∑ Ni
i=1
∑N
i =1
i

Conform regulii de adunare a dispersiilor între aceste tipuri de variaţie există


următoarea relaţie: σ 2 = σ 2 + δ 2 .
Dacă în cazul sondajului simplu aleator mărimea eşantionului este direct
proporţională cu dispersia totală a variabilei, în cazul sondajului stratificat acesta va fi
influenţat doar de o parte a acestei variaţii.
Deoarece întotdeauna σ 2 < σ 2 în cazul stratificării va fi necesar un volum de
eşantion mai mic, estimaţia realizându-se în aceleaşi condiţii de precizie şi probabilitate.
Variaţia din interiorul straturilor calculată ca medie a dispersiilor straturilo reste:
k

2
∑σ N
i =1
2
i i
36191
σ = k
= = 40.21
900
∑N i =1
i

Volumul eşationului în cazul sondajului stratificat se calculează după relaţia:


z2σ 2 1.96 2 ⋅ 40.21
n= = = 79.6 ≈ 80 pers.
z2σ 2 2 1.96 2 ⋅ 40.21
2
Δx + 1.33 +
N 900
2. Repartizarea eşantionului pe straturi se poate realiza în trei moduri şi anume:
o neproporţional obţinându-se un sondaj stratificat neproporţional sau simplu;
o proporţional respectându-se ponderea fiecărui strat în total populaţie obţinându-
se un sondaj stratificat proporţional;
o ţinând cont atât de proporţia fiecărui strat în total, cât si de gradul de variaţie al
fiecărui strat, obţinându-se un sondaj stratificat optim.
Calculul volummului eşantionului pe fiecare strat în cazul sondajului
neproporţional

În acest caz nu sunt necesare informaţii detaliate. Din fiecare strat se extrage un
număr de unităţi pentru a forma eşantionul fără a ţine cont de greutatea specifică a fiecăruia
în totalul populaţiei.
n 80
ni = = = 40 pesroane
k 2

Calculul volummului eşantionului pe fiecare strat în cazul sondajului


proporţional

Acest tip de sondaj se recomandă în cazul în care există diferenţe mari între
volumele subpopulaţiilor straturilor deoarece structura pe straturi în populaţia totală se
respectă şi se regăseşte şi în structura eşantionulu
Prin definiţie se numeşte un sondaj stratificat proporţional cel pentru care este
îndeplinită condiţia:
k

n1 n n n
∑n
i =1
i
n
= 2 = .... i .... = k = k
=
N1 N 2 Ni Nk N
∑N
i =1
i

n
Din aceasta deducem relaţia de calcul pentru eşantionul fiecărui strat: n i = ⋅ Ni
N
unde i=1,2,…,k.
80
n1 = ⋅ 535 ≈ 48 persoane
900
80
n2 = ⋅ 365 ≈ 32 persoane
900

Calculul volummului eşantionului pe fiecare strat în cazul sondajului optim

În cazul în care există diferenţe mari în ceea ce priveşte gradul de variaţie al


straturilor se recomandă utilizarea sondajului stratificat optimdeoarece stabilirea
subeşantioanelor se face ţinând cont atât de proporţia pe care o ocupă stratul în populaţia
totală cât şi de abaterea medie pătratică, indicator ce exprimă variaţia caracteristicii în
interiorul stratului.
Pentru determinarea numărului de unităţi ce se vor extrage din fiecare strat se
utilizează relaţia:
k

n1 n2 ni nk
∑ni =1
i

= = ... = = .... = =
N 1 ⋅ σ1 N 2 ⋅ σ 2 N i ⋅ σi Nk ⋅ σk k

∑N
i =1
i ⋅ σi
Pe baza acesteia deducem relaţia de calcul pentru subeşantionul ce urmează a fi

extras din fiecare strat n i = k i i × n .
∑N σ
i =1
i i

3227,784
n1 = × 80 ≈ 45 persoane
5697.947
2470,163
n2 = × 80 ≈ 35 persoane
5697.947

2. Dacă sondajul organizat s-ar desfăşura după un plan simplu aleator nerepetat
variaţia de care trebuie ţinut cont în momentul calculării volumului eşantionului
este variaţia totală a caracteristicii. Deoarece nu se cunosc valorile individuale ale
variabilei „vârsta” pentru toate cele N unităţi din populaţie nu putem calcula
N
variaţia totală după relaţia: σ = 2
∑ (X
j=1
j − X) 2 N

Deoarece σ = σ + δ vom calcula variaţia totală ca sumă variaţiilor inter şi intra


2 2 2

straturi.
k

∑ (X
i =1
i − X) 2 N i
34580,75
δ2 = k
= = 38,42
900
∑N
i =1
i

σ 2 = 40,21 + 38,42 = 78,63


z 2σ 2 1.96 2 ⋅ 78.63
n SAFR = = ≈ 144 persoane
2 z 2σ 2 2 1.96 2 ⋅ 78.63
Δx + 1.33 +
N 900
Prin aplicarea unui plan de sondaj stratificat s-a redus volumul eşantionului fată de
un sondaj simplu aleator fără revenire de la 144 persoane la 80 persoane.

Problema 2

În rîndul studenţilor facultăţii REI urmează să se realizeze un sondaj având drept


obiectiv principal analiza calităţii procesului de învăţământ. Deoarece se urmăreşte
evidenbţierea caracteristicilor fiecărui an de studi se e va utiliza un plan de sondaj
stratificat. Informaţiile necesare aplicării planului de sondaj au fost preluate de la
secretariatul facultăţii şi sunt prezentate în tabelul 2.4.
Tabel 2.4
Anul de studii Număr studenţi (pers) Ponderea studenţilor fără restanţe (%)
An I 600 20
An II 575 63
An III 500 45
An IV 450 86
Total 2125
Se cere:
1. Să se calculeze volumul eşantionului pentru o probabilitate de 95% şi o eroare
limită de ±3%.
2. Deoarece realizarea sondajului pentru volumul calculat la punctul 1 necesită
cheltuieli prea mari s-a propus reducerea acestuia cu 10%. Care va fi eroarea
limită ce va trebui acceptată în această situaţie?
3. Să se calculeze volumul eşantioanelor pe fiecare strat pornind de la volumul
eşantionului calculat la punctul 2.
4. Dacă sondajul organizat ar fi simplu aleator fără revenire ce volum de eşantion ar
fi necesar în aceleaşi condiţii de eroare şi probabilitate cu cele de la punctul 2.

Rezolvare

Tabel 2.5
ni ni
Anul σ 2pi
Ni pi N i σ 2pi sondaj N i σ pi sondaj piNi
de studii
proporţional optim
An I 600 0.2 0.16 96 149 240 137 120
An II 575 0.63 0.2331 134.0325 143 277.6125 159 362.25
An III 500 0.45 0.2475 123.75 124 248.7469 142 225
An IV 450 0.86 0.1204 54.18 112 156.1442 90 387
Total 2125 407.9625 922.5035 1094.25

Calculele necesare sunt prezentate în tabelul 2.5


1. Relaţia de calcul a volumului eşantionului în cazul aplicării unei plan de sondaj
z 2 σ p2
stratificat şi utilizând o variabilă calitativă este: n = 2 2
.
z σ p
Δ2w +
N
k

∑σ
i =1
2
p i Ni
407.9625
σ p2 = k
= = 0.19 unde dispersiile straturilor sunt σ p2 i = p i ⋅ (1 − p i )
2125
∑N i =1
i

1.96 2 ⋅ 0.19
⇒n= ≈ 587 persoane
2 1.96 2 ⋅ 0.19
0.03 +
2125

2. Dacă volumul eşantionului se reduce cu 10% atunci noul volum va fi


n ′ = 0.9 ⋅ n = 0.9 ⋅ 587 ≈ 528 persoane.
σ p2 ⎛ N − n ′ ⎞ σ p2 ⎛ n ′ ⎞
Δw = z ⋅ ⎜ ⎟ ≈ z ⋅ ⎜1 − ⎟ = 0.0324
n′ ⎝ N − 1 ⎠ n′ ⎝ N ⎠
Dacă se reduce volumul eşantionului cu 10% eroarea limită, corespunzătoare unei
probabilităţi de garantare a rezultatelor de 95%, este de 3.24%.
Calculul volummului eşantionului pe fiecare strat în cazul sondajului
neproporţional

n 528
ni = = ≈ 65 pesroane
k 4

Calculul volummului eşantionului pe fiecare strat în cazul sondajului


proporţional

Pornim de la condiţia ce trebuie satisfăcută în cazul sondajului stratificat


proporţional:
n1 n n n n n
= 2 = .... i .... = k = ⇒ n i = ⋅ N i unde i=1,2,…,k.
N1 N 2 Ni Nk N N
258
n1 = ⋅ 600 ≈ 149 persoane
2125
258
n2 = ⋅ 575 ≈ 143 persoane
2125
258
n3 = ⋅ 500 ≈ 124persoane
2125
258
n4 = ⋅ 450 ≈ 112 persoane
2125

Calculul volummului eşantionului pe fiecare strat în cazul sondajului optim

n1 n2 ni nk n
Pornim de la relaţia: = = ... = = .... = =
N1 ⋅ σ p1 N 2 ⋅ σ p 2 N i ⋅ σ pi N k ⋅ σ pk k

∑N
i =1
i ⋅ σ pi

N i σ pi
⇒ ni = k
×n.
∑N σ
i =1
i pi

240
n1 = × 528 ≈ 137 persoane
922.5
277.6
n2 = × 528 ≈ 159 persoane
922.5
248.7
n3 = × 528 ≈ 159 persoane
922.5
156
n4 = × 528 ≈ 159 persoane
922.5
3. Variaţia totală a caracteristicii calitative este dată de relaţia: σ 2p = p ⋅ (1 − p ) unde
p reprezintă media caracteristicii calitative ce se calculează astfel:

∑ pN
k
i =1 i i 1094.25
p= = =0.5149 ⇒ σ 2p = 0.5149 ⋅ (1 − 0.5149) = 0.2498
∑ N
k
2125
i =1 i

z 2σ 2 1.96 2 ⋅ 0.2498
n SAFR = 2
= 2
≈ 639 persoane
z 2
σ 2 1.96 ⋅ 0 . 2498
Δ 2w +
p 0.0324 +
N 2125
Dacă s-ar utiliza un plan de sondaj simplu aleator fără revenire , pentru a garanta
rezultatele cu aceeaşi probabilitate de 95% cu o eriare limită de ±3.24% ar fi necesară o
creştere a volumului eşantionului cu 111 persoane.

Problema 3

În urma unui sondaj stratificat proporţional după mediul de rezidenţă realizat în


judeţul Bacău de către o societate de produce băuturi răcoritoares-au obţinut datele
centralizate în tabelul 2.6.

Tabel 2.6
Informaţii obţinute din eşantion
Efecivul
Eşantion Venitul Dispersia Ponderea celor care
Mediul populaţiei (mii
(pers.) mediu/pers venitului consumă săptămânal
pers.)
(mil. lei) mediu/pers. băuturi răcoritoare (%)

Urban 340 511 3.8 4.5 72


Rural 325 489 2.1 1.9 18
Total 665 1000

Se cere:
1. Să se estimeze cu o probabilitate de 0.9545 venitul mediu/pers atât pe fiecare
strat cât şi la nivelul întregului judeţ.
2. Să se estimeze cu o probabilitate de 0.9545 ponderea celor care consumă
săptămânal băuturi răcoritoate şi numărul lor, pe fiecare strat şi pe total judeţ.

Rezolvare

1. Calculele necesare rezolvării acestei cerinţe sunt prezentate în tabelul 2.7.

Tabel 2.7

Ni ni
Mediul
(mii pers.) (pers.)
x i mil lei Si2 x i ni σ xi Δ xi Linf Lsup

Urban 340 511 3.8 4.5 1941.8 0.094 0.188 3.612 3.988
Rural 325 489 2.1 1.9 1026.9 0.062 0.125 1.975 2.225
Total 665 1000 2968.7
Estimarea venitului mediu/persoană în mediul urban

În urma prelucrării datelor din eşantionul prelevat din mediul urban s-a obţinul
venitul mediu/persoană. Acesta este de 3,8 mil. Lei. Pentru a estima venitul mediu/persoană
în mediul urban este necesar să calculăm eroarea reprezentativitate şi eroarea limită.
Calculăm cât reprezintă 5% din volumul populaţiei stratului 1.
0,05*N1=0,05*340000=17000
Deoarece n1<0,05*N1 considerăm populaţia infinită iar relaţiile de calcul folosite
pentru calculul erorii de reprezentativitate vor fi cele aferente sondajului simplu aleator cu
revenire.
S12 4,5
σ x1 = = = 0.094 mil. Lei
n1 511
S12
Δ x1 = z ⋅ = 2 ⋅ 0.094 = 0.188 mil. Lei
n1
Intervalul de încredere:
x 1 − Δ x1 < X1 < x 1 + Δ x1 3.8 − 0.188 < X1 < 3.8 + 0.188 3.612 < X1 < 3.988
Garantăm cu o probabilitate de 95.45% că venitul mediu/persoană în mediul urban
este de cel puţin 3.612 mil. Lei şi cel mult 3.988 mil. Lei.

Estimarea venitului mediu/persoană în mediul rural

În urma prelucrării datelor din eşantionul prelevat din mediul rural s-a obţinul un
venit mediu/persoană. de 2.1 mil. Lei. Pentru a estima venitul mediu/persoană în mediul
urban este necesar să calculăm eroarea reprezentativitate şi eroarea limită.
Calculăm cât reprezintă 5% din volumul populaţiei stratului 2.
0.05*N2=0.05*325000=16250
Deoarece n2<0.05*N2 considerăm populaţia infinită iar relaţiile de calcul folosite
pentru calculul erorii de reprezentativitate vor fi cele aferente sondajului simplu aleator cu
revenire.
S 22 1.9
σ x2 = = = 0.062 mil. Lei
n2 489
S 22
Δ x2 = z ⋅ = 2 ⋅ 0.062 = 0.125 mil. Lei
n2
Intervalul de încredere:
x 2 − Δ x2 < X 2 < x 2 + Δ x2 2.1 − 0.125 < X 2 < 2.1 + 0.125 1.975 < X 2 < 2.225
Garantăm cu o probabilitate 0.9545 că venitul mediu/persoană în mediul rural este
de cel puţin 1.975mil. Lei şi cel mult 2.225 mil. Lei.

Estimarea venitului mediu/persoană pe total judeţ

Deoarece sondajul realizat este stratificat proporţional estimatorul venitului


mediu/peroană la nivelul judeţului se calculează astfel:
k k
2968,7
~
x = ∑x i =1
i ⋅ ni ∑n
i =1
i =
1000
= 2.9687 mil. lei
Calcului erorii de reprezentativitate:
k
n i2
σ ~x = ∑n
i =1
2
σ 2x i = 0.056821 mil. lei

Δ ~x = z ⋅ σ ~x = 2 ⋅ 0.056821 = 0.113642 mil. Lei


Intervalul de încredere:
~x − Δ ~x < X < ~ x + Δ ~x 2.9687 − 0.1136 < X < 2.9687 + 0.1136 2.8551 < X < 3.0823
Garantăm cu o probabilitate de 95.45% că venitul mediu/persoană în judeţul Bacău
este de cel puţin 2.8551 mil. Lei şi cel mult 3.0823mil. Lei.

2. Calculele necesare rezolvării acestei cerinţe sunt prezentate în tabelul 2.8

Tabelul 2.8
Ni ni
Mediul wi Si2 wini σ wi Δ wi Linf Lsup
(mii pers.) (pers.)
Urban 340 511 0.72 0.2016 367.92 0.020 0.040 0.680 0.760
Rural 325 489 0.18 0.1476 88.02 0.017 0.035 0.145 0.215
Total 665 1000 455.94

Estimarea procentului celor care consumă săptămânal băuturi răcoritoare în


mediul urban

Estimatorul procentului celor care . consumă săptămânal băuturi răcoritoare în


mediul urban calculat pe baza datelor din eşantion este de 72%. Pentru a estima procentul
acestora în mediul urban este necesar să calculăm eroarea reprezentativitate şi eroarea
limită.
Deoarece populaţia este considerată infinită utilizăm relaţiile de calcul aferente
calculul sondajului simplu aleator cu revenire.
S12 0.2016
σ w1 = = = 0.020
n1 511
S12
Δ w1 = z ⋅ = 2 ⋅ 0.020 = 0.040
n1
Intervalul de încredere:
w 1 − Δ w1 < p1 < w 1 + Δ w1 0.72 − 0.040 < p1 < 0.72 + 0.040 0.680 < p1 < 0.76
Garantăm cu o probabilitate de 95.45% că în mediul urban cel puţin 68% şi cel mult
76% consumă săptămânal băuturi răcoritoare.
Intervalul de încredere pentru numărul celor care consumă săptămânal băuturi
răcoritoare:
N 1 (w 1 − Δ w1 ) < N 1 ⋅ p1 < N 1 (w 1 + Δ w1 ) N 1 (0.72 − 0.040 ) < M 1 < N 1 (0.72 + 0.040 )
231293 < M 1 < 258307
Garantăm cu o probabilitate de 95.45% că în mediul urban cel puţin 231293
persoane şi cel mult 258307 persoane consumă săptămânal băuturi răcoritoare.
Estimarea procentului celor care consumă săptămânal băuturi răcoritoare în
mediul rural

În urma prelucrării datelor din eşantionul prelevat din mediul rural s-a obţinul un
procent de 18% al celor care consumă săptămânal băuturi răcoritoare.
Calculăm eroarea de reprezentativitate
S 22 0.1476
σw2 = = = 0.017
n2 489
S 22
Δ w2 = z ⋅ = 2 ⋅ 0.017 = 0.035
n2
Intervalul de încredere:
w 2 − Δ w2 < p 2 < w 2 + Δ w2 0.18 − 0.035 < p 2 < 0.18 + 0.035 0.145 < p 2 < 0.215
Garantăm cu o probabilitate de 95.45% că în mediul rural cel puţin 14.5% şi cel
mult 21.5% consumă săptămânal băuturi răcoritoare.
Intervalul de încredere pentru numărul celor care consumă săptămânal băuturi
răcoritoare:
N 2 (w 2 − Δ w2 ) < N 2 ⋅ p 2 < N 2 (w 2 + Δ w2 ) 47207 < M 2 ⋅ < 69793
Garantăm cu o probabilitate de 95.45% că în mediul rural cel puţin 47207 persoane
şi cel mult 69793 persoane consumă săptămânal băuturi răcoritoare.

Estimarea procentului celor care consumă săptămânal băuturi răcoritoare pe


total judeţ

Deoarece sondajul realizat este stratificat proporţional estimatorul unwi variabile


calitative la nivelul judeţului se calculează astfel:
k k
455,94
~=
w ∑n w ∑n
i =1
i i
i =1
i =
1000
= 0.45594

Calcului erorii de reprezentativitate:


k
n i2
σ w~ = ∑n
i =1
2
σ 2w i = 0,013236

Δ w~ = z ⋅ σ w~ = 2 ⋅ 0,012236 = 0,026472 Intervalul de încredere:


w~ −Δ~ < p < w ~ +Δ~ 0,45594 − 0,026472 < p < 0,45594 + 0,026472
w w
0,429468 < p < 0,482412
Garantăm cu o probabilitate de 95,45% că cel puţin 42,9468% şi cel mult 48,2412%
din judeţul Bacău consumă săptămânal băuturi răcoritoare.
Intervalul de încredere pentru numărul celor care consumă săptămânal băuturi
răcoritoare:
N (w
~ − Δ ~ ) < N p < N (w
w
~ + Δ ~ ) 285596 < M < 320804
w
Garantăm cu o probabilitate de 95,45% că în judeţul Bacău cel puţin 285596
persoane şi cel mult 320804 persoane consumă săptămânal băuturi răcoritoare.
Problema 4

În urma unui sondaj în rândul agenţilor economici din judeţul Bacău realizat după
un plan stratificat optim s-au obţinut datele centralizate în tabelul 2.9.

Tabel 2.9
Informaţii obţinute din eşantion
Efecivul
Eşantion
populaţiei Dispersia ponderea agenţilor
Mediul (nr. agenţi nr. mediu de
(nr. agenţi caracteristicii economici cu CA sub 1
economici) salariaţi
economici) "nr. Salariaţi" mld. Lei (%)

Urban 4200 320 25 8.1 36


Rural 1500 200 11 2.9 78
Total 5700 520

Se cere:
1. Să se estimeze cu o probabilitate de 0,95 numărul mediu de salariaţi/agent
economic şi atât pe fiecare strat cât şi la nivelul întregului judeţ.
2. Să se estimeze cu o probabilitate de 0,95 pondereaagenţilor economici cu cifra de
afaceri sub 1 mld lei, pe fiecare strat şi pe total judeţ.
Rezolvare
1. Calculele necesare rezolvării acestei cerinţe sunt prezentate în tabelul 2.10.
Tabel 2.10

Mediul Ni ni xi Si2 . x i Ni σ xi Δ xi Linf Lsup

Urban 4200 320 25 8.1 105000 0.153 0.300 24.700 25.300


Rural 1500 200 11 2.9 16500 0.112 0.220 10.780 11.220
Total 5700 520 121500

Estimarea numărului mediu de salariaţi /agent economic în mediul urban


În urma prelucrării datelor din eşantionul prelevat din mediul urban s-a obţinul un
număr mediu de salariaţi/agent economic de 25 persoane. Pentru a estima venitul
mediu/persoană în mediul urban este necesar să calculăm eroarea reprezentativitate şi
eroarea limită.
Calculăm cât reprezintă 5% din volumul populaţiei stratului 1.
0,05*N1=0,05*4200=210
Deoarece n1>0,05*N1 considerăm populaţia finită iar relaţiile de calcul folosite
pentru calculul erorii de reprezentativitate vor fi cele aferente sondajului simplu aleator
fără revenire.
S12 ⎛ N1 − n 1 ⎞
σ x1 = ⎜ ⎟ = 0,153 sal/ag. economic
n 1 ⎜⎝ N1 − 1 ⎟⎠
Δ x1 = z ⋅ σ x1 = 1,96 ⋅ 0,153 = 0,3 sal/ag. economic
Intervalul de încredere:
x 1 − Δ x1 < X 1 < x 1 + Δ x1 24,7 < X1 < 25,3
Garantăm cu o probabilitate de 95% că numărul mediu de salariaţi/ag. Economic în
mediul urban este de cel puţin 24,7 şi cel mult 25,3.

Estimarea numărului mediu de salariaţi /agent economic mediul rural

În urma prelucrării datelor din eşantionul prelevat din mediul rural s-a obţinut un
număr mediu de salariaţi/agent economic de 11 persoane.
Calculăm cât reprezintă 5% din volumul populaţiei stratului 2.
0,05*N2=0,05*1500=75
Deoarece n2>0,05*N2 considerăm populaţia finită iar relaţiile de calcul folosite
pentru calculul erorii de reprezentativitate vor fi cele aferente sondajului simplu aleator fără
revenire.
S 22
⎛ N2 − n2 ⎞
σ x2 = ⎜⎜ ⎟⎟ = 0,112 sal/ag. economic
⎝ N2 −1 ⎠
n2
Δ x 2 = z ⋅ σ x 2 = 1,96 ⋅ 0,112 = 0,220 sal/ag. economic
Intervalul de încredere:
x 2 − Δ x2 < X 2 < x 2 + Δ x2 10,78 < X 2 < 11,22
Garantăm cu o probabilitate de 95% că numărul mediu de salariaţi/agent economic
în mediul rural este de cel puţin 10,78 pers. şi cel mult11,22 pers..

Estimarea numărului mediu de salariaţi /agent economic pe total judeţ

Deoarece sondajul realizat este stratificat optim estimatorul numărului mediu de


salariaţi/agent economic la nivelul judeţului se calculează astfel:
k k
121500
~
x = ∑
i =1
xi ⋅ Ni ∑N i =1
i =
5700
= 21,32 sal/ag. economic

Calcului erorii de reprezentativitate:


k
N i2
σ ~x = ∑N i =1
2
σ 2x i = 0,11647 sal/ag. economic

Δ ~x = z ⋅ σ ~x = 1,96 ⋅ 0,11647 = 0,22829 sal/ag. economic


Intervalul de încredere:
~x − Δ ~x < X < ~ x + Δ ~x 21,0875 < X < 21,54408 sal/ag. economic
Garantăm cu o probabilitate de 95% că numărul mediu de salariaţi/agent economic
în judeţul Bacău este de cel puţin 21,0875 persoane şi cel mult21,54408 persoane.

2. Calculele necesare rezolvării acestei cerinţe sunt prezentate în tabelul 2.11

Tabelul 2.11
Mediul Ni ni wi Si2 wiNi σ wi Δ wi Linf Lsup
Urban 4200 320 0.36 0.2304 1512 0.026 0.051 0.309 0.411
Rural 1500 200 0.78 0.1716 1170 0.027 0.053 0.727 0.833
Total 5700 520 2682
Estimarea procentului agenţilor economici cu CA mai mică de 1 mld. Lei în
mediul urban

Estimatorul procentului agenţilor economici cu CA mai mică de 1 mld. Lei în


mediul urban calculat pe baza datelor din eşantion este de 36%. Pentru a estima procentul
acestora în mediul urban este necesar să calculăm eroarea reprezentativitate şi eroarea
limită.
Deoarece populaţia este considerată finită utilizăm relaţiile de calcul aferente
calculul sondajului simplu aleator cu revenire.
S12 ⎛ N1 − n 1 ⎞
σ w1 = ⎜ ⎟ = 0,026
n 1 ⎜⎝ N1 − 1 ⎟⎠
Δ w1 = z ⋅ σ w1 = 1,96 ⋅ 0,026 = 0,051
Intervalul de încredere:
w 1 − Δ w1 < p1 < w 1 + Δ w1 0,309 < p1 < 0,411
Garantăm cu o probabilitate de 95% că în mediul urban cel puţin 30,9% şi cel mult
41,1%din agenţii economici au cifra de afaceri mai mică de 1 mld. Lei.

Estimarea procentului agenţilor economici cu CA mai mică de 1 mld. Lei în


mediul rural

În urma prelucrării datelor din eşantionul prelevat din mediul rural s-a obţinul un
procent agenţilor economici cu CA mai mică de 1 mld. Lei de 78%.
Calculăm eroarea de reprezentativitate
S 22
⎛ N2 − n2 ⎞
σw2 = ⎜⎜ ⎟⎟ = 0,027
n2
⎝ N 2 − 1 ⎠
Δ w 2 = z ⋅ σ w 2 = 1,96 ⋅ 0,027 = 0,053
Intervalul de încredere:
w 2 − Δ w2 < p 2 < w 2 + Δ w2 0,727 < p 2 < 0,833
Garantăm cu o probabilitate de 95% că în mediul rural cel puţin 72,7% şi cel mult
83,3%din agenţii economici au cifra de afaceri sub 1 mld. Lei.

Estimarea procentului agenţilor economici cu CA mai mică de 1 mld. Lei pe total


judeţ

Deoarece sondajul realizat este stratificat optim estimatorul unei variabile calitative
la nivelul judeţului se calculează astfel:
k k
2682
~=
w ∑
i =1
ni wi ∑n
i =1
i =
520
=0,470526

Calcului erorii de reprezentativitate:


k
N i2
σ w~ = ∑N
i =1
2
σ 2w i = 0,02031

Δ w~ = z ⋅ σ w~ = 1,96 ⋅ 0,02031 = 0,03981


Intervalul de încredere:
w~ −Δ~ < p < w ~ + Δ ~ 0,43071 < p < 0,51034
w w
Garantăm cu o probabilitate de 95% că cel puţin 43,071% şi cel mult 51,034% din
agenţii economici ai judeţului Bacău au cifra de afaceri mai mică de 1 mld. lei.

Problema 5

În rândul celor 1800 de studenţi ai unei facultăţi (1100 băieţi şi 700 fete), s-a
realizat un sondaj. În faza iniţială a proiectării sondajului s-a propus realizarea unei
stratificări utilizând sexul drept criteriu de repartizare pe straturi. Deoarece listele utilizate
ca bază de sondaj conţineau studenţii în ordine alfabetică nu s-a considerat necesară
modificarea acestora şi s-a recus la un sondaj simplu aleator fără revenire. În urma
prelucrării datelor s-a obţinut un număr mediu de ore pe săptămână petrecute la calculator
de 14,8 cu o dispersie de 87,11.
Tabel 2.12
Numărul mediu de ore
Număr Număr
pe săptămână Ponderea studenţilor
Sex studenţi studenţi Dispersia
petrecute la calculator care lucrează (%)
în populaţie În eşantion
(h/student)
M 1100 112 17 25 29
F 700 88 12 16 19
Total 1800 200

Se cere:
1. Să se estimeze pentru o probabilitate de 0,95 numărul mediu de ore pe săptămână
petrecute la calculator.
2. Ştiind că 25% din studenţii intervievaţi lucrează să se estimeze procentul acestora
în populaţie cu aceeaşi probabilitate
3. Pentru ameliorarea estimatorilor s-a recurs la o poststratificare. Pe urma
prelucrării informaţiilor s-au obţinut datele din tabelul 2.12. Să se estimeze în
aceste condiţii, cu aceeaşi probabilitate, numărul mediu de ore pe săptămână
petrecute de un student la calculator şi procentul studenţilor care lucrează.

Rezolvare

1. Deoarece n (200) >0,05*1800 considerăm că sondajul aleator fără revenire a fost


realizat într-o populaţie finită. Dispersia caracteristicii cantitative vârsta în
populaţiei nu este cunoscută şi va fi înlocuită cu dispersia caracteristicii în
eşantion.

Calculul erorii de reprezentativitate (eroare standard).


S2 N − n 87,11 1800 − 200
σ = ⋅ = ⋅ = 0,62 ore
x n N −1 200 1800 − 1
Calculul erorii limită
Δ x = z ⋅ σ x =1,96*0,62=1,22 ore
Intervalul de încredere:
x − Δ x < X < x + Δ x 13,58 < X < 16.02 ore
Se garantează cu o probabilitate de 95% că numărul de ore petrecute pe săptămână
de un student la calculator este de cel puţin 13,58 ore şi cel mult 16,02 ore.
2. Calculăm erorea de reprezentativitate pentru variabila calitativă:
w (1 − w ) N − n 0,25(1 − 0,25) 1800 − 200
σw = ⋅ = ⋅ = 0,028868
n N −1 200 1800 − 1
Calculul erorii limită
Δ w = z ⋅ σ w =1,96*0,028868=0,05658
Intervalul de încredere:
w − Δ w < p < w + Δ w 0,19342 < p < 0,30658
Garantăm cu 95% că cel puţin 19,342% şi cel mult 30,658% din studenţilucrează.
3. Prin proiectarea unui sondaj în care eşantionarea se realizează ca şi în cazul
sondajului simplu aleator (de obicei fără revenire) dar procedura de estimare a
parametrilor populaţiei este asemănătoare sondajului stratificat putem obţine
estimatori a căror eroare de reprezentativitate nu este cu mult mai mare decât cea
care s-ar fi obţinut printr-un sondaj stratificat. Avantajul acestei metode este
eliminarea inconvenienţei sau imposibilităţii grupării elementelor pe straturi
înainte de eşantionare.
Tabel 2.13
2
N i2
Si ⎛ Ni − ni ⎞ ⎛ Ni ⎞ 2
Sex Ni ni xi Si2 xi Ni ⎜⎜ ⎟⎟ ⎜1 − ⎟Si
⎝ Ni −1
2
N ni ⎠ ⎝ N⎠
M 1100 112 17 25 18700 0.041495 9.722222
F 700 88 12 16 8400 0.010754 9.777778
Total 1800 200 27100 0.05225 19.5

∑ Nx
k
i =1 i i
Calculăm x pstr = unde x pstr reprezintă media eşantionului
∑ N
k
i =1 i

poststratificat.
Calculele necesare sunt prezentate în tabelul 2.13.

27100
x pstr = = 15,05
1800
Deoarece stratificarea se realizează după efectuarea selecţiei eroarea medie de
reprezentativitate se va calcula după relaţia:
k 2 k
N i2 σ i ⎛ Ni − n i ⎞ 1 ⎛ Ni ⎞
σ ~xpstr = ∑
i =1 N2 ni
⎜⎜
⎝ Ni −1
⎟⎟ + 2
⎠ n
∑ ⎜⎝1 − N ⎟⎠σ
i =1
i
2

Dacă σ , dispersia stratului i nu se cunoaşte se va înlocui cu estimatorul acesteia:


i
2

Ni
1
Si2 =
ni −1 ∑ (xj=1
ij − x i ) 2 Relaţia devine:

k
⎛ Ni − ni ⎞ 1 k ⎛ Ni ⎞ 2
N i2 Si
2
1
σ ~xpstr =
i =1
∑ ⎜⎜ ⎟⎟ + 2 ⎜1 −
⎝ N i − 1 ⎠ n i=1 ⎝
N2 ni
⎟Si = 0,05225 +
N⎠ 200 2

19,5 =0,23

Primul termen reprezintă eroarea standard aşteptată în cazul unui sondaj stratificat
cu alocarea pe straturi neproporţională şi selecţia unităţilor din interiorul straturilor după
procedeul fără revenire iar al doilea termen reprezintă penalizarea datorată faptului că
stratificare s-a realizat după selecţie.
1
Observăm că termenul reduce penalizarea cu cât volumul eşantionului este mai
n2
mare. Putem spune în aceste condiţii că poststratificarea duce la bune estimaţii atunci când
volumul eşantionului este mare.
Calculul erorii limită
Δ ~xpstr = z ⋅ σ ~xpstr =1,96*0,23=1,45 ore
Intervalul de încredere:
~x pstr − Δ ~xpstr < X < ~
x pstr + Δ ~xpstr 14,6 < X < 15,5 ore
Se garantează cu o probabilitate de 95% că numărul de ore petrecute pe săptămână
de un student la calculator este de cel puţin 14,6 ore şi cel mult 15,5 ore.
Calculele pentru variabila calitativă sunt prezentate în tabelul 2.14.

Tabel 2.14
2
N i2
Si ⎛ Ni − ni ⎞ ⎛ Ni ⎞ 2
Sex Ni ni wi Si2 w i Ni ⎜⎜ ⎟⎟ ⎜1 − ⎟Si
⎝ Ni −1
2
N ni ⎠ ⎝ N⎠
M 1100 112 0.29 0.2059 319 0.000342 0.08007222
F 700 88 0.2 0.16 140 0.000108 0.09777778
Total 1800 200 459 0.000449 0.17785000

∑ Nw
k
i =1 i i 459
w pstr = = =0,255
∑ N
k
200
i =1 i

Deoarece stratificarea se realizează după efectuarea selecţiei eroarea medie de


reprezentativitate se va calcula după relaţia:
k 2 k
N i2 σ i ⎛ Ni − n i ⎞ 1 ⎛ Ni ⎞
σ w~pstr = ∑
i =1 N2 ni
⎜⎜
⎝ Ni −1
⎟⎟ + 2
⎠ n
∑ ⎜⎝1 − N ⎟⎠σ
i =1
i
2

Dacă σ , dispersia stratului i nu se cunoaşte se va înlocui cu estimatorul acesteia:


i
2

Si2 = w i (1 − w i ) Relaţia devine:


k 2 k
N i2 Si ⎛ Ni − n i ⎞ 1 ⎛ Ni ⎞ 1
σ w~pstr = ∑
i =1 N2 ni
⎜⎜
⎝ Ni −1
⎟⎟ + 2
⎠ n
∑ ⎜⎝1 − N ⎟⎠S
i =1
i
2
= 0,000449 +
200 2
0,17785

=0,0213
Calculul erorii limită
Δ w~pstr = z ⋅ σ w~pstr =1,96*0,0213=0,04175
Intervalul de încredere:
~ ~ ~ pstr 0,21325 < X < 0.29675
w pstr − Δ w
~ pstr < X < w pstr + Δ w

Se garantează cu o probabilitate de 95% cel puţin 21,325% şi cel mult 29,675 din
studenţi lucrează.
Probleme propuse

Problema 1

În rândul elevilor claselor a XII dintr-un liceu se va realiza un sondaj stratificat


Organizatorii sondajului propun criteriul de stratificare sexul, selecţia unităţilor din fiecare
strat urmând să se realizeze după procedeul simplu aleator fără revenire. Pe baza datelor din
evidenţa secretariatului s-a calculat, pornind de la variabila „media clasei a XI”, media şi
dispersia pe fiecare strat. Rezultatele se găsesc în tabelul 2.15.

Tabel 2.15
sex număr elevi(pers.) vârsta medie (ani) Dispersia
masculin 135 8,2 3,9
feminin 165 8,9 4,8

Se cere:
1. Să se calculeze volumul eşantionului pentru o probabilitate de 95% şi o eroare
limită maximă admisă de ±3% din valoarea notei medii a elevilor.
2. Să se calculeze volumul eşantioanelor pe fiecare strat.
3. Dacă sondajul organizat ar fi simplu aleator fără revenire ce volum de eşantion ar
fi necesar în aceleaşi condiţii de eroare şi probabilitate.

Problema 2

În rîndul salariaţilor unei instituţii cu 1010 de angajaţi urmează să se realizeze un


sondaj având drept obiectiv principal caracterizarea mediului de lucru. Deoarece se
urmăreşte evidenţierea caracteristicilor fiecărui departament se va utiliza un plan de sondaj
stratificat. Informaţiile necesare aplicării planului de sondaj au fost preluate de la
compartimentul resurselor umane şi sunt prezentate în tabelul 2.16.
Se cere:
1. Să se calculeze volumul eşantionului pentru o probabilitate de 95% şi o eroare
limită de ±3%.
2. Deoarece realizarea sondajului pentru volumul calculat la punctul 1 necesită
cheltuieli prea mari s-a propus reducerea acestuia cu 20%. Care va fi eroarea
limită ce va trebui acceptată în această situaţie?
3. Să se calculeze volumul eşantioanelor pe fiecare strat pornind de la volumul
eşantionului calculat la punctul 2.
4. Dacă sondajul organizat ar fi simplu aleator fără revenire ce volum de eşantion ar
fi necesar în aceleaşi condiţii de eroare şi probabilitate cu cele de la punctul 2.

Tabel 2.16
Departament Număr salariaţi (pers) Ponderea salariaţilor cu studii superioare (%)
I 80 92
II 190 63
III 110 75
IV 150 86
V 260 15
VI 220 19
Total 1010
Problema 3

În urma unui sondaj în rândul agenţilor economici din judeţul Bacău, realizat după
un plan stratificat proporţional, utilizînd drept criteriu de stratificare forma de proprietate, s-
au obţinut datele centralizate în tabelul 2.17.

Tabel 2.17
Informaţii obţinute din eşantion
Forma de Număr agenţi economici Număr agenţi economici
proprietate în populaţie în eşantion CA medie Dispersia
(mld. lei) CA.

publică 150 37 124 108


privată 459 113 56 26
mixtă 201 50 75 31

Se cere:
1. Să se estimeze cu o probabilitate de 0,9545 cifra medie de afaceri /agent
economic atât pe fiecare strat cât şi la nivelul întregului judeţ.
2. Ce volum de eşantion ar fi fost necesar pentru a estima cifra medie de afaceri în
aceleaşi condiţii de eroare şi probabilitate dacă s-ar realiza un sondaj simplu
aleator fără revenire.

Problema 4

Într-o localitate cu 109000 locuitori cu vârsta de 18 ani si peste s-a realizat un


sondaj. Metoda de culegere a datelor a fost interviul prin telefon. Deoarece nu se putea
cunoaşte sexul persoanei chestionatee decât în momentul desfăşurării interviului nu s-a
putut realiza o stratificare pe acest criteriu. Pentu îmbunătaţirea estimaţiilor s-a recurs la o
poststratificare. Datele centralizate sunt prezentate în tabelul 2.18

Se cere:
1. Să se estimeze pentru o probabilitate de 0,95 numărul mediu de ore pe zi
petrecute la televizor şă procentul celor care desfăşoară o activitate secundară
ştiind că strucura populaţiei de 18 ani şi peste pe sexe este:53% feminin şi 47%
masculin.

Tabel 2.18
Numărul mediu de ore
Număr Ponderea celor care
pe zi
Sex persoane Dispersia desfăşoară o activitate
petrecute la televizor
în eşantion secundară(%)
(h/pers.)
M 202 2,3 0,19 23
F 248 1,9 0,22 12
Total 450
Sondajul de serii
Notaţii utilizate:

R = numărul de unităţi complexe (serii) din populaţie;


r = numărul de unităţi complexe (serii) din eşantion;
N = numărul de unităţi simple (indivizi) din populaţie;
n = numărul de unităţi simple (indivizi) din eşantion;
Nj= numărul de unităţi simple din seria j;
Tj= totalul variabilei de interes pentru toate unităţile seriei j;
N = mărimea medie a unei serii în populaţie;
n = mărimea medie a unei serii în eşantion;
N N
1
T= ∑
i =1
Yi este totalul din populaţie; T =
R ∑Y
i =1
i este totalul mediu pe serie;

N R
1 Nj
Y=
N ∑Y = ∑ N Y
i =1
i
j=1
j este nivelul mediu pe fiecare unitate simplă (individ)

unde Y j este nivelul mediu pe fiecare serie.


Sumarul formulelor necesare calculării estimatorilor parametrilor populaţiei şi a
erorilor de reprezentativitate este prezentat în tabelul 3.1

Probleme rezolvate
Problema 1

Studenţii unei facultăţi sunt împărţiţi în 200 de grupe. Fiecare grupă este formată
dintr-un număr egal de studenţi (11). S-a realizat un sondaj de serii, procedeul de selecţie a
grupelor fiind simplu aleator fără revenire, cu probabilităţi egale. Rezultatele sunt
prezentate în tabelul 3.2.

Tabel 3.2
seria media seriei seria media seriei
1 6.16 11 6.47
2 6.18 12 5.73
3 6.27 13 5.45
4 5.18 14 6.27
5 6.73 15 6.55
6 6.82 16 5.36
7 4.64 17 6.55
8 6.55 18 6.73
9 5.64 19 6.27
10 5.45 20 5.27
Tabel 3.1
Tip Tip
Estimator Eroare reprezrentativitate
sondaj variabilă
2
ˆ 1 r
r ⎛ ˆ⎞
Cantitativă Y = ∑Y j ∑ ⎜⎜ Y j − Y ⎟⎟
R − r δ2 R − r δ̂ 2
cu δˆ 2 = ⎝ ⎠
i =1
r j =1 σˆ = ≈
Serii de dimensiune egală selectate Y R r R r r −1
aleator nerepetat cu probabilităţi egale

Calitativă 1 r R − r δp
2
R − r δ̂ p
2
ˆ
r
(
∑ w j − wˆ ) 2

ŵ = ∑ w j σ wˆ = ≈ 2
cu δ p = i =1
r j =1 R r R r r −1

ˆ 2
r
Y = ∑ N jY j
r
R − r 1 δˆ T 2 r ⎛ ˆ ⎞
Cantitativă ∑Nj σˆ = ⋅ 2⋅ cu: δˆ T 2 = ∑ ⎜⎜ T j − Y N j ⎟⎟ r − 1
j =1 j =1 Y R N r j =1⎝ ⎠
Serii de dimensiune diferită selectate
aleator nerepetat cu probabilităţi egale
R − r 1 δˆ T 2
( )
r r r 2
Calitativă ŵ = ∑ N j w j ∑Nj σ wˆ = ⋅ 2⋅ cu: δˆ T 2 = ∑ T j − wˆ N j r −1
j =1 j =1 R N r j =1

ˆ r r
1 r Nj ⎛ ˆ⎞
2
Cantitativă Y = ∑ N jY j ∑Nj σˆ = ∑ (1 − r ) ⋅ ⎜⎜ Y j − Y ⎟⎟
j =1 j =1 Y r (r − 1) i =1 N ⎝ ⎠
Serii de dimensiune diferită selectate
aleator cu probabilităţi proporţionale cu
talia
Nj
( )
r r
1 r 2
Calitativă ŵ = ∑ N j w j ∑Nj σ wˆ = ∑ (1 − r ) ⋅ w j − wˆ
j =1 j =1 r (r − 1) i =1 N
Se cere:
1. Să se estimeze nota medie a studenţilor cu o probabilitate de 95%.
2. Ştiind că raportul de corelaţie inter-serii este de 9% ce volum de eşantion ar fi
fost necesar dacă s-ar fi realizat un sondaj simplu aleatoriu fără revenire?
Comentaţi rezultatul!

Rezolvare:

Calculele necesare sunt sistematizate în tabelul 3.3

Tabelul 3.3
2 2
⎛ ˆ⎞ ⎛ ˆ⎞
seria Yj ⎜ Yj − Y ⎟ seria Yj ⎜ Yj − Y ⎟
⎝ ⎠ ⎝ ⎠
1 6.16 0.02 11 6.47 0.21
2 6.18 0.03 12 5.73 0.08
3 6.27 0.07 13 5.45 0.31
4 5.18 0.69 14 6.27 0.07
5 6.73 0.51 15 6.55 0.28
6 6.82 0.65 16 5.36 0.42
7 4.64 1.90 17 6.55 0.28
8 6.55 0.28 18 6.73 0.51
9 5.64 0.14 19 6.27 0.07
10 5.45 0.31 20 5.27 0.55
Total 120.27 7.38

1. Fiind vorba de un sondaj de serii de dimensiune egală şi cunoscută estimarea


mediei se face astfel:
r
ˆ 1 120,27
Y=
r ∑Y
j=1
j =
20
= 6,01 reprezintă estimaţia notei medii;

r 2
⎛ ˆ⎞
∑ ⎜ Yj − Y ⎟
i =1 ⎝ ⎠ 7,38
δˆ 2 = = = 0,39
r −1 19
R − r δˆ 2
200 − 20 0,39
σˆ ≈ ⋅ = = 0,1336
Y R r 20 20
Nota medie se situează în următorul interval de încredere:
ˆ ˆ
Y−Δˆ < Y < Y+Δˆ ⇒
Y Y

6,01 − 1,96 ⋅ 0,1336 < Y < 6,01 − 1,96 ⋅ 0,1336 = 6,01 ± 0,262
2. În cazul sondajului de serii numărul de elemente simple ce au format
eşantionul a fost de 220. Relaţia de calcul pentru sondajul simplu aleator fără
revenire este:
z 2σ 2 z 2S 2 1,96 2 ⋅ 4,41
n= ≈ = = 225
z σ
2 2
zS 2
1 ,96 2
⋅ 4,41
Δ2x + Δ2x + 0,262 +
2

N N 2200
variatia dintre grupe δˆ 2
0,397
η2 = ⇒ S2 = 2 = = 4,41
variatia totală η 0,09
Observăm că, pentru aceeaşi eroare de reprezentativitate şi aceeaşi probabilitate
de garantare a rezultatelor diferenţa în ceea ce priveşte dimensiunea eşantionului în
urma aplicării celor două metode este nesemnificativă. Nu trebuie să neglijăm însă
principalul avantaj al sondajului de serii: reducerea substanţială a cheltuielilor.

Problema 2

Studenţii unei facultăţi sunt împărţiţi în 100 de grupe. Fiecare grupă este formată
dintr-un număr egal de studenţi (16). S-a realizat un sondaj de serii, procedeul de
selecţie a grupelor fiind simplu aleator fără revenire, cu probabilităţi egale. Rezultatele
sunt prezentate în tabelul 3.4.

Tabel 3.4
Ponderea studenţilor care doresc Ponderea studenţilor care doresc
Seria seria
să participe la cursul facultativ (%) să participe la cursul facultativ (%)
1 60 9 55
2 54 10 58
3 56 11 59
4 62 12 63
5 63 13 62
6 50 14 64
7 49 15 62
8 58 16 61

Se cere:
1. Să se estimeze ponderea studenţilor care doresc să participe la cursul
facultativ cu o probabilitate de 95%.
2. Ştiind că raportul de corelaţie inter-serii este de 12% ce volum de eşantion ar
fi fost necesar dacă s-ar fi realizat un sondaj simplu aleator fără revenire?

Rezolvare
Tabelul 3.5

Seria wj (w j − ŵ )
2
seria wj (w j − ŵ )
2

1 0.6000 0.0002 9 0.5500 0.0012


2 0.5400 0.0020 10 0.5800 0.0000
3 0.5600 0.0006 11 0.5900 0.0000
4 0.6200 0.0012 12 0.6300 0.0020
5 0.6300 0.0020 13 0.6200 0.0012
6 0.5000 0.0072 14 0.6400 0.0030
7 0.4900 0.0090 15 0.6200 0.0012
8 0.5800 0.0000 16 0.6100 0.0006
Total 9.3600 0.0318

1. Calculele necesare sunt sistematizate în tabelul 3.5


Estimatorul în cazul unei variabile cantitative se calculează astfel:
r
1 9.36
ŵ =
r ∑w
j=1
j =
16
= 0.585
Eroroarea de reprezenzentativitate este:
R − r δˆ p
2 2
R − r δp 100 − 16 0.0021
σ ŵ = ≈ = ⋅ = 0.01055 unde
R r R r 100 16
r

∑ (w )
2
j − ŵ
0.0318
δˆ p 2 = i =1
=
= 0.0021
r −1 16 − 1
Eroarea limită corespunzătoare probabilităţii de 0,95 este:
Δ ŵ = z ⋅ σ ŵ = 1,96 ⋅ 0,01055 =0,0207
Intervalul de încredere:
ŵ − Δ ŵ < P < ŵ + Δ ŵ ⇒ 0,585 − 0,0207 < P < 0,585 + 0,0207
0,5643 < P < 0,6057
Garantăm cu o probabilitate de 95% că cel puţin 56,43% şi cel mult 60,57% din
studenţi doresc să participe la cursul facultativ.
2. În cazul sondajului de serii numărul de elemente simple ce au format
eşantionul a fost de 256. Relaţia de calcul pentru sondajul simplu aleator fără
revenire este:
z ⋅2 S 2 1,96 2 ⋅ 0,585 ⋅ (1 − 0,585)
n= = ≈ 922 studenţi
Δ2w + z ⋅ S 2 N 0,0207 2 + 1,96 2 ⋅ ⋅0,585 ⋅ (1 − 0,585) 1600
Deoarece variaţia dintre serii este foarte mică (raportul de corelaţie inter-serii
fiind doar 0,87) sondajul de serii se dovedeşte foarte eficient.

Problema 3

O localitate este formată din 415 gospodării(serii). Numărul de elemente dintr-o


serie (membrii) este diferit şi nu se cunoaşte nivelul mediu al acestuia pentru toate cele
415 gospodării. Pentru a estima venitul mediu pe persoană se extrage în mod aleator un
eşantion format din 25 de serii. Datele centralizate sunt prezentate în tabelul 3.6.

Tabel 3.6
Numărul de venit total pe serie Numărul de venit total pe serie
Seria seria
rezidenţi (mil. lei) rezidenţi (mil. lei)
1 8 32 14 10 30
2 12 42 15 9 32
3 4 19 16 3 12
4 5 22 17 6 25
5 6 27 18 5 18
6 6 26 19 5 21
7 7 27 20 4 17
8 5 21 21 6 22
9 8 30 22 8 30
10 3 15 23 7 25
11 2 10 24 3 14
12 6 26 25 8 29
13 5 20 Total 151 592
Se cere să se estimeze venitul mediu pe gospodărie şi venitul mediu pe persoană
cu o probabilitate de 95%.

Rezolvare

Este vorba de un sondaj de serii de dimensiune diferită selectate după un


procedeu de selecţie cu probabilităţi egale. Calculele sunt sistematizate în tabelul 3.7

Tabel 3.7
2 2
⎛ ˆ ⎞ ⎛ ˆ ⎞
Seria Nj Tj ⎜T j − Y j N j ⎟ seria Nj Tj ⎜T j − Y j N j ⎟
⎝ ⎠ ⎝ ⎠
1 8 32 0.40419 14 10 30 84.7375
2 12 42 25.4657 15 9 32 10.7897
3 4 19 11.0083 16 3 12 0.05684
4 5 22 5.74729 17 6 25 2.181
5 6 27 12.0883 18 5 18 2.56848
6 6 26 6.13464 19 5 21 1.95259
7 7 27 0.19688 20 4 17 1.73681
8 5 21 1.95259 21 6 22 2.32007
9 8 30 1.86115 22 8 30 1.86115
10 3 15 10.4873 23 7 25 5.97171
11 2 10 4.66102 24 3 14 5.01048
12 6 26 6.13464 25 8 29 5.58962
13 5 20 0.15789
Total 151 592 211.07

Estimatorul mediei populaţiei este:


r

ˆ
r r ∑T j

∑N Y ∑N j=1 595
Y= j j j = r
= = 3,94 mil. lei
151
j=1 j=1
∑N
j=1
j

Deoarece nu se poate calcula mărimea medie seriilor din populaţie N se va


estima cu ajutorul mărimii medii a seriilor din eşantion n .
r
151
n= ∑
j=1
Nj r =
25
= 6,04

Estimarea dispersia totalurilor seriilor faţă de totalul mediu este:


r 2
⎛ ˆ ⎞
=
∑ T
⎜ j

− Y N
j j⎟
⎠ 196,143
δˆ T =
2 j 1
= = 7,05
r −1 24
Eroarea medie de reprezentativitate este:
R − r 1 δˆ T
2
415 − 25 1 7,05
σˆ = ⋅ 2⋅ = ⋅ ⋅ = 0,085
Y R n r 415 6,04 2 25
Eroarea limită maximă admisă este:
Δ ˆ = z ⋅ σ ˆ = 1,96 ⋅ 0,085 = 0,1666 mil. lei
Y Y
Intervalul de încredere pentru venitul mediu pe o persoană este:
ˆ ˆ
Y − Δ ˆ < Y < Y + Δ ˆ ⇒ 3,94 - 0,1666 < Y < 3,94 + 0,1666
Y Y

3,774 < Y < 4,107


garantăm cu o probabilitate de 95% că venitul mediu pe o persoană în această
localitate este de cel puţin 3,774 ,il. Lei şi cel mult 4,107 mil lei.
Intervalul de încredere pentru estimarea venitului mediu pe o gospodărie:
⎛ˆ ⎞ ⎛ˆ ⎞
n ⋅ ⎜ Y − Δ ˆ ⎟ < n ⋅ Y < n ⋅ ⎜ Y + Δ ˆ ⎟ 6,04 ⋅ 3,774 < T < 6,04 ⋅ 4,107 22,793 < T < 24,107
⎝ Y⎠ ⎝ Y⎠

Venitul mediu al unei gospodării se încadrează în intervalul: (22,793; 24,107)


mil lei.

Problema 4

Studenţii din anul terminal mai uneu universităţi sunt repartizaţi pe 140 grupe. În
vederea realizării uneui studiu s-a selectat aleator un eşantion de 14 grupe. Numărul de
studenţi dintr-o grupă este diferit iar nivelul mediu al acestuia pentru toate cele 140 de
grupe este de 18,2 studenţi. Datele obţinute în urma prelucrării sunt centralizate în
tabelul 3.8.

Tabel 3.8
Ponderea studenţilor care Ponderea studenţilor care
Seria Nj seria Nj
au un loc de muncă (%) au un loc de muncă (%)
1 15 66.7 8 18 44.4
2 18 66.7 9 17 52.9
3 18 61.1 10 23 39.1
4 22 45.5 11 24 58.3
5 15 40.0 12 16 50.0
6 16 62.5 13 22 54.5
7 15 73.3 14 19 52.6

Se cere
1. Să se estimeze procentul studenţilor care au deja un loc de muncă pentru o
probabilitate de 95%.
2. Să se estimeze numărul studenţilor care lucrează pentru aceeaşi probabilitate.

Rezolvare

Seriile sunt de dimensiuni diferite iar procedeul de selecţie simplu aleator cu


probabiulităţi egale. Calculele sunt sistematizate în tabelul 3.9

1. În cazul unei variabile calitative estimatorul se calculează după relaţia


r r r r

∑ N w ∑ N =∑T ∑ N
140
ŵ = j j j j j = = 0,5426
j=1 j=1 j=1 j=1
258
Estimarea dispersia totalurilor seriilor faţă de totalul mediu este:
r

∑ (T − ŵ N )
2 45,0257
δˆ T 2 = j j j r −1 = = 3,4635
j=1
14 − 1

Tabelul 3.9

Seria Nj wj Tj (T j − wˆ j N j )
2
seria Nj wj Tj (T j − wˆ j N j )
2

1 15 0.667 10 3.461 8 18 0.444 8 3.124


2 18 0.667 12 4.984 9 17 0.529 9 0.051
3 18 0.611 11 1.519 10 23 0.391 9 12.115
4 22 0.455 10 3.756 11 24 0.583 14 0.954
5 15 0.400 6 4.578 12 16 0.500 8 0.465
6 16 0.625 10 1.737 13 22 0.545 12 0.004
7 15 0.733 11 8.182 14 19 0.526 10 0.096
Total 258 140 45.0257

Eroarea medie de reprezentativitate este:


R − r 1 δˆ T
2
140 − 14 1 3,4635
σ ŵ = ⋅ 2⋅ = ⋅ 2
⋅ = 0,0259
R N r 140 18,2 14
Eroarea limită maximă admisă este:
Δ ŵ = z ⋅ σ ŵ = 1,96 ⋅ 0,0259 = 0,0507
Intervalul de încredere :
ŵ − Δ ŵ < P < ŵ + Δ ŵ ⇒ 0,5426 - 0,0507 < P < 0,5426 + 0,0507
0,4919 < p < 0,5934
Garantăm cu o probabilitate de 95% că cel puţin 49,19% şi cel mult 59,34% din
studenţii anului terminal au deja un loc de muncă.

2. Calculăm numărul de studenţi din anul terminal.


N = N ⋅ R = 18,2 ⋅ 140 =2548 persoane
Intervalul de încredere pentru estimarea numărulzui de studenţi care lucrează:
( ) (
N ⋅ ŵ − Δ ŵ < T < N ⋅ ŵ + Δ ŵ )
1253 < T < 1512 persoane.
Cel puţin 1253 şi cel 1512 de studenţi au un loc de muncă.

Problema 5

La o facultate particulară cele 171 de cadre didactice sunt repartizate pe 8


catedre (unităţi complexe numite serii) prezentate în tabelul 3.10. Pentru a realiza un
sondaj în rândul acestora s-a selectat un eşantion format din trei serii, utilizându-se
procedeul de selecţie cu revenire, cu probabilităţi proporţionale cu talia seriei.
Numerele aleatoare generate sunt: 73, 112, 163.

Tabel 3.10
Catedră 1 2 3 4 5 6 7 8
Nr. profesori 16 19 27 18 27 25 10 29
În urma culegerii datelor din cele 3 catedre ce au intrat în eşantion s-au obţinut
următoarele valori:
ƒ salariul mediu: Y1 = 22,5 mil lei, Y2 = 20,25 mil lei, Y3 = 23,15 mil lei
ƒ ponderea profesorilor care colaborează cu alte universităţi:
w 1 = 25%, w 2 = 18%, w 3 = 19%

Se cere:
1. Precizaţi care sunt cele trei unităţi complexe ce formează eşantionul.
2. Să se estimeze salariul mediu si fondul mediu de salarii pe o catedră pentru o
probabilitate de 0,95.
3. Să se estimeze procentul şi numărul cadrelor didactice ce colaborează cu alte
universităţi pentru o probabilitate de 0,95.

Rezolvare

1. Este necesar să determinăm care sunt unităţile complexe ce formează


eşantionul.
Pentru aceasta, considerând că mărimea unei unităţi complexe este dată de
numărul de profesori, vom calcula valoarea cumulată a mărimii seriei (vezi tabelul
3.11). În funcţie de fiecare număr aleator se va alege o unitate complexă. Aceasta va fi
aceea pentru care valoarea cumulată este prima mai mare sau cel mult egală cu numărul
aleator.Unităţile care vor intra în eşantion sunt: 4, 6 şi 8.

Tabel 3.11
Catedră 1 2 3 4 5 6 7 8
Nr. profesori 16 19 27 18 27 25 10 29
cumul 16 35 62 80 107 132 142 171
Selecţie X x x

2. Calculele necesare sunt sistematizate în tabelul 3.12.


Calculăm estimatorul salariului mediu ca medie ponderată a salariului mediu
obţinut pentru unităţile ce au format eşantionul.
r r
ˆ 1523,6
Y= ∑
j=1
N j Yj ∑N j=1
j
72
= 21,98 mil. lei

Tabelul 3.12
2
Seria Nj Yj wj YjN j wjN j ⎛ ˆ⎞
⎜Y j − Y ⎟
⎝ ⎠
(1 − r
Nj
N
)
col.7*
col 8
(w j − ŵ )
2 col.10*
col 8
1 2 3 4 5 6 7 8 9 10 11
1 18 22.5 0.25 405 4.5 0.2698 0.6842 0.1846 0.0023 0.0016
2 25 20.25 0.18 506.25 4.5 2.9948 0.5614 1.6813 0.0005 0.0003
3 29 23.15 0.19 671.35 5.51 1.3676 0.4912 0.6718 0.0001 0.0001
Total 72 1582.6 14.51 2.5377 0.0019

Eroarea de reprezentativitate este:


r 2
1 Nj
⎛ ˆ⎞ 1
σˆ =
Y r (r − 1) ∑
i =1
(1 − r ) ⋅ ⎜ Yj − Y ⎟ =
N ⎝ ⎠ 3(3 − 1)
2,5277 =0,65 mil. lei
Calculăm eroarea limită maximă admisă:
Δ ˆ = z ⋅ σ ˆ = 1,96 ⋅ 0,65 = 1,27 mil. lei
Y Y
Intervalul de încredere pentru salariul mediu este:
ˆ ˆ
Y − Δ ˆ < Y < Y + Δ ˆ 20,69 < Y < 23,23 mil. lei
Y Y

Pentru a estima fondul mediu de salarii pe o catedră vom calcula mărimea


medie a seriei:
R

∑N
j =1
j
171
N = =
= 21,375
R 8
⎛ˆ ⎞ ⎛ˆ ⎞
N ⋅ ⎜ Y − Δ ˆ ⎟ < N ⋅ Y < N ⋅ ⎜ Y + Δ ˆ ⎟ ⇒ 442 < T < 497
⎝ Y ⎠ ⎝ Y ⎠
Garantând cu o probabilitate de 95% putem afirma că salariul mediu al unui
profesor este de cel puţin 20,69 şi cel mult 23,23 mil. lei iar fondul de salarii al unei
catedre ia valori în intervalul (442, 497) mil. lei.

3. Estimatorul mediei unei variabile calitative se calculează astfel:


r r
14,51
ŵ = ∑N w ∑N
j=1
j j
j=1
j =
72
=0,2

Eroarea de reprezentativitate este:


r

∑ (1 − r N ) ⋅ (w )
1 Nj 2 1
σ ŵ = j − ŵ = 0,0019 =0,018
r (r − 1) i =1
3(3 − 1)
Calculăm eroarea limită maximă admisă:
Δ ŵ = z ⋅ σ ŵ = 1,96 ⋅ 0,018 = 0,035
Intervalul de încredere este:
ŵ − Δ ŵ < P < ŵ + Δ ŵ 0,165 < P < 0,235
Pentru o probabilitate de 0,95 se poate afirnma că cel puţin 16,5% şi cel mult
23,5% din cadrele didactice colaborează cu alte universităţi.
Intervalul de încredere necesar estimării numărului de cadre didactice ce
colaborează cu alte universităţi este:
( ) ( )
N ŵ − Δ ŵ < NP < N ŵ + Δ ŵ 171 ⋅ 0,165 < T < 171 ⋅ 0,235
Cel puţin 28 şi cel mult 40 de profesori colaborează cu alte universităţi.

Probleme propuse

Problema 1

O societate comercială produce ţevi de diferite profile şi dimensiuni. Un


beneficiar a solicitat un anumit tip de ţeavă care, în vederea transportului se încarcă în
containere speciale. Fiecare container conţine 10 ţevi. La recepţia mărfii beneficiarul
doreşte să verifice lotul de 90 de containere. Pentru aceasta selectează 9 din cele 90 de
containere şi ferifică dacă tevile corespund din punct de vedere al calităţii efectuând
diverse teste şi măsurători. Rezultatele prelucrării datelor sunt prezentate în tabelul
3.13.
Se cere:
1. Să se estimeze ponderea procentul şi numărul ţevilor care corespund din punct
de vedere al finisajului cu o probabilitate de 95%.
2. Să se estimeze lungimea medie a ţevilor pentru o proobabilitate de 0,9545.

Tabel 3.13
Procentul ţevilor care corespund
seria Lugimea medie (m)
din punct de vedere al finisajului
1 9.86 98
2 9.98 92
3 9.57 93
4 10.18 91
5 10.33 89
6 9.82 93
7 9.64 95
8 9.55 98
9 10.14 93

Problema 2

Cei 600 de salariaţi ai unei societăţi de construcţii sunt grupaţi în 35 de echipe


de lucru. Numărul de salariaţi dintr-o echipă este diferit. Pentru a realiza un studiu în
rândul salariaţilor s-au selectat aleator nerepetat 9 echipe. În urma prelucrării datelor
din chestionare s-au obţinut rezultatele prezentate în tabelul 3.14.

Tabel 3.14
Numărul Numărul mediu de ore lucreate pe zi de un Salariaţi care declară că sunt
seria
de salariaţi salariat unici întreţinători ai familiei
1 18 7,8 8
2 12 9 6
3 24 8 7
4 19 8,2 10
5 18 8,9 9
6 17 9,3 6
7 20 9,8 14
8 23 8,9 17
9 16 7,9 10

Se cere:
1. Să se estimeze numărul mediu de ore lucrate de un muncitor corespunzător
unei probabilităţi de 0,95.
2. Să se estimeze ponderea salariaţilor unici întreţinători ai familiei pentru
aceeaşi probabilitate.

Problema 3

În cele 5 licee dintr-o localitate sunt 12 clase a XIIa. Numărul de elevi dintr-o
clasă este diferit (vezi tabelul 3.15). Pentru a realiza un sondaj în rândul acestora s-a
selectat un eşantion format din patru clase, utilizându-se procedeul de selecţie cu
revenire, cu probabilităţi proporţionale cu talia seriei. În urma calculării pasului de
eşantionarea şi a alegerii unei număr aleator de debut s-au obţinut următoarele valori
(pe baza cărora s-a decis care unităţi intră în eşantion): 38, 113, 188, 263.
Tabel 3.15
Clasa 1 2 3 4 5 6 7 8 9 10 11 12
nr. Elevi 31 25 26 29 32 24 20 29 19 17 23 25

În urma culegerii datelor din cele 4 clase ce au intrat în eşantion s-au obţinut
următoarele valori:
ƒ Numărul mediu de ore de studiu individual pe zi:
Y1 = 3,4 h Y2 = 3,9 h, Y3 = 4,1 h Y4 = 3,1 h
ƒ Ponderea elevilor care fumează:
w 1 = 32%, w 2 = 20%, w 3 = 25% w 3 = 20%

Se cere:
1. Precizaţi care sunt cele patru clase ce formează eşantionul.
2. Să se estimeze numărul mediu de ore de studiu individual pentru o
probabilitate de 0,95.
3. Să se estimeze procentul şi numărul elevilor care fumează pentru o
probabilitate de 0,95.
Sondajul bistadial
Notaţii utilizate:

R = numărul de unităţi primare din populaţie;


r = numărul de unităţi primare selectate în primul stadiu;
Ni = numărul total de unităţi simple (indivizi) din UPi;
ni = numărul de unităţi simple (indivizi) extrase din UP ;
R
N= ∑N
i =1
i numărul total de indivizi;

Ni
Ti = ∑y
j=1
ij totalul variabilei pentru unitatea primară UPi;

ni
T̂i = ∑y
j=1
ij estimatorul totalului variabilei pentru unitatea primară UPi;

Ni
T=R ∑y j =1
ij totalul variabilei pentru toate unităţile primare;

R
r ⎛N ni ⎞
T̂ =
r ∑ ⎜ i
⎜ ni ∑ y ij ⎟ estimatorul totalului variabilei studiate.

i =1 ⎝ j=1 ⎠
ˆ estimatorul mediei caracteristicii calculat pentru unitatea primară UP ;
Y i i
ˆ
Y estimatorul mediei caracteristicii la nivelul populaţiei studiate;
V(T̂) reprezintă variaţia estimatorului totalului variabilei şi stă la baza calculării
erorii de reprezentativitate. Este definită de următoarea relaţie:

r 2
⎛ r ⎞ σ2 R ⎛ n ⎞ σ 2,i
V(T̂) = R 2 ⎜1 − ⎟ 1
⎝ R⎠ r
+
r ∑
i =1
N i2 ⎜⎜1 − i ⎟⎟
⎝ N i ⎠ n i
unde:

variaţia dintre UP variaţia din interiorul UP

R
1
σ12 =
R ∑ (T − T )
i =1
i
2
variaţia în populaţie a totalurilor unităţilor primare.

Deoarece aceasta nu se cunoaşte se va utiliza estimatorul acesteia:


r
1
σˆ 12 =
r −1 ∑ (T − Tˆ )
i =1
i
2
Ni
1
σ 22,i =
Ni ∑ (y
j=1
ij − y i ) 2 variaţia din interiorul unităţii primare UPi

ni
1
σˆ 22,i =
ni −1 ∑ (y
j=1
ij − ŷ i ) 2 estimatorul variaţiei din interiorul unităţii primare

UPi.
Eroarea medie de reprezentativitate se va calcula pe baza estimaţiei variaţiei
estimatorului valorii totale după relaţia:
r 2
2⎛r ⎞ σ̂ 2 R ⎛ ni ⎞ σ̂ 2,i
σ T̂ = V̂(T̂) = R ⎜1 − ⎟ 1 +
⎝ R⎠ r r ∑
i =1
N i2 ⎜⎜1 −
⎝ Ni
⎟⎟
⎠ ni

Probleme rezolvate

Problema 1

Se realizează un sondaj după un plan bistadial într-o localitate care are populaţia
de 18 ani peste de 48000 . Unităţile primare sunt reprezentate de secţiile de votare (27)
şi au fost selectate după un procedeu aleator cu probabilităţi egale fără revenire. În
tabelul 4.1. sunt prezentate rezultatele obţinute în urma prelucrării datelor eşantioanelor
din fiecare unitate primară ce a fost selectată în eşantion.

Tabelul 4.1
nr. pers. nr. pers. care
nr. pers. din venitul mediu dispersia după
Secţia selectate din petrec la televizor
secţia i (mil lei) variabila venit
secţia i mai mult de 3 h/zi
1 2116 43 2.8 0.04 20
2 2430 43 2.5 0.0576 25
3 2268 43 2.6 0.16 24
4 2346 52 3.8 0.09 28
5 1750 42 4.2 0.25 31
6 2386 52 4.1 0.16 36
7 2180 46 3.7 0.1089 28
8 1534 45 3.5 0.01 29
9 1598 42 3.4 0.09 33
10 2391 52 2.7 0.04 36
11 1295 52 2.9 0.0484 30

Se cere:
1. Să se estimeze venitul mediu din localitate pentru o probabilitate de 0,95.
2. Să se estimeze procentul celor care petrec la televizor mai mult de 3 h/zi pentru
aceeaşi probabilitate.

Rezolvare

1. Calculăm estimatorul totalului variabilei studiate (venitul total) pe baza


calculelor sistematizate în tabelul 4.2.
R
r ⎛ N ni ⎞ R r r
27
ˆ =R
T̂ = ∑ ⎜ i

r i =1 n i j=1 ∑
y ij ⎟ =
⎟ r i=1
Ni Yi ∑
r i =1
T̂i =
11 ∑
⋅ 73023,4 =179239,25 mil lei
⎝ ⎠
Tabel 4.2
2
⎛ n ⎞ ⎛ ni ⎞ σˆ 2 ,i
Secţia Ni ni Yˆi σˆ 22,i T̂i ˆ
(Tˆi − T ) 2 ⎜1 − i ⎟
⎜ ⎟ N i2 ⎜⎜1 − ⎟
⎟ n
⎝ N i ⎠ ⎝ Ni ⎠ i

1 2116 43 2.8 0.04 5924.8 509354.714 0.98 4080.44


2 2430 43 2.5 0.0576 6075 317522.005 0.98 7769.85
3 2268 43 2.6 0.16 5896.8 550105.405 0.98 18776.93
4 2346 52 3.8 0.09 8914.8 5181583.08 0.98 9314.52
5 1750 42 4.2 0.25 7350 506245.186 0.98 17791.67
6 2386 52 4.1 0.16 9782.6 9885421.98 0.98 17135.15
7 2180 46 3.7 0.1089 8066 2037782.2 0.98 11013.39
8 1534 45 3.5 0.01 5369 1611607.17 0.97 507.58
9 1598 42 3.4 0.09 5433.2 1452726.18 0.97 5328.19
10 2391 52 2.7 0.04 6455.7 33412.5164 0.98 4301.96
11 1295 52 2.9 0.0484 3755.5 8311636.58 0.96 1498.25
Total 22294 512 73023.4 30397397 97517.92

Eroarea medie de reprezentativitate se va calcula pe baza estimaţiei variaţiei


estimatorului valorii totale după relaţia:
r 2
⎛ r ⎞ σ̂ 2 R ⎛ n ⎞ σ̂ 2,i
σ T̂ = R 2 ⎜1 − ⎟ 1 +
⎝ R⎠ r r ∑ i =1
N i2 ⎜⎜1 − i ⎟⎟
⎝ Ni ⎠ ni
r
1 30397397
unde σˆ 12 =
r −1 ∑ (T̂ − Tˆ )
i =1
i
2
=
10
= 3039739,7

r
1 73023,4
Tˆ =
r ∑ T̂ =
i =1
i
11
= 6638,5 mil. lei

Calculăm primul termen al erorii de reprezentativitate indus de selecţia din


primul stadiu al planului de sondaj.
⎛ 11 ⎞ 3039739,7
Termen1=272 ⋅ ⎜1 − ⎟ ⋅ =119378868,2
⎝ 27 ⎠ 11
Al doilea termen al erorii de reprezentativitate este determinat de selecţia ce a
avut loc în al doilea stadiu, în interiorul unităţilor primare ce au format eşantionul.
27
Termen2= ⋅ 97517,92 =239362,8
11
Observăm că primul termen al variaţiei estimatorului are o contribuţie
substanţială în determinarea mărimii erorii de reprezentativitate. Acesta este motivul
pentru care planul de sondaj trebuie să se organizeze astfel încât să se reducă eroarea
din primul stadiu. Se recomandă stratificarea unităţilor primare.
σ T̂ = 119378868 + 239362,8 = 10937,012
Intervalul de încredere al totalului este:
T̂ − 1,96 ⋅ σ T̂ ≤ T ≤ T̂ + 1,96 ⋅ σ T̂
157802,7 ≤ T ≤ 200675,8 mil. Lei

Venitul mediu estimat este:


ˆ T̂
Y = = 3,734 mil. Lei
N
Intervalul de încredere al venitului mediu este :
1 T 1
(T̂ − 1,96 * σ T̂ ) ≤ ≤ (T̂ + 1,96 * σ T̂ )
N N N
3,287 ≤ Y ≤ 4,18
Garantăm cu o probabilitate de 95% că venitul mediu pe o persoană este de cel
puţin 3,287 mil. lei şi cel mult 4,18 mil. lei.
2. Se pune problema estimării unei variabile calitative. Calculele sunt prezentate
în tabelul 4.3.

Tabelul 4.3

2
ˆ ⎛ n ⎞ ⎛ ni ⎞ σˆ 2 ,i
Secţia Ni ni mi ŵ i σˆ 22,i T̂i (Tˆi − T ) 2 ⎜1 − i ⎟ N i2 ⎜⎜1 − ⎟
⎜ N ⎟ Ni ⎟ n
⎝ i ⎠ ⎝ ⎠ i

1 2116 43 20 0.4651 0.2488 984.2 75228.67524 0.98 25378.59


2 2430 43 25 0.5814 0.2434 1412.8 23816.57237 0.98 32829.62
3 2268 43 24 0.5581 0.2466 1265.9 54.70016007 0.98 28942.27
4 2346 52 28 0.5385 0.2485 1263.2 22.7172322 0.98 25720.57
5 1750 42 31 0.7381 0.1933 1291.7 1102.383243 0.98 13757.28
6 2386 52 36 0.6923 0.2130 1651.8 154749.1181 0.98 22813.07
7 2180 46 28 0.6087 0.2382 1327.0 4691.155746 0.98 24088.40
8 1534 45 29 0.6444 0.2291 988.6 72838.84794 0.97 11630.56
9 1598 42 33 0.7857 0.1684 1255.6 8.369917026 0.97 9967.70
10 2391 52 36 0.6923 0.2130 1655.3 157484.5118 0.98 22909.85
11 1295 52 30 0.5769 0.2441 747.1 261477.9275 0.96 7555.70
Total 22294 512 13843.11 751474.9792 225593.60

Calculăm estimatorul totalului variabilei studiate (numărul persoanelor care


petrec la televizor mai mult de 3 h/zi
r r
R R
∑ ∑ T̂
27
T̂ = N i ŵ i = i = ⋅ 13843,11 = 33978,54 pers.
r i =1
r i =1
11
Eroarea medie de reprezentativitate se va calcula pe baza relaţiei:
r 2
2⎛r ⎞ σ̂ 2 R ⎛ ni ⎞ σ̂ 2,i
σ T̂ = R ⎜1 − ⎟ 1 +
⎝ R⎠ r r ∑ i =1
N i2 ⎜⎜1 −
⎝ Ni
⎟⎟
⎠ ni
r
1 751474,9792
unde σˆ 12 =
r −1 ∑ (T̂ − Tˆ )
i =1
i
2
=
10
= 75147,49792

r
1 13843,11
Tˆ =
r ∑ T̂ =
i =1
i
11
= 1258,465 pers.

⎛ 11 ⎞ 75147,49792
Termen 1=272 ⋅ ⎜1 − ⎟ ⋅ =2951247,191
⎝ 27 ⎠ 11
27
Termen 2= ⋅ 225593,60 =553729,7456
11
Observăm că şi în acest caz primul termen al variaţiei estimatorului are o
contribuţie substanţială în determinarea mărimii erorii de reprezentativitate. stadiu.
σ T̂ = 2951247,191 + 553729,7456 = 1872,158363
Intervalul de încredere al totalului este:
T̂ − 1,96 ⋅ σ T̂ ≤ T ≤ T̂ + 1,96 ⋅ σ T̂
30309 ≤ T ≤ 37648 persoane
Cel puţin 30309 persoane şi cel mult 37648 persoane petrec cel puţin 3 ore pe zi
la televizor.
Procentul mediu estimat este:

ŵ = = 0,70789
N
Intervalul de încredere al procentului mediu este :
1 T 1
(T̂ − 1,96 * σ T̂ ) ≤ ≤ (T̂ + 1,96 * σ T̂ )
N N N
0,6315 ≤ p ≤ 0,7843
Se garantează cu o probabilitate de 95% că cel puţin 63,15% şi cel mult 78,43%
din populaţia ce vârsta de 18 ani şi peste se uită cel puţin 3 ore pe zi la televizor.

Probleme propuse
Problema 1

S-a organizat o cercetare în rândul unităţilor sanitare(spitale) cu privire la


atitudinea personaluluimedical faţă de reforma sistemului sanitar. Studiul s-a desfăşurat
după un plant de sondaj bistadial. În primul stadiu din 132 de spitale s-au selectat 12.
Numărul de persoane intervievate din fiecare unitate primară ce a format eşantionul,
precum şi informaţiile obţinute în urma prelucrării datelor sunt prezentate în tabelul nr.
4.4.
Tabel 4.4
Pers. ce consideră satisfăcătoare
Unitatea Personal Personal medical
primară medical selectat dotarea cu aparatură asigurarea cu materiale
medicală consumabile
1 102 42 38 32
2 245 58 55 50
3 56 30 45 47
4 67 32 27 25
5 98 35 30 28
6 76 33 30 29
7 112 44 40 37
8 145 47 40 38
9 160 50 42 38
10 189 53 48 45
11 79 33 27 25
12 87 34 26 28

Se cere:
1. Să se estimeze cu o probabilitate de 95% procentul personalului medical ce
consideră satisfăcătoare dotarea cu aparatură medicală.
2. Să se estimeze cu o probabilitate de 95% procentul personalului medical ce
consideră satisfăcătoare asigurarea cu materiale consumabile.
Problema 2

În rândul studenţilor studenţilor Academiei de Studii Economice s-a realizat o


cercetare ce a avut ca obiectiv caracterizarea modului de petrecere a timpului liber.
Studiul realizat a avut la baza un sondaj bistadial unităţile primare fiind considerate
seriile iar unităţile secundare studenţii. În toate facultăţile ASE sunt 125 de serii din care
au fost selectate 12. În urma prelucrării datelor s-au obţinut inforţiile din tabelul 4.5.

Tabel 4.5
studenţi care merg
studenţi în studenţi în venit mediu pe studenţi care
Seria frecvent în
serie eşantion lună (mil. Lei) practică sport
excursii/drumeţii
1 87 32 2.6 6 12
2 93 34 2.3 9 15
3 78 30 2.5 10 17
4 77 30 2.4 7 18
5 85 32 2.9 8 19
6 88 32 3 9 16
7 94 34 2.7 13 17
8 87 32 2.4 15 15
9 83 32 2.9 9 14
10 72 30 3 8 17
11 70 30 2.6 7 16
12 75 30 2.7 9 17

Se cere:
1. Să se estimeze venitul mediu/student pentru o probabilitate de 95,45%.
2. Să se estimeze procentul studenţilor care practică sport si cel al studenţilor
care merg frecvent în excursii pentru o probabilitate de 95%.
Sondajul
pe bază de eşantioane fixe

Sondajele repetate, asupra aceleiaşi probleme, la intervale regulate de timp,


urmărind să identifice unele tendinţe, periodicităţi, sau alte elemente dinamice pentru
parametrii de interes se numesc şi sondaje pe bază de eşantioane fixe (paneluri) sau
sondaje longitudinale.
Aceste sondajele presupun iniţial realizarea unui eşantion reprezentativ pentru
populaţia studiată. Acest eşantion este de cele mai multe ori realizat după un plan
multistadial cu stratificarea unităţilor primare. Unităţile care formează aceste eşantioane
pot fi diverse: întreprinderi, magazine, gospodării, persoane. Eşantionul astfel constituit
permite strângerea de informaţii cu o anumită regularitate sau la intervale neprecizate de
timp.

Probleme propuse

Problema 1

În rândul societăţilor comerciale din domeniul de activitate „Hoteluri şi


restaurante” se realizează o anchetă periodică ce are la bază un eşantion de tip panel.
Pornind de la variabila auxiliară număr salariaţi prezentată în tabelul 5.1 (pentru
exemplificare s-au luat doar primele 20 de societăţi comerciale din eşantion) se va
verifica eficienţa panelului.

Se cere:
1. Să se stabilească gradul de uzură al panelului cu ajutorul metodei
coeficientului de corelaţie.
2. Să se verifice eficienţa panelului cu ajutorul testului Student (α=0.05) pentru
date înrudite (eşantioane dependente).

Tabel 5.1
Număr salariaţi (pers.) Număr salariaţi (pers.)
Societate la momentul Societate la momentul
la momentul la momentul
comercială verificării comercială verificării
realizării realizării
eficienţei eficienţei
panelului panelului
panelului panelului
Yi1 Yi2
1 13 14 11 18 22
2 15 14 12 17 22
3 37 35 13 22 20
4 44 40 14 25 25
5 34 30 15 28 27
6 23 21 16 29 28
7 21 30 17 33 31
8 14 17 18 43 41
9 15 20 19 25 28
10 16 20 20 28 30
1. Calculăm valoarea coeficientului de corelaţie după relaţia:
n∑i =1 y i1 y i 2 − ∑i =1 y i1 ∑i =1 y i 2
n n n

ry1 y2 =


(
i =1
)
⎛ n n y 2 i1 − n y i1 2 ⎞ ⋅ ⎛ n n y 2 i 2 −
⎜ ∑i =1 ∑ ⎟ ⎜
⎠ ⎝
∑ i =1 ∑ (
n
i =1
y i2)2


În funcţie de valoarea coeficientului de corelaţie pot exista următoarele situaţii:


o ry1 y2 < 0 ⇒ legătură inversă între valorile variabilei yi la cele două momente
de timp. Uzura panelului este foarte mare şi necesită reînnoire totală.
o ry1 y2 ≥ 0,9 ⇒ legătură foarte puternică între valorile variabilei yi la cele două
momente de timp. ⇒ Panel eficient. Nu este necesară reînnoirea acestuia;
o 0,2 < ry1 y2 < 0,9 ⇒ Există o legătură între valorile variabilei yi la cele două
momente de timp dar nu foarte puternică ⇒ reînnoirea parţială a panelului. În
funcţie de valoarea coeficientului de corelaţie se decide care este proporţia de
reînnoire (k). Unii autori consideră că valoarea optimă este de 50%.
o 0 ≤ ry1 y2 ≤ 0,2 ⇒ Nu există legătură între valorile variabilei yi la cele două
momente de timp. Se poate spune că datele provin din eşantioane
independente ⇒ reînnoirea totală a panelului.
Calculele necesare aflării coeficientului de corelaţie sunt prezentate în tabelul
5.2.

Tabelul 5.2
Societate 2
yi1 yi2 yi1 yi2 y i1 y2 i2
comercială
1 13 14 182 169 196
2 15 14 210 225 196
3 37 35 1295 1369 1225
4 44 40 1760 1936 1600
5 34 30 1020 1156 900
6 23 21 483 529 441
7 21 30 630 441 900
8 14 17 238 196 289
9 15 20 300 225 400
10 16 20 320 256 400
11 18 22 396 324 484
12 17 22 374 289 484
13 22 20 440 484 400
14 25 25 625 625 625
15 28 27 756 784 729
16 29 28 812 841 784
17 33 31 1023 1089 961
18 43 41 1763 1849 1681
19 25 28 700 625 784
20 28 30 840 784 900
total 500 515 14167 14196 14379

20 ⋅ 14167 − 500 ⋅ 515


ry1 y2 = = 0,9384 ≥ 0,9
(20 ⋅14196 − 500 )⋅ (20 ⋅14379 − 515 )
2 2

În aceste condiţii se consideră panelul eficient şi nu este necesară înnoirea


acestuia.
2. Utilizarea testului Student pentru date înrudite pornind de la o variabilă
auxiliară presupune:
H0: y1 = y 2 ; H1: y1 ≠ y 2
Considerăm variabila d i = y i1 − y i 2 ce măsoară diferenţele individuale, pentru
care calculăm media şi abaterea medie pătratică (vezi tabelul 5.3).

Tabelul 5.3

Societate comercială yi1 yi2 di (d i −d)


2

1 13 14 -1 0.0625
2 15 14 1 3.0625
3 37 35 2 7.5625
4 44 40 4 22.5625
5 34 30 4 22.5625
6 23 21 2 7.5625
7 21 30 -9 68.0625
8 14 17 -3 5.0625
9 15 20 -5 18.0625
10 16 20 -4 10.5625
11 18 22 -4 10.5625
12 17 22 -5 18.0625
13 22 20 2 7.5625
14 25 25 0 0.5625
15 28 27 1 3.0625
16 29 28 1 3.0625
17 33 31 2 7.5625
18 43 41 2 7.5625
19 25 28 -3 5.0625
20 28 30 -2 1.5625
Total 25 25.75 -0.75 229.75

d = y1 − y 2 = 25 − 25.75 = −0.75

∑ (d −d)
n
2
Sd = i n − 1 = 229.75 / 19 = 3.47737
i =1

d y1 − y 2
Statistica testului este: t c = n= n = 0.96455
Sd Sd
Valoarea calculată a testului se compară cu cea teoretică corespunzătoare
nivelului de semnificaţie ales şi n-1=19 grade de libertate. Valoarea teoretică ce
corespunde nivelului de semnificaţie α=0.05 şi numărului de grade de libertate 19 este
t=2.093 Deoarece valoarea calculată este mai mică decât cea teoretică se acceptă ipoteza
diferenţei nule ceea ce înseamnă că nu există diferenţe semnificative între cele două
medii, panelul fiind eficient.
Problema 2

În urma a două anchete succesive realizate pe baza unui panel de 1000


persoanes-au obţinut pentru variabila venit următoarele informaţii:
y1 = 3.9 mil. lei preţuri comparabile
y2 =4.3 mil lei preţuri comparabile
Estimatorul abaterii medii pătratice a variabilei definite d i = y i1 − y i 2 este 5.7
mil. lei preţuri comparabile.
Putem spune că este semnificativă statistic creşterea venitului (α=0.05)?

Rezolvare

H0: y1 = y 2 ; H1: y1 ≠ y 2
d = y1 − y 2 = 3.9 − 4.3 = −0.4
d y1 − y 2
Statistica testului este: t c = n= n = 2.219
Sd Sd
Valoarea calculată a testului se compară cu cea teoretică corespunzătoare
nivelului de semnificaţie ales şi n-1=999 grade de libertate. Valoarea teoretică ce
corespunde nivelului de semnificaţie α=0.05 şi numărului de grade de libertate 19 este
t=1.96. Deoarece valoarea calculată este mai mare decât cea teoretică se respinge
ipoteza diferenţei nule ceea ce înseamnă că există diferenţe semnificative între cele
două medii, creşterea venitului fiind semnificativă statistic.

Problema 3

În urma a două anchete succesive realizate pe baza unui panel de 1600 persoane
s-a constat că 27% din cei intervievaţi în primul val au declarat că trăiesc mai bine decât
anul trecut faţă 30% care au optat pentru acest răspuns din valul al doilea. În tabelul 5.4
este prezentat tabelul de contingenţă obşinut pe baza datelor din cele două anchete.

Tabelul 5.4
A2
A1
mai bine la fel sau mai prost Total
mai bine 390 43 433
la fel sau mai prost 90 1077 1167
Total 480 1120 1600

Se cere să se precizeze dacă modificarea procentelor este semnificativă statistic


pentru un nivel de semnificaţie α=0.05.
Rezolvare

Pentru a putea aprecia dacă modificările nivelului de mulţumire sunt


semnificative s-a construit tabelul de contingenţă cu următoarea formă:

A2
A1
mai bine la fel sau mai prost Total
mai bine n11 n12 n1.
la fel sau mai prost n21 n22 n2.
Total n.1 n.2 N

Acest tabel este necesat aplicării testului Testul Mc Nemar.


H0= p.1= p1. şi H1= p.1≠ p1.
Deoarece volumul eşantioanelor din cele două anchete este acelaşi ipotezele se
reduc la:H0= n.1= n1. H1= n.1≠ n1.
Cum n.1= n11+ n21 iar n1.= n11+ n12 H0 se reduce la a testa n12=n21
Se va utiliza testul χ2 frecvenţa teoretică fiind (n12+n21)/2.
2 2
⎛ n12 + n 21 ⎞ ⎛ n12 + n 21 ⎞
⎜n − ⎟ + ⎜ n 21 − ⎟
( f e − f t )2 ⎝ 12 2 ⎠ ⎝ 2 ⎠ = (n12 − n 21 )
2

χc = ∑
2
=
ft n12 + n 21 n12 + n21
2

χ c2 =
(90 − 43)2 = 16,609
90 − 43
Comparăm rezultatul obţinut cu valoarea teoretică a lui χ2 pentru un nivel de
semnificaţie dorit (α=0.05) şi numărul de grade de libertate corespunzător ((l-1)*(c-1)).
χ t2,α =0,05;1 = 3.84 . Deoarece χ2c>χ2t se respinge ipoteza nulă si se acceptă ipoteza
alternativă, ceea ce denotă că s-a produs o modificare reală a gradului de mulţumire faţă
de nivelului de trai actual raportat la perioada precedentă.

Probleme propuse
Problema 1

În regiunea de dezvoltare Centru se realizează periodic o anchetă în rândul


societăţilor comerciale din sectorul secundar ce are la bază un eşantion de tip panel.
Pornind de la variabila auxiliară „cifra de afaceri” prezentată în tabelul 5.5.

Se cere:
1. Să se stabilească gradul de uzură al panelului cu ajutorul metodei
coeficientului de corelaţie.
2. Să se verifice eficienţa panelului cu ajutorul testului Student (α=0.05) pentru
date înrudite.
Tabel 5.5
Cifra de afaceri (mii Euro) Cifra de afaceri (mii Euro)
la momentul la momentul
Întreprindere la momentul Întreprindere la momentul
verificării verificării
realizării realizării
eficienţei eficienţei
panelului panelului
panelului panelului
Yi1 Yi2
1 123 143 11 45 122
2 560 514 12 543 622
3 67 135 13 213 520
4 70 140 14 25 225
5 790 780 15 45 127
6 1276 1321 16 129 50
7 456 530 17 333 231
8 654 617 18 243 141
9 987 1038 19 525 328
10 456 520 20 728 530

Problema 2

Pentru a analiza cmportamentul de consum s/a construit un panel de 1200


consumatori. În urma a două anchete s-au obţinut următoarele informaţii privind
„consumul mediu săptămânal de carne/persoană:
y1 = 1.12 Kg/pers.
y 2 = 0.98 Kg/pers
Estimatorul variaţiei variabilei definite d i = y i1 − y i 2 este 4.2.

Se cere:
1. Pentru un nivel de semnificaţie α=0.05 precizaţi dacă este semnificativă
statistic diferenţa dintre consumul mediu de carne între cele două valuri.
2. Pe baza răspunsurilor la întrebarea: „Consumaţi produse din soia?” s-a obţinut
următorul tabel de contingenţă:

Tabel 5.6
A2
A1
DA NU Total
DA 230 20 250
NU 82 868 950
Total 312 888 1200

Precizaţi (pentru un nivel de semnificaţie α=0.05) dacă este semnificativă


statistic creşterea procentului consumatorilor de produse din soia.
Metode de tratare
a nonrăspunsurilor parţiale

În sondajele statistice întâlnim două tipuri de non-răspunsuri: non-răspuns


parţial (când pentru o unitate din eşantion lipsesc valorile unora dintre variabile) şi non-
răspuns total (când pentru o unitate din eşantion ne lipsesc valorile tuturor variabilelor).
Unităţile încadrate la non-răspunsuri totale se numesc non-respondenţi iar cauzele
apariţiei lor pot fi: unitatea a fost inaccesibilă, refuzul sau incapacitatea de a răspunde,
abandonul cooperării în timpul interviului (prin distrugerea chestionarului) sau pur şi
simplu pierderea înregistrărilor pentru unitatea respectivă.
Existenţa valorilor lipsă ridică probleme serioase atunci când datele colectate
prin sondaj constituie baza unei analize statistice bazate pe metode avansate.

Probleme rezolvate
Problema 1

În urma centralizării răspunsurilor obţinute dintr-un sondaj în rândul studenţilor


unei universităţi au rezultat datele prezentate în tabelul 6.1.
Definirea variabilelor:
¾ STRAT. sondajul s-a realizat după un plan stratificatastfel: 1 anul I, 2 anul II,
3 anul III şi 4 anulIV.
¾ SEX. 1 feminin, 2 masculin.
¾ MEDIE. Este variabilă numerică şi reprezintă media obţinută în sesiunea din
iarnă.
¾ NRORE. Este variabilă numerică şi reprezintă numărul de ore de studiu pe
săptămână în afara sesiunii.
¾ ACORD. Este variabila obţinută în urma centralizării răspunsurilor la
întrebarea: “În ce măsură sunteţi de acord cu modificările survenite în
învăţământul superior?”. Codurile reprezintă: 1 dezacord total, 2 dezacord, 3
indiferent, 4 acord şi 5 acord total.

Se cere:
1. Să se înlocuiască valorile lipsă ale variabilei NRORE folosind imputaţia
predictivă prin mediere globală, imputaţia predictivă prin mediere pe clase şi
imputaţia obiectivă.
2. Să se înlocuiască valorile lipsă ale variabilei ACORD folosind imputaţia
”hot-deck”.

Rezolvare

1. Notăm cu yij răspunsul pe care îl dă individului i din eşantionul E la întrebarea


j (i=1,..,n, j=1,... ,p). Concentrându-ne asupra individul i din eşantion
constatăm că vectorului (yi1, ...., yip), format din răspunsurile la întrebările din
chestionar, îi lipsesc unele componente (non-răspunsurile). Fiecare poziţie de
coordonate (i,j) trebuie tratată separat, prin crearea unei valori y’ij numită
’’valoare atribuită’’ sau ’’imputaţie’’.
Imputaţia predictivă prin mediere globală
Aceasta se realizează înlocuind non-răspunsul de pe poziţia (i,j) cu media
răspunsurilor care au fost obţinute la întrebarea j. În acest caz avem:
r
119
y'ij = y r, j = ∑ y ij r = = 5.17
i =1 23
unde r este numărul răspunsurilor valide la întrebarea j.
În urma aplicării acestei metode toate cele 7 valori lipsă se vor înlocui cu 5.17
(vezi tabelul 6.2 variabila NROREIG). Avantajul acestei metode este că înlocuirea
valorii lipsă se face cu o valoare probabilă ceea ce îi dă un oarecare grad de stabilitate.
Dacă există mulţi respondenţi care nu au răspuns la întrebarea j vom folosi pentru toţi
aceeaşi ’’imputaţie’’. Este clar că se produce o subevaluare severă a dispersiei
estimatorului pentru media sau totalul caracteristicii yj.
Tabel 6.1
Nr. STRAT SEX MEDIE NRORE ACORD
1 1 1 7 3 2
2 1 1 8.33 4 2
3 1 1 6.67 3 3
4 1 1 9.67 10 4
5 1 2 6.33 2
6 1 2 7.8 4 1
7 2 1 9.67 11 2
8 2 1 8 2
9 2 1 7.2 3
10 2 1 8.8 6 4
11 2 1 6.33 4 5
12 2 2 7 4 1
13 2 2 8.8 6
14 2 2 8.2 5 1
15 3 1 7.9 5 3
16 3 1 8.8 4
17 3 1 6.67
18 3 1 9.33 9 4
19 3 1 8.33 6 2
20 3 1 7.7 5
21 3 2 8.2 5 2
22 3 2 5.67
23 3 2 9.2 9 2
24 4 1 9.33 2
25 4 1 8.9 7 3
26 4 1 7.8 6
27 4 1 8.2 7 2
28 4 2 8.9
29 4 2 7.9 5 1
30 4 2 7.5 4 2

Imputaţia predictivă prin mediere clase


Această metodă este similară imputaţiei predictive prin mediere globală, cu
deosebirea că nu se utilizează o singură ’’imputaţie’’, ci mai multe corespunzătoare
unor clase în care a fost împărţită mulţimea respondenţilor. Astfel, partiţionăm
mulţimea respondenţilor r la întrebarea j în q clase disjuncte. Identificăm clasa căruia îi
k
aparţine individul şi construim imputaţia: y'ij = y rjt = ∑ y ij k
i =1
unde t ia valorile 1,..,q iar k este numărul de respondenţi din clasa respectivă,
Deoarece există patru straturi se vor calcula 4 imputaţii.
k k
23 32
y'1ij = y rj1 = ∑ y ij k = = 4.6 y'2ij = y rj2 = ∑ y ij k = = 4.57
i =1 5 i =1 7
k k
37 27
y'3ij = y rj3 = ∑ y ij k = = 6.17 y'42ij = y rj4 = ∑ y ij k = = 5.4
i =1 6 i =1 5
În tabelul 6.2 variabila NROREIC este obţinută în urma aplicării acestei metode.
Utilizarea acestui tip de imputaţie reduce gradul de subestimare a dispersiei
estimatorului.
În cazul în care caracteristica este reprezentată pe o scală de intervale sau
proporţională calcularea media aritmetică se va înlocui cu o medie de poziţie (mediana
în cazul unei variabile ordinale sau modulul pentru variabilele nominale).

Tabel 6.2
Nr. STRAT SEX MEDIE NRORE NROREIG NROREIC NROREIO
1 1 1 6 2 2 2 2
2 1 1 8.33 4 4 4 4
3 1 1 5.67 3 3 3 3
4 1 1 9.67 10 10 10 10
5 1 2 5.33 5.17 4.6 0.49
6 1 2 7.8 4 4 4 4
7 2 1 9.67 9 9 9 9
8 2 1 8 5.17 4.57 5.19
9 2 1 7.2 3 3 3 3
10 2 1 8.8 5 5 5 5
11 2 1 6.33 2 2 2 2
12 2 2 6.33 3 3 3 3
13 2 2 8.8 5 5 5 5
14 2 2 8.2 5 5 5 5
15 3 1 7.9 5 5 5 5
16 3 1 8.8 5.17 6.17 6.60
17 3 1 5.67 5.17 6.17 1.09
18 3 1 9.33 8 8 8 8
19 3 1 8.33 6 6 6 6
20 3 1 7.7 4 4 4 4
21 3 2 8.2 5 5 5 5
22 3 2 5.67 5.17 6.17 1.09
23 3 2 9.2 9 9 9 9
24 4 1 9.33 5.17 5.4 7.53
25 4 1 8.9 7 7 7 7
26 4 1 7.8 6 6 6 6
27 4 1 8.2 7 7 7 7
28 4 2 8.9 5.17 5.4 6.78
29 4 2 7.9 4 4 4 4
30 4 2 7.5 3 3 3 3
Imputaţia obiectivă
La baza acestei metode stă generarea unei ecuaţii de regresie pe baza setului de
date ce conţin înregistrări complete ale variabilei ce urmează a fi supuse procesului de
imputare. Ecuaţia poate avea următoarea formă: y = b0 + b1 x1 + b2 x 2 + ...... + bk x k
unde y este variabila ce urmează a fi imputată pentru valorile date ale
variabilelor xi, i=1,…,k corelate cu variabila y.
Pentru setul de date ce nu conţine valori lipsă pentru variabila NRORE se
stabileşte forma ecuaţiei de regresie ce are ca variabilă independentă MEDIA.În figura
6.1 este reprezentată grafic legătura dintre MEDIE şi NRORE.

Nr. ore studiu în funcţie de media obţinută în sesiunea din iarnă

12

10

8
nr. ore

0
0 2 4 6 8 10 12

y = 1.761x - 8.8953 media

Fig. 6.1

Pe baza ecuaţiei de regresie y = 1.761x - 8.8953 se determină imputaţiile cu care


se vor înlocui non-răspunsurile variabilei NRORE (vezi tabelul 6.2 variabila
NROREIO).

2. Imputaţia „hot-deck este utilizată la scară largă deoarece, spre deosebire de


imputaţia prin mediere globală sau pe clase, evită subestimarea dispersiei
estimatorului. Pentru aplicarea acestei metode se parcurg următoarele etape:

Tabel 6.3
STRAT SEX ACORD
1 1 2
1 2 2
2 1 2
2 2 1
3 1 3
3 2 2
4 1 2
4 2 1
Etapa1. Fişierul ce conţine baza de date este în prealabil sortat după
caracteristicile demografice, economice sau sociale pe baza cărora se poate pune în
evidenţă structura eşantionului. Deoarece în tabelul 6.1 datele sunt deja sortate după
STRAT şi SEX se poate trece la etapa următoare.
Etapa 2. Un registru de lucru este iniţializat cu valorile aferente câmpurilor
cuprinse în prima înregistrare a unei caracteristici după care s-a realizat sortarea. În
tabelul 6.3 este prezentat registrul de lucru constituit.
Etapa 3. Fişierul (tabelul 6.1) se parcurge înregistrare cu înregistrare şi fiecare
câmp este identificat şi verificat să nu conţină valori lipsă.
Etapa 4. În cazul în care unul din câmpuri conţine valori lipsă acesta va fi
înlocuit cu valoarea corespunzătoare din registru.
Rezultatul implementării acestei metode este prezentat în tabelul 6.4.

Tabelul 6.4
Nr. STRAT SEX ACORD ACORDM
1 1 1 2 2
2 1 1 2 2
3 1 1 3 3
4 1 1 4 4
5 1 2 2 2
6 1 2 1 1
7 2 1 2 2
8 2 1 2 2
9 2 1 2
10 2 1 4 4
11 2 1 5 5
12 2 2 1 1
13 2 2 1
14 2 2 1 1
15 3 1 3 3
16 3 1 4 4
17 3 1 3
18 3 1 4 4
19 3 1 2 2
20 3 1
21 3 2 2 2
22 3 2 2
23 3 2 2 2
24 4 1 2 2
25 4 1 3 3
26 4 1 2
27 4 1 2 2
28 4 2 1
29 4 2 1 1
30 4 2 2 2
Probleme propuse
Problema 1

În urma centralizării datelor provenite dintr-un sondaj realizat în rândul


şomerilor întegistraţi la ANOFM Bucureşti s-au obţinut datele prezentate în tabelul 6.5.
Pentru uşurinţa calculelor sunt prezentate doar 30 de înregistrări.

Tabel 6.5
Nr. SEX STUDII DŞOMAJ ACORDR ULTACT
1 1 1 14 2 1
2 1 1 10 2
3 1 2 7 4 1
4 1 2 9 4
5 1 2 4 1
6 1 2 9 2 2
7 1 3 3
8 1 3 5 2 3
9 1 3 8 2 1
10 1 3 4
11 1 3 2
12 1 3 6 4 1
13 1 3 7 2 1
14 1 3 6 1 2
15 1 3 5 2
16 1 4 2 5 3
17 1 4 2
18 2 1 9 2 1
19 2 2 6 2
20 2 2 9 3 2
21 2 3 5 2 1
22 2 3 2 3
23 2 3 6 1
24 2 3 4 32 2
25 2 3 8 2 4
26 2 3 4 5
27 2 3 6 5 4
28 2 3 4 5
29 2 4 3 5 4
30 2 4 5 4

Definirea variabilelor:
¾ SEX. 1 feminin, 2 masculin.
¾ STUDII. 1 fără studii, 2 studii primare, 3 studii medii, 4 studii superioare.
¾ DŞOMAJ. Este variabilă numerică şi reprezintă durata medie a şomajului
exprimată în luni.
¾ ACORDR. Este variabila obţinută în urma centralizării răspunsurilor la
întrebarea: “În ce măsură sunteţi de acord să participaţi la cursuri de
recalificare?”. Codurile reprezintă: 1 dezacord total, 2 dezacord, 3 indiferent,
4 acord şi 5 acord total.
¾ ULTACT Este variabila obţinută în urma centralizării răspunsurilor la
întrebarea: “Care este ultima acţiune întreprinsă pentru găsirea unui loc de
muncă?”. Codurile reprezintă: 1 m-am înscris la o agenţie autorizată de
ocupare a forţei de muncă, 2 am consultat anunţurile din ziare, 3 am apelat la
prieteni şi cunoştinţe, mi-am înscris CV pe pagini Web specializate, 5 alte
acţiuni.

Se cere:
1. Să se înlocuiască valorile lipsă ale variabilei DŞOMAJ folosind imputaţia
predictivă prin mediere globală şi imputaţia predictivă prin mediere pe clase
(realizate după variabila STUDII).
2. Să se înlocuiască valorile lipsă ale variabilei ACORDR folosind imputaţia
”hot-deck”.
3. Să se înlocuiască valorile lipsă ale variabilei ULTACT folosind imputaţia
predictivă prin mediere pe clase (realizate după variabila STUDII).
Verificarea reprezentativităţii eşantionului
Ameliorarea estimatorilor prin post-stratificare

Înainte de a trece la analiza statistică şi la interpretarea rezultatelor este


important să stabilim dacă eşantioanele sunt sau nu reprezentative pentru populaţiile din
care au fost selectate. Dacă diferenţele dintre parametri cunoscuţi din populaţie faţă de
valorile estimatorilor obţinuţi pe baza datelor din sondaj sunt semnificative atunci
eşantionul nu este reprezentativ.
În ciuda eforturilor de a asigura reprezentativitatea eşantionului, în anchetele de
mare amploare, realizate la nivel naţional, de cele mai multe ori estimatorii variabilelor
auxiliare sunt deplasaţi faţă de parametrii populaţiei. Datorită existenţei corelaţiei
dintre aceste variabile şi variabilele de interes putem presupune că şi estimatorii
acestora din urmă vor avea aceeaşi problemă. Din acest considerent se impune
ameliorarea estimatorilor.

Probleme rezolvate
Problema 1

S-a realizat un sondaj în rândul studenţilor unei universităţi partiulare pe un


eşantion de 90 persoane. În urma centralizării datelor pentru variabilele auxiliare SEX
şi MEDIE (media ultimei sesiuni) au rezultat următoarele informaţii: ponderea fetelor în
eşantion este de 67% iar nota medie 7,2 cu o dispersie de 1.42.
Se cere să se verifice reprezentativitatea eşantionului stiind că ponderea fetelor
în populaţie este e 65% iar nota medie a studenţilor este de 6.98 iar probabilitatea de
garantare a rezultatelor este de 95%.

Rezolvare

Pentru a vedea dacă există diferenţe semnificative faţă de valoarea cunoscută din
populaţie a ponderii fetelor faţă de cea din în eşantion se utilizează testul z
(eşantionul este de volum normal) pentru compararea proporţiei din eşantion cu cea din
populaţie.
Ipotezele testului bilateral sunt: H0: w= p şi H1: w ≠ p .
Regiunea critică în cazul testului bilateral este dată de relaţia:
w−p w−p
W: >z iar valoarea calculată a testului este: z c = =0.398
p ⋅ (1− p) n
α
1−
2 p ⋅ (1 − p )
n
Pentru o probabilitate de garantare a rezultatelor de 95% căruia îi corespunde un
nivel de semnificaţie α=0,05 în cazul efectuării unui test bilateral valoarea teoretică este
z α =1,96. Deoarece valoarea calculată a testului luată în modul este mai mică decât
1−
2
valoarea teoretică se acceptă ipoteza nulă concluzionându-se că eşantionul este
reprezentativ.
Pornind de la variabila auxiliară MEDIA, pentru verificarea reprezentativităţii se
utilizează testul z pentru compararea mediei unui eşantion cu cea a populaţiei.
Ipotezele testului bilateral sunt: H0: x = X 0 şi H1: x ≠ X 0 .
Regiunea critică în cazul testului bilateral este dată de relaţia: W: x − X0
> z α
1−
σ 2
2
n
x − X0
iar valoarea calculată a testului este: z c = =1.75
σ2
n
Valoarea calculată luată în valoare absolută se compară cu cea teoretică de 1,96
corespunzătoare nivelului de semnificaţie ales (α=0,05) şi, deoarece este mai mică decât
aceasta se acceptă ipoteza nulă concluzionându-se că eşantionul este reprezentativ.

Problema 2

În rândul populaţiei de 160000 persoane (cu vârsta peste 15 ani) dintr-o


localitate s-a realizat un sondaj pe un eşantion de 800 persoane privind atitudinea faţă
de. În tabelul 7.1 este prezentată structura eşantionului şi structura populaţiei pe grupe
de vârstă.

Tabel 7.1
Grupe de vârstă Structura populaţiei (%) Structura eşantionului (%)
15-24 16 19
25-34 20 23
35-44 24 20
45-54 21 17
peste 55 19 21
Total 100 100

Se cere:
1. Să se verifice reprezentativitatea eşantionului utilizând testul χ2 pentru un
nivel de semnificaţie α=0,05.
2. Să se verifice reprezentativitatea eşantionului utilizând testul Kolmogorov-
Smirnov pentru un nivel de semnificaţie α=0,05.

Rezolvare

1. Atunci când se cunoaşte forma distribuţia variabilei în populaţie pentru


verificarea reprezentativităţii eşantionului se poate utiliza unul din testele de
concordanţă.
Tabelul 7.2
Structura Structura Număr salariaţi Număr salariaţi
Grupe de
populaţiei eşantionului în populaţie în eşantion fti ( fei − f ti )2
vârstă f ti
(%) (%) ( Fti ) (fei)
15-24 16 19 25600 152 128 4.50
25-34 20 23 32000 184 160 3.60
35-44 24 20 38400 160 192 5.33
45-54 21 17 33600 136 168 6.10
peste 55 19 21 30400 168 152 1.68
Total 100 100 160000 800 800 21.21

Ipotezele testului χ2 sunt:


H0: ft= fe şi H1: ft≠fe unde ft reprezintă frecvenţele teoretice iar fe frecvenţele
empirice.
Frecvenţele empirice sunt cele obţinute în urma centralizării datelor din sondaj
iar cele teoretice se calculează după relaţia: fti = Fti ⋅ N n ( Fti fiind frecvenţa
corespunzătoare a grupei i din populaţie). Calculele necesare sunt sistematizate în
tabelul 7.2.

k
(f ei − f ti )2
Valoarea calculată a testului este: χ c = 2

i =1
f ti
=2.1.21 Valoarea

teoretică pentru un nivel de semnificaţie α=0,05 şi numărul de grade de libertate df=k-


1=5-1=4 este de 9,49. Deoarece χ c > χ α =0, 05;df = 4 se respinge ipoteza nulă putând
2 2

spune că cele două distribuţii nu concordă şi, deci eşantionul nu este reprezentativ.

2. Testul Kolmogorov este unul dintre cele mai răspândite teste de concordanţă
a repartiţiilor empirice şi teoretice pentru variabile aleatoare continue.
Pentru efectuarea testului este necesară alcătuirea claselor şi stabilirea
frecvenţelor absolute empirice şi teoretice (în funcţie de repartiţia testată). Ulterior se
cumulează aceste frecvenţe crescător şi prin raportarea lor la total se obţin funcţiile de
repartiţie empirice (Fn(x)) şi teoretice (F(z)).
Se calculează pe clase diferenţa lor şi se ia diferenţa maximă în valoare absolută.
Pe baza ei se obţine statistica λ a testului Kolmogorov astfel:
λ c = n × max Fn ( x ) − F(z) , unde n este volumul eşantionului.
Valoarea calculată λ c se compară cu valoarea teoretică tabelată în funcţie de
nivelul de semnificaţie. Unui α=0,05 îi corespunde λ α=1,36. Dacă λ < λ α repartiţia
empirică este în concordanţă cu cea teoretică.
Testul Kolmogorov –Smirnov este o extindere a testului Kolmogorov pentru
cazul verificării concordanţei a două repartiţii empirice. Notând cele două variabile
aleatoare cu x şi y se calculează o valoare λc după relaţia
n 1⋅ n 2
următoare: λ c = max F( x ) − F( y) .;
n1 + n 2
unde F(x) şi F(y) reprezintă funcţiile repartiţiilor empirice ale celor două
variabile.
Se compară apoi valoarea calculată cu cea teoretică. Dacă λc < λ α repartiţiile
sunt în concordanţă.
Considerăm variabilele x şi y vârsta în totalul populaţiei şi respectiv în eşantion.
Calculele sunt sistematizate în tabelul 7.3

Tabel 7.3
Grupe de f* ei cumulat f* ti cumulat
fei fti fei cumulat fti cumulat di
vârstă F(x) F(y)
15-24 152 128 152 128 0.19 0.16 0.03
25-34 184 160 336 288 0.42 0.36 0.06
35-44 160 192 496 480 0.62 0.6 0.02
45-54 136 168 632 648 0.79 0.81 0.02
peste 55 168 152 800 800 1 1 0
Total 800 800

În relaţia de calcul a valorii teoretice λc considerăm n1 volumul populaţiei N iar


Nn
n2 volumul eşantionului n. Relaţia devine: λ c = max F( x ) − F( y) .
N+n
În cazul în care volumul populaţiei este mare în raport cu eşantionul (n<0.05N)
λc se poate calcula după relaţia: λ c = max F( x ) − F( y) n . =1.69.
λ α=1,36. Deoarece λc > λ repartiţia empirică nu este în concordanţă cu cea
α
teoretică iar eşantionul nu este reprezentativ ceea ce va duce la obţinerea unor estimatori
deplasaţi.

Problema 3

În urma unui sondaj pe un eşantion de 600 persoane privind caracterizarea


nivelului de trai s-au obţinut datele prezentate în tabelul 7.4 cu prinire la venitul mediu.
Din surse administrative se cunoaşte repartiţia populaţiei pe grupe de vârstă.

Tabel 7.4
Nr. Persoane în populaţie Venit mediu
Grupe de vârstă Nr. persoane în eşantion
(mii) (mil. Lei)
18-34 30 180 5.2
35-54 70 320 8.3
peste 55 40 100 3.2
140 600

Se cere:
1. Să se calculeze estimatorul venitului mediu pe baza informaţiilor din
eşantion.
2. Să se calculeze estimatorul venitului mediu în urma aplicării metodei post-
stratificării pe baza informaţiilor deţinute din surse administrative.

Rezolvare

1. Calculele necesare sunt przentate în tabelul 7.5.

Tabel 7.5
Grupe de vârstă Ni (mii) ni yi y i ni y i N i (mii)
18-34 30 180 5.2 936 156
35-54 70 320 8.3 2656 581
peste 55 40 100 3.2 320 128
140 600 3912 865

Estimatorul venitului mediu se calculează după relaţia:


∑ yn
k
i =1 i i 3912
y= = =6.52 mil. Lei
∑ n
k
600
i =1 i

2. Îmbunătăţirea estimatorului prin post-stratificare presupune calcularea


venitului mediu ca medie aritmetică ponderată pe baza ponderilor din
populaţie după relaţia:

~ ∑ yN
k
i =1 i i 865000
y= = =6.178 mil lei
∑ N
k
140000
i =1 i
Problema 4

Un sondaj în rândul salariaţilor a avut drept obiectiv evaluarea atitudinii acestora


faţă de evaluarea periodică şi formarea profesională continuă. Una din variabilele
aixiliare ale studiului este variabila SEX. În urma centralizării datelor pentru variabila
auxiliară SEX şi pentru variabila de interes ce corespunde întrebării: “Sunteţi de acord
cu evaluarea periodică?” s-au obţinut informaţiile din tabelul 7.6.

Tabel 7.6
Sex Acord Indiferent Dezacord Total
Masculin 35 15 10 60
Feminin 31 9 50 90
Total 66 24 60 150

Se cere:
1. Să se calculeze estimatorul procentului salariaţilor care sunt de acord cu
evaluarea.
2. Să se calculeze estimatorul procentului salariaţilor care sunt de acord cu
evaluarea în urma aplicării metodei post-stratificării ştiind din surse
administrative procentul salariiaţilor de sex masculin este de 45%.

Rezolvare

1. Estimatorul procentului salariaţilor care sunt de acord cu evaluarea este:


66
wacord = = 0.44 . Deci 44% din salariaţi sunt de acord cu evaluarea
150
periodică.
2. Deoarece în populaţie sunt 45% salariaţi de sex masculin şi nu doar 40% cât
reiese din eşantion este recomandat să ameliorăm estimatorul prin post-
stratificare.
Pentru aceasta calculăm ponderile wij pentru fiecare clasă din tabelul 7.6
obţinând datele din tabelul 7.7.

Tabel 7.7
Sex Acord Indiferent Dezacord ni ~
ni wi1 n~i
Masculin 0.58 0.25 0.17 60 68 40
Feminin 0.34 0.10 0.56 90 82 28
Total 150 150 68

Practic estimatorul procentului celor ce sunt de acord cu evaluarea se poate


calcula şi ca medie ponderată astfel:

wacord =
∑ wn
j =1 ij i
= 0.44
∑n i

Estimatorul ameliorat prin post-stratificare se obţine după relaţia:


∑ w n~ 68
~ = 0.45 unde ~
j =1 ij i
wacord = = n i sunt determinate ca frecvenţe
~
∑ i n 150
teoretice astfel încât să se respecte structura pe sexe cunoscută din surse administrative
~
n i masculin = 0.45 ⋅ 150 =68 persoane
~
n i feminin = 0.55 ⋅ 150 =82 persoane
Probleme propuse
Problema 1
Patronatul Societăţilor de Construcţii a organizat un sondaj în rândul firmelor
participante la Construct Expo. În urma centralizării celor 200 de chestionare s-a
constatat că 64% din societăţile comerciale ce au intrat în eşantion au sediul în
provincie. Cunoscându-se din fişele de înscriere la târg că doar 58% din firme au sediul
în provincie să se verifice reprezentativitatea eşantionului pentru o probabilitate e 95%.

Problema 2
În rândul salariaţilor unei companii s-a realizat un sondaj pe un eşantion de 220
persoane. Vârsta medie a salariaţilor din eşantion este de 39 de ani cu o dispersie de 4.5.
Ştiind că vârsta medie a tuturor salariaţilor calculată pe baza informaţiilor de la biroul
de resurse umane este de 42.4 ani să se precizeze pentru o probabilitate de 95% dacă
eşantionul este reprezentativ.

Problema 3
În tabelul 7.8 este prezentată distribuţia agenţilor economici după numărul de
salariaţi ce a fost obţinută în urma centralizării datelor dintr-un sondaj în rândul
acestora. Din datele oficiale existente la circa financiară se cunoaşte distribuţia tuturor
agenţilor economici înregistraţi.
Tabel 7.8

Grupe de agenţi economici după numărul de Nr. agenţi economici Nr. agenţi economici
salariaţi în eşantion în populaţie

sub 10 25 268
10-49 125 1450
50-99 40 335
100 şi peste 10 178
Total 200 2230

Se cere:
1. Să se verifice reprezentativitatea eşantionului utilizând testul χ2 pentru un
nivel de semnificaţie α=0,05.
2. Să se verifice reprezentativitatea eşantionului utilizând testul Kolmogorov-
Smirnov pentru un nivel de semnificaţie α=0,05.

Problema 4

În chestionarul unui sondaj în rândul agenţilor economici a conţinut întrebarea:


Acordaţi o notă de la 0-10 pentru importanţa acordată de către firmă fiecărui criteriu în
momentul recrutării de forţă de muncă
Criteriul Nota acordată
1. Experienţa
2. Nivelul studiilor
În tabelul 7.9 sunt prezentate rezultatele centralizării datelor la această întrebare
pe grupe de agenţi economici.

Tabelul 7.9

Nr. agenţi Nr. agenţi Nota medie acordată


Gr. agenţi economici Nota medie acordată
economici în economici în criteriului “nivelul
după nr. salariaţi criteriului “experienţă”
eşantion populaţie studiilor”

sub 10 25 201 7 7.6


10-49 125 1227 8.9 8.2
50-99 40 647 8.7 8.8
100 şi peste 10 156 9.2 9.3
Total 200 2230

Se cere:
1. Să se calculeze estimatorii scorului mediu obşinut de cele două criterii pe
baza informaţiilor din eşantion.
2. Să se calculeze estimatorul estimatorii scorului mediu obşinut de cele două
criteri în urma aplicării metodei post-stratificării pe baza informaţiilor
deţinute din surse administrative.

Problema 5

În rândul populaţiei unei localităţi (cu vârsta de 15 ani şi peste) s-a realizat un
studiu privind amploarea şi gravitatea problemelor determinate de fumatul activ şi
pasiv. Una din variabilele aixiliare ale studiului este variabila SEX. În urma centralizării
datelor pentru variabila auxiliară SEX şi pentru variabila de interes ce corespunde
întrebării: “Sunteţi fumător?” s-au obţinut informaţiile din tabelul 7.10.

Tabel 7.10
Sex DA NU Total
Masculin 72 28 100
Feminin 85 65 150
Total 157 93 250

Se cere:
1. Să se calculeze estimatorul procentuluide fumători.
2. Să se calculeze estimatorul procentuluide fumători în urma aplicării metodei
post-stratificării ştiind din surse administrative procentul locuitorilor de sex
masculin este de 49%.
Teste de verificare
a cunoştinţelor

TESTUL 1

S1. Tipuri de întrebări utilizate şi reguli de formulare a acestora.

S2. Sondajul de serii (definire, utilizare, avantaje).

S3. Procentul studenţilor care au promovat toate examenele este de 68%. Limita
superioară a intervalului de încredere garantat cu o probabilitate de 90% (z=1,65) este
70%. Care este limita inferioară a intervalului de încredere daca probabilitatea de
garantare a rezultatelor este de 95%.

S4. În urma unui sondaj stratificat proporţional după mediul de rezidenţă


realizat în judeţul Bacău de către un post de televiziune local s-a calculat numărul mediu
de ore de vizionare a emisiunilor televizate pe parcursul unei săptămâni. Selecţia
unităţilor din fiecare strat s-a realizat simplu aleator cu revenire. Media şi dispersia pe
fiecare strat se găsesc în tabelul următor:

Mediul Efecivul populaţiei Eşantion Numărul mediu de ore Coeficient de


(mii pers.) (pers.) de vizionare variaţie (%)
Urban 340 511 18,75 45
Rural 325 489 14,35 30
Total 665 1000

Se cere:
a) să se estimeze cu o probabilitate de 0,95 numărul mediu de ore de vizionare a
emisiunilor TV pe fiecare strat şi pe întregul judeţ.
b) cunoscând că proporţia celor care urmăresc emisiunile informative în mediul
urban este de 58% iar în mediul rural de 38% să se estimeze proporţia
acestora în întregul judeţ (z=2).
c) Dacă sondajul utilizat era stratificat optim care ar fi fost alocarea pe straturi?

S5. Pentru verificarea duratei medii de ardere a unui bec s-a organizat un sondaj
de 5% dintr-un lot de 2000 de becuriîn cutii de câte 10 bucăţi. În urma măsurării duratei
de funcţionare a becurilor din fiecare cutie s-a calculat durata medie de funcţionare.
Datele sunt prezentate în tabelul următor:

Nr. crt. Durata medie Nr. crt. Durata medie


al seriei de funcţionare (ore) al seriei de funcţionare (ore)
1 2100 6 2230
2 2250 7 2170
3 2080 8 2050
4 1950 9 2175
5 2352 10 2200
Ştiind că la selectarea cutiilor s-a folosit un procedeu de selecţie aleator
nerepetat, iar probabilitatea cu care se garantează rezultatele este de 95% se cere:
a) Să se estimeze limitele în care se va încadra durata medie de funcţionare a
întregului lot de becuri.
b) Ştiind că raportul de corelaţie inter-serii este de 8% ce volum de eşantion ar fi
fost necesar dacă s-ar fi realizat un sondaj simplu aleator fără revenire?

TESTUL 2

S1. Tipuri de erori întâlnite în cercetarea selectivă.

S2. Sondajul de serii (criteriile pe care trebuie să le îndeplinească seriile, aspecte


privind organizarea sondajului de serii).

S3. În rândul salariaţilor unei întreprinderi urmează să se organizeze un sondaj


simplu aleator fără revenire (populaţia fiind omogenă deoarece coeficientul de variaţie
este de 34%). Din surse administrative se ştire că salariul mediu este de 9,6 mil. lei. Ce
volum de eşantion este necesar pentru a estima rezultatele cu o o eroare de ±3% şi o
probabilitate de 95%?

S4. În Bucureşti urmează să se realizeze un sondaj în rândul populaţiei de 18 ani


şi peste având drept obiectiv principal caracterizarea nivelului de trai. Se va utiliza un
plan de sondaj stratificat optim iar informaţiile necesare sunt în tabelul următor:

Populaţia(pers.) ponderea pers. cu venitul sub 3 mil (%)


Sector 1 230000 0,25
Sector 2 245000 0,35
Sector 3 290000 0,7
Sector 4 265000 0,65
Sector 5 290000 0,74
Sector 6 280000 0,75
Total 1600000

Se cere:
a) Să se calculeze volumul eşantionului pentru o probabilitate de 95% şi o
eroare limită de ±3% şi să se repartizeze pe straturi.
b) Deoarece realizarea sondajului pentru volumul calculat la punctul a necesită
cheltuieli prea mari s-a propus reducerea acestuia cu %. Care va fi eroarea
limită ce va trebui acceptată în această situaţie?
c) Dacă sondajul organizat ar fi simplu aleator fără revenire ce volum de
eşantion ar fi necesar în aceleaşi condiţii de eroare şi probabilitate cu cele de
la punctul a.

S5. Studenţii facultăţi CSIE sunt împărţiţi în 88 de grupe. Fiecare grupă este
formată dintr-un număr egal de studenţi (15). S-a realizat un sondaj de serii, procedeul
de selecţie a grupelor fiind simplu aleator fără revenire, cu probabilităţi egale.
Rezultatele sunt prezentate în tabelul ce urmează.
Se cere:
a) Să se estimeze nota medie a studenţilor cu o probabilitate de 95%.
b) Ştiind că raportul de corelaţie inter-serii este de 11% ce volum de eşantion ar
fi fost necesar dacă s-ar fi realizat un sondaj simplu aleator fără revenire?
Comentaţi rezultatul!

seria nota medie a fiecărui student


1 6 3 3 8 9 5 7 6 5 10 4 3 6 10 4
2 10 6 10 4 4 3 3 8 9 5 6 7 6 5 6
3 10 10 5 3 6 10 6 2 2 9 6 10 10 9 6
4 2 2 5 7 6 4 9 8 3 4 7 9 6 4 7
5 7 6 5 10 10 10 3 9 4 4 6 9 4 4 6
6 5 9 7 9 6 9 4 5 6 7 8 2 9 7 8
7 6 3 3 9 4 6 2 5 5 5 3 6 8 5 3
8 7 6 2 2 9 7 9 7 9 6 8 5 2 9 6
9 4 4 7 7 9 8 2 4 10 5 2 9 5 9 4
10 9 8 3 4 2 6 5 3 6 9 5 7 9 2 9

TESTUL 3

S1. Tratarea nonrăspunsurilor prin metodele bazate pe imputaţii.

S2. De ce sondajul simplu aleator este foarte rar utilizat?

Într-o localitate cu o populaţie de 120000 persoane peste 18 ani s-a realizat un


sondaj (simplu aleator cu revenire) pe un eşantion de 1000 de persoane. Rezultatele
centralizate la întrebarea: “Daca duminica ar avea loc alegerile locale/generale aţi
participa la vot?” sunt:

Da Nu NS TOTAL
Alegeri locale 590 380 30 1000

Care este limita inferioară a intervalului de încredere pentru procentul celor ce se


vor prezenta la vot garantată cu o probabilitate de 95,45% ?

S3. În rândul clienţilor unei societăţi comerciale al cărei obiect de activitate este
comercializarea unor materiale speciale de construcţii s-a efectuat un sondaj stratificat
optim. Selecţia unităţilor din fiecare strat s-a realizat după procedeul aleator fără
revenire. Rezultatele obţinute în urma prelucrării se găsesc în tabelul următor:

Nr. clienţi ponderea celor care doresc


Strat
populaţie eşantion asistenţă tehnică (%)
Bucureşti 1250 140 54
Provincie 1550 160 31
Total 2800 300

Se cere:
a) Să se estimeze procentul celor care doresc sa se asigure şi asistenţă tehnică pe
fiecare strat şi pe total pentru o probabilitate de 95%.
b) Să se estimeze numărul mediu de comezi pe trimestru dacă valoarea
estimatorului calculată pe baza datelor din sondaj este de 5,7 iar abaterile
straturilor sunt 0,8 pentru primul strat respectiv 1,4 pentru al doilea.
c) Dacă sondajul organizat ar fi simplu aleator fără revenire ce volum de
eşantion ar fi necesar pentru a estima procentul celor care doresc sa se asigure
şi asistenţă tehnică în aceleaşi condiţii de eroare şi probabilitate.
S4. În cadrul unei societăţi de construcţii cei 800 de muncitori sunt repartizaţi pe
echipe de câte 10 oameni. În urma unui sondaj de serii s-au obţinut datele prezentate în
tabelul următor:

Nr. crt. Numărul mediu de ore Nr. crt. Numărul mediu de ore
al seriei lucrate pe zi de un muncitor al seriei lucrate pe zi de un muncitor
1 9,2 6 9,7
2 8,5 7 9,5
3 10 8 9,1
4 10,5 9 10,5
5 9 10 9,6

Ştiind că la selectarea pachetelor s-a folosit un procedeu de selecţie aleator


nerepetat iar probabilitatea cu care se garantează rezultatele este de 95% se cere:
a) Să se estimezenumărul mediu de ore lucrate pe zi de un muncitor.
b) Să se estimeze numărul mediu de ore lucrate pe zi de o ochipă şi numărul total
de ore lucrate de cei 800 de muncitori.

TESTUL 4

S1. Eroarea de reprezentativitate în cazul sondajului pe cote faţă de sondajul


simplu aleator este:
a) mai mare, deoarece selecţia unităţilor nu este aleatoare;
b) mai mică deoarece respectă fidel structura populaţiei;
c) nu putem aprecia;
d) mai mare deoarece creşc erorile de acoperire.

S2. Avantajele sondajului pe bază de eşantioane fixe sunt:


a) reducerea costurilor;
b) nu necesită existenţa unei baze de sondaj;
c) permite analiza longitudinală;
d) reducerea erorii de reprezentativitate.

S3. Într-o localitate s-a realizat un sondaj pe un volum de eşantion de 600 de


persoane. Ponderea femeilor din eşantion este de 48%. Ştiind că ponderea reală este de
51% precizaţi dacă această diferenţă afectează reprezentativitatea eşantionului (z=1,96).

S4. În cadrul unei societăţi de construcţii cei 400 de muncitori sunt repartizaţi
pe 20 de echipe. În urma unui sondaj de bistadial, in care numărul de unităţi primare
selectate a fost de 8, s-au obţinut datele prezentate în tabelul.
Ştiind că procedeul de selecţie al unităţilor primare si secundare a fost aleator nerepetat
iar probabilitatea cu care se garantează rezultatele este de 95% se cere să se estimeze
numărul mediu de ore lucrate de un muncitor pe zi, numărul mediu de ore lucrate pe zi
de o ochipă şi numărul total de ore lucrate de cei 400 de muncitori.
Estimatorul numărului mediu de Estimatorul
Nr. crt. Număr Număr muncitori
ore dispersiei
al seriei muncitori selectaţi în al doilea stadiu
lucrate pe zi de un muncitor
1 18 6 9,7 0,04
2 19 6 9,5 0,05
3 22 7 9,1 0,042
4 24 7 10,5 0,04
5 20 7 9,6 0,06
6 18 6 9,2 0,052
7 16 5 8,5 0,032
8 25 7 10 0,03

S5. În rândul celor 3800 de studenti ai unei facultati s-a realizat un sondaj
efectuat după procedeul simplu aleator fără revenire ce a avut drept obiectiv ’modul de
petrecere a timpului liber’. În urma centralizării datelor s-a obţinut:

Mergeti la teatru
sex frecvent ocazional niciodata Total
M 25 75 100 200
F 100 125 75 300
Total 125 200 175 500

Se cere:
a) Să se estimeze ponderea studenţilor care merg frecvent la teatru.
b) Ştiind că ponderea fetelor în totalul studenţilor facultăţii este de 73% să se
estimeze ponderea studentilor care merg frevcent la teatru cu ajutorul
estimatorului corectat prin metoda poststratificării. (probabilitatea cu care se
garantează rezultatele este de 0,95).

TESTUL 5

S1. Referitor la sondajul pe bază de eşantioane fixe care din următoarele


afirmaţii sunt adevărate:
a) dacă există deplasări ale estimatorilor demografici este necesar ca acestea să
se corecteze modificând structura panelului;
b) există riscul ca răspunsurile să nu mai fie spontane;
c) se reduc erorile de acoperire;
d) permite o analiză în dinamică a indicatorilor.

S2. Pentru a aduce îmbunătăţiri eşantionării pe cote se recomandă:


a) utilizarea unui număr cât mai mare de criterii de cotă pentru a asigura
reprezentativitatea eşantionului;
b) criteriile de cotă să fie corelate cu variabilele de interes;
c) utilizarea doar a cotelor marginale pentru uşurarea muncii operatorilor;
d) baza de sondaj să fie actualizată şi adecvată programului de observare.

S3. Utilizând testul χ2 verificaţi reprezentativitatea eşantionului de 800


persoane selectat dintr-o populaţie de 600000. (χ2= 9,49 pentru α=0,05)
f eşantion
Naţionalitate f populaţie f eşantion (%) Naţionalitate f populaţie
(%)
română 450000 70 rromă 24000 6
maghiară 108000 15 alta 6000 3
slovacă 12000 6

S4. În cadrul unei societăţi de construcţii cei 450 de muncitori sunt repartizaţi
pe 20 de echipe. În urma unui sondajde serii in care numărul de unităţi selectate a fost
de 8, s-au obţinut datele prezentate în tabelul următor:

Numărului mediu de ore Numărului mediu de ore


Nr. crt. Număr Nr. crt. Număr
lucrate pe zi de un lucrate pe zi de un
al seriei muncitori al seriei muncitori
muncitor muncitor
1 22 9,7 5 20 9,6
2 19 9,5 6 18 8,2
3 22 8,1 7 16 8,5
4 25 9,5 8 24 10

Ştiind că procedeul de selecţie al unităţilor complexe a fost aleator nerepetat iar


probabilitatea cu care se garantează rezultatele este de 95% se cere să se estimeze
numărul mediu de ore lucrate de un muncitor pe zi, numărul mediu de ore lucrate pe zi
de o ochipă şi numărul total de ore lucrate de cei 450 de muncitori.

S5. În urma unui sondaj în randul agentilor economici din Bucureşti s-a obţinit:

Nr agenti Structura agentilor economici


nivelul mediu al CA pe anul 2005
Nr. salariaţi economici in după nr. salariati in populatie
(mld. Lei)
esantion (%)
pana in 10 2.3 42 60
`10-50 40 25 30
peste 50 150 14 10

Se cere:
a) Să se estimeze media CA pe baza datelor din eşantion.
b) Sa se estimeze media CA în urma redresării eşantionului prin poststratificare.

You might also like