Statistik - viden eller tilfældighed

Opgave 6

Tema: Fødes der færre og færre drenge i forhold til piger?

Test af hypoteser

I 1996 offentliggjorde Henrik Møller en artikel i The Lancet, hvor han gjorde opmærksom på, at der er tegn på, at der efter 1951 fødes færre og færre drenge i forhold til piger. Analysen byggede på tallene i nedenstående tabeller, som er offentligt tilgængelige:

år
Antal drenge
Procent drenge
1951
39608
51,74
1952
39632
51,51
1953
40499
51,75
1954
39309
51,48
1955
39725
51,69
1956
39538
51,53
1957
38839
51,60
1958
38456
51,49
1959
37986
51,38
1960
38959
51,21
1961
39175
51,25
1962
39849
51,21
1963
42286
51,31
1964
43006
51,59
1965
44151
51,46
1966
45412
51,41
1967
41791
51,33
1968
38491
51,64
1969
36867
51,71
1970
36382
51,39
1971
38955
51,69
1972
38692
51,24
1973
36899
51,32
år
Antal drenge
Procent drenge
1974
36556
51,25
1975
36811
51,08
1976
33734
51,69
1977
31823
51,43
1978
31875
51,38
1979
30555
51,38
1980
29352
51,23
1981
27117
51,08
1982
27063
51,39
1983
26001
51,16
1984
26572
51,30
1985
27465
51,10
1986
28434
51,41
1987
29079
51,72
1988
30324
51,53
1989
31475
51,30
1990
32620
51,42
1991
33005
51,28
1992
34812
51,40
1993
34609
51,37
1994
35637
51,14
1995
35877
51,40

I det følgende betegner x antal år efter 1951, og y procent drengefødsler det pågældende år.

Et plot af punkterne (x, y) viser måske nok en faldende tendens, men ikke mere end, at man nok synes, at det kunne skyldes tilfældige udsving.

Regressionslinien gennem punkterne har hældningen -0,0054, og vi skal nu se, hvordan man kan vurdere om denne afvigelse fra 0 kan skyldes tilfældigheder.

Hvis der ikke sker nogen ændring i sandsynligheden for at få en dreng i perioden fra 1951 til 1995, kan de 45 observationer stort set (NB antal fødsler varierer noget) opfattes som resultater af gentagelser af samme eksperiment. Et eksperiment, der giver resultater med en middelværdi på ca. 51,4 og en spredning på ca. 0,2. Den vandrette linie, der går gennem middelværdierne for hvert år, kaldes den sande regressionslinie, og den vil altså have hældningen 0.

Vi vil finde ud af, hvordan hældningerne fordeler sig for regressionslinier til et stort antal simulerede observationssæt, ved hjælp af et program på TI-83 , der er vist nedenfor:

I hvert af årene 1 til 45 (svarende til 1951 til 1995) vælger lommeregneren tilfældigt et tal fra en normalfordeling med middel 51,4 og spredning 0,2. Disse tal lægges i L2 og årene lægges i L1. Antallet af observationssæt kaldes N, og H er hældningen af en simuleret regressionslinie.

Programmet giver en P-værdi, der siger, hvor ofte den simulerede hældning har været under -0,0054 eller over 0,0054.

Når man skal vurdere P-værdien bruger man normalt følgende regel:

Hvis P er under 0,05 forkaster man den hypotese man vil teste; i dette tilfælde hypotesen: der sker ikke nogen ændring i andelen af drengefødsler.
  1. Kør programmet med for eksempel N lig med 100 (det tager ca. 10 minutter), og lav en passende konklusion.
  2. Man kan godt lave andre, mere enkle tests: hvis yx betegner andelen af drengefødsler x år efter 1950, kan man se på forskellene dx = yx+23 - yx. Ved optælling ses, at 7 ud af 22 forskelle er negative. Antallet af negative differenser kaldes D. Hvis det er rigtigt, at der ikke sker nogen ændring i sandsynligheden for at få en dreng, skulle man forvente lige mange negative og positive differenser.
  3. Beregn under forudsætning af, at sandsynligheden for en negativ differens er 0,5. Hvad ville man konkludere på baggrund af dette test med hensyn til, om der sker ændring af sandsynligheden for at føde en dreng.
  4. I ovenstående test udnytter man ikke den information, der ligger i differensernes størrelse, man ser kun på fortegnet. Lav et plot af differenserne i for eksempel Excel. Viser dette plot tegn på, at der sker ændring af sandsynligheden for at føde en dreng?