Sandsynlighedsregning

Sandsynlighedsregning drejer sig om at regne på stokastiske processer, d.v.s. processer, hvor tilfældet spiller en rolle.
Målet er at beregne sandsynligheden for, at processen får et bestemt forløb.

Blaise Pascal Pierre de Fermat
Blaise Pascal   Pierre de Fermat
I 1654 henvendte nogle Parisiske (hasard)spillere sig til Blaise Pascal og Pierre de Fermat, for at høre deres mening om, hvilke væddemål, det kunne svare sig at indgå i.
De to matematikeres korrespondance blev grundlaget for sandsynlighedsregningen, som senere viste sig at have mange anvendelser; også uden for spillenes verden. F.eks. anviser sandsynlighedsregningen metoder til at teste hypoteser (antagelser) om virkeligheden.

Emner

Andet

Grundbegreber

Udgangspunktet er et stokastisk ("tilfældigt") eksperiment.

Eksperimenetet kan have n forskellige udfald, som tilsammen udgør udfaldsrummet U. Kalder vi udfaldene u1 ... un, har vi

    U = {u1, u2, ... , un}

En hændelse H er en (evt. tom) delmængde af U.

En sandsynlighed p er et talmål for vor forventning til at "noget" sker. Den umulige hændelse tillægges sandsynligheden 0; den sikre hændelse sandsynligheden 1 = 100%.
Har eksperimentets udfald sandsynlighederne p1 ... pn, sætter vi

Da der er sikkerhed for, at et af udfaldene indtræffer, er P(U) = 1, eller

Sandsynlighedfeltet er kombinationen af udfaldene i U og deres sandsynligheder p1 ... pn.

Der er to principielt forskellige situationer:

[ Hovedmenu ] [ Ordliste ]

Symmetrisk Sandsynlighedsfelt

Feltet kaldes symmetrisk, hvis alle n udfald har samme sandsynlighed p = 1 / n. I dette tilfælde beregnes en hændelses sandsynlighed af

[ Hovedmenu ] [ Ordliste ]

Stokastisk variabel

I praktiske anvendelser af sandsynlighedsregning knytter man ofte tal til hændelser. "Viser de to terninger tilsammen mindst 9 øjne, skylder du mig 5 kr."
En funktion, der knytter tal til hændelser (og dermed også til udfald) kaldes en stokastisk variabel.

Ofte specificeres en stokastiske variabel X ved hjælp af et skema

X x1 x2 ... xn
P(X = xi) P(X = x1) P(X = x2) ... P(X = xn)

En stokastisk variabels middelværdi E(X) er et vægtet gennemsnit

[ Hovedmenu ] [ Ordliste ]

Kombinatorik

er teorien for, hvor mange måder en valgproces kan gennemføres på.
n!

Skal n forskellige symboler ordnes i et skema, kan første felt udfyldes på n måder, andet felt på n – 1 måder o.s.v. Sidste felt kan kun udfyldes på 1 måde, da der kun er et symbol tilbage. Det samlede antal måder at udfylde skemaet er

Man udtrykker dette ved at sige, at antallet af permutationer i en n - mængde er n! og skriver

Ændr værdien for n og klik uden for boksen.

n = giver n! =
Kombinationer

Vi ser igen på antallet af måder, n elementer kan ordnes.
Er f.eks. 2 af symbolerne ens, skal tallet n! halveres, fordi der optræder dubletter.
Er r symboler ens, skal n! divideres med r!, fordi der optræder r! - foldige dubletter.
Er der kun to slags symboler - r af den ene og n – r af den anden - skal der både divideres med r! og (n – r)!. Det samlede antal måder at fylde de to slags symboler i et n - fløjet skema bliver

Ændr værdierne for n og r klik uden for boksen.

n = r = giver K(n, r) =

[ Hovedmenu ] [ Ordliste ]

Møntkast, terningkast og kortfordelinger

Denne regnemaskine "kaster" et antal mønter.

Antal mønter:
KastserieSorteret

Denne regnemaskine "kaster" et antal terninger.

Antal terninger:
KastserieSorteret

Denne regnemaskine "blander et spil kort".
FordelingSorteret

[ Hovedmenu ] [ Ordliste ]

Lotto matematik

Lotto er et (hasard) - spil, hvor et antal spillere indskyder penge i en pulje, betaler ca. halvdelen til staten og derefter trækker lod om resten.

En dansk Lotto - kupon har 36 nummerfelter, hvoraf spilleren afkrydser 7. Trækningen foregår ved at en maskine (forhåbentlig tilfældigt) udtager 7 vinnernumre fra mængden {1, 2, 3, ... , 36}.

Regnemaskinen udfører en LOTTO - trækning.
Indtast værdierne for antal felter, vindertal eller tillægstal klik på Udfør trækning.

Antal felter antal vindertal antal tillægstal
Trækning

Trækningen kan forløbe på K(36, 7) = 8347680 måder, som vi antager er lige sandsynlige (feltet er symmetrisk). Sandsynligheden for at ens kupon har "7 rigtige" er altså

Antallet af kuponer med f.eks. "5 rigtige" findes som resultatet af 2 valg:
1) Først vælges de 5 blandt "vindertallene": K(7, 5) = 21 muligheder
2) Så vælges 2 blandt "nittetallene": K(29, 2) = 406 muligheder
3) For hver af de 21 muligheder i første valg er der 406 i andet valg, så tallene ganges sammen
Ialt K(7, 2) · K(29, 2) = 8526 muligheder for "5 rigtige".

Udover de 7 "vindertal" trækkes 2 "tillægstal", og andenpræmien tilfalder kuponer med "6 rigtige + 1 tillægstal". En kupon kan konstrueres ved dels at vælge 6 ud af 7 vindertal, dels 1 ud af 2 tillægstal, altså på K(7, 6) · K(2, 1) = 14 måder.

Vi forventer altså, at en trækning udløser ca. 14 gange så mange anden præmier som første præmier og ca. 203 / 14 = 14.5 gange så mange tredie præmier som anden præmier.

Regnemaskinen beregner sandsynlighederne for de forskellige udfald i en LOTTO - trækning.
Ændr værdierne for antal felter, vindertal eller tillægstal klik uden for boksen.

Antal felter antal vindertal antal tillægstal
Naboer

Mange undres over, at der så ofte optræder "nabotal" ved en Lotto - trækning.

Vi forestiller os et 36 - fløjet skema, hvor vi skal vælge 7 positioner. Skal valget være "nabofrit", skal de 7 valgte indskydes mellem de 29 ikke valgte eller ved skemaets ender. Der er altså 30 pladser at vælge mellem ved pladseringen af de 7 vindertal. Antallet af måder bliver K(30, 7) = 2035800 og dermed sandsynligheden for nabofri trækning 0.2439.

Tager vi tillægstallene med, ser regnskabet således ud. Der skal indskydes 9 tal blandt 27 for at undgå naboer. Antal måder = K(28, 9). Sandsynlighed for nabofri trækning = K(28, 9) / K(36, 9) = 0.0734

Ændr værdierne for antal felter eller udtrukne tal klik uden for boksen.

Antal felter antal udtrukne tal giver P(naboer) =

[ Hovedmenu ] [ Ordliste ]

Binomialfordelinger

Et eksperiment gentages n gange. Eksperimentet kan have to udfald "gevinst" eller "nitte". Lad sandsynligheden for "gevinst" i det enkelte eksperiment være p.

Det interessante spørgsmål er ofte, hvor mange "gevinster" der er i serien; ikke hvor i serien, "gevinsterne" forekommer. Vi indfører en stokastisk variabel X, som tæller antallet af "gevinster".

Vi kan holde rede på forsøgsserien ved at notere udfaldene i et skema. Har vi netop r "gevinster", skal der stå "gevinst" r gange i skemalinien og "nitte" n – r gange.

Sandsynligheden for at den enkelte skemalinie kommer ud er pr (1 – p)n–r, idet sandsynligheden for "nitte" i det enkelte forsøg er 1 – p.
Antallet af måder at fylde en skemalinie ud med netop r gange "gevinst" er K(n, r). Sandsynligheden for netop r "gevinster" i n forsøg bliver herefter

Ændr værdierne for n, p eller r klik uden for boksen.

n = p = r = giver P(X = r) =
Binomialfordelinger , μ = n · p og σ = √(n p (1-p))
Beklager; din browser kan ikke vise applets!

Normalfordelinger tilnærmer binomialfordelinger.

Kumulerede sandsynligheder

I mange problemstillinger er man interesseret i kumulerede sandsynligheder. D.v.s. sandsynligheden for op til og med r "gevinster" i n forsøg.

Ændr værdierne for n, p eller r klik uden for boksen.

n = p = r = giver P(X ≤ r) =

I mange opgaver forekommer spørgsmål af type: Find sandsynligheden for mellem s og t gevinster i n forsøg, altså P(s ≤ X ≤ t).
Svaret beregnes på følgende måde

Ændr værdierne for n, p, s eller t klik uden for boksen.

n = p = s = t = giver P(s ≤ X ≤ t) =
Middelværdi

Har vi r "gevinster" i n forsøg, er det rimeligt at sætte sandsynligheden for "gevinst" i det enkelte forsøg til p = r / n. Det er det samme som at sige, at

[ Hovedmenu ] [ Ordliste ]

Stikprøver

Vi ser på en mængde af m elementer, hvoraf g er "gode", og resten m – g er "dårlige". Fra mængden udtager vi en stikprøven elementer.
Opaven består i at beregne sandsynligheden for, at stikprøven indeholder netop r "gode" (og altså n – r "dårlige") elementer.

Vi vil antage, at stikprøven er regulær i den forstand, at alle elementerne har samme sandsynlighed for at komme med i prøven.

Nu kan stikprøveudtagning foregå på to principielt forskellige måder:

Sandsynligheden for, at stikprøven indeholder netop r "gode" betegnes P(X = r), idet X er en stokastisk variabel, der tæller antallet af "gode" i prøven. Vi finder

Jo større m (og g) er, jo mindre forskel er der mellem de to fordelinger.

Denne regnemaskine beregner P(X = r) både med og uden tilbagelægning.
Ændr værdierne for m, g, n og r og klik uden for boksen.

m = g = n = r = giver
Med tilbagelægning: P(X = r) = . Uden tilbagelægning: P(X = r) =

[ Hovedmenu ] [ Ordliste ]

Binomialtest

Vi ser igen på det binomialfordelte tilfælde, men uden på forhånd at kende sandsynlighedsparameteren p. Lad os sige, at vi har en hypotese om, hvad p "burde" være. Man kalder den nul - hypotesen:

For at undersøge hypotesen, udfører vi eksperimentet n gange og noterer antallet r af "gevinster". Et nærliggende estimat af p er p~ = r / n, som er det bedste i den forstand, at middelværdien E(p~) = p.

Jo nærmere r ligger ved n · p, jo mere tillid har vi til hypotesen.

Men stikprøver viser ikke altid sandheden. Det kan gå galt på to måder:

Skal den n-foldige stikprøve teste nul - hypotesen, må vi bestemme os for et interval [a; b] (acceptintervallet) omkring n · p, så hypotesen accepteres, hvis r falder i intervallet. Intervallets bredde er udtryk for et kompromis:

Ved testens styrke forstår vi sandsynligheden for at undgå fejl af type 2

Denne regnemaskine beregner styrken af en test.
Ændr værdierne for n, p, a og b og klik uden for boksen.

n = p = a = b = giver Styrke =

Når man skal planlægge en test, begynder man med at bestemme sig for testens

Med udgangspunkt i niveauet, beregner man acceptintervallet [a; b].
Derefter udtages stikprøven og r (gevinsttallet) opgøres.
Der konkluderes alt efter, om r ligger i acceptintervallet eller ej.

Denne regnemaskine beregner acceptintervallet af en test.
Ændr værdierne for n, p, niveau og klik uden for boksen.

n = p = niveau = giver a = b =

[ Hovedmenu ] [ Ordliste ]

Kombinationer af hændelser

Vi ser på 2 hændelser A og B i udfaldsrummet.

Ved foreningshændelsen A ∪ B forstår vi mængden af udfald, der ligger enten i A eller B (eller begge), og ved fælleshændelsen A ∩ B overlappet (lyseblåt på figuren). Har A og B intet udfald fælles, så A ∩ B = Ø, kaldes A og B disjunkte.

Ved beregning af P(A) + P(B) tæller vi udfaldene i A ∩ B med to gange, så

    P(A) + P(B) = P(A ∪ B) + P(A ∩ B),

så kun for disjunkte hændelser gælder, at

    P(A) + P(B) = P(A ∪ B).

Betinget sandsynlighed

Fortæller nogen os, at hændelsen A indtræffer, overtager A rollen som udfaldsrum. D.v.s. at sandsynlighederne for A's udfald øges med faktoren 1 / P(A), så de tilsammen får sandsynligheden 1.

Spørger vi i denne situation om sandsynligheden for B, taler man om den betingede sandsynlighed for B under forudsætning af A og skriver P(B | A). Vi skal altså addere de nye sandsynligheder for udfaldene i A ∩ B og finder

Bayes sætning
Thomas Bayes På tilsvarende måde kan man se, at P(A ∩ B) = P(A | B) · P(B), så (Bayes' sætning)
    P(A | B) = P(B | A) · P(A)
    P(B)
    .

En klassedeling af udfaldsrummet er et system af disjunkte hændelse A1, A2, ... ,An, så

    U = A1 ∪ A2 ∪ ... ∪ An.
Hændelsen B kan opfattes som foreningsmængden af de overlap, B har med klasserne i klassedelingen

    B = (B ∩ A1) ∪ (B ∩ A2) ∪ ... ∪ (B ∩ An).

Da højresidens parenteser er disjunkte hændelser, er

Tankegangen kan måske genkendes fra sammensat procent.

[ Hovedmenu ] [ Ordliste ]

Binomialudviklinger

Vi ser på (a + b)n = (a + b)(a + b) ... (a + b), hvor n er et helt positivt tal. Udregningen foregår ved at der vælges et bogstav fra hver parentes. Ganges de valgte tal sammen fås et led i binomialudviklingen af (a + b)n. Nogle af leddene er ens, så de slås sammen.
Led med værdien an–rbr fremkommer ved at vælge a fra n – r parenteser og b fra resten. Antallet af måder er K(n, r). Vi har altså

Pascals trekant

Binomialudviklingen af (a + b)n+1 indeholder ifølge ovenstående et led af form K(n+1, r)an+1-rbr.

Af (a + b)n+1 = (a + b)n(a + b) ser vi, at K(n+1, r)an+1-rbr kommer af to led fra (a + b)n nemlig: K(n, r–1)an–(r–1)br–1 ved at gange med b og K(n, r)an–rbr ved at gange med a. Altså er

Vi kan nu ordne K(n, r) værdierne i et skema, som kaldes Pascals trekant

n\r 0 1 2 3 4 5 6 7
1 1 1
2 1 2 1
3 1 3 3 1
4 1 4 6 4 1
5 1 5 10 10 5 1
6 1 6 15 20 15 6 1
7 1 7 21 35 35 21 7 1

Vi ser, at f.eks. K(8, 3) = K(7, 2) + K(7, 3) = 21 + 35 = 56.

Pascals trekant kan også udledes ud fra Random walk.

[ Hovedmenu ] [ Ordliste ]

Links

Side om Pascals trekant

Dansk tipstjenestes side

[ Hovedmenu ] [ Ordliste ] [ Tilbage til hovedsiden ]