hvordan man beregner imputering

I statistikken er imputering substitution af en vis værdi for en manglende data punkt . Manglende data kan opstå , for eksempel i undersøgelser, hvor de nogle spørgsmål er ubesvarede . De fleste standard statistiske metoder kræver hver post 's felter skal udfyldes . En anden grund til imputering , at medmindre de tomme celler er fyldt med data , vil mange statistiske pakker , som standard , skal du slette posten ( kaldet listwise eller casewise udgår )

Du skal bruge: .
Datasæt
Statistiske software, der kan regression eller dobbelt imputering.

Marginal og betingede middelværdi Imputering


1 .
Find den gennemsnitlige værdi af den uafhængige variabel, der har manglende data .
2 .
Sæt dette gennemsnit i hver eneste tomme celle , hvor at de uafhængige variable var ikke rapporteret .
3 .
Udfør listwise sletning til at beregne betingede imputering .

4 .
tilbagegang alle variabler om variable med manglende data ved hjælp af statistiske software .
5 .
Brug forbindelser fra denne regression til at forudsige , hvad de manglende data bør være. Så hvis de uafhængige variabler er X1 , X2 og X3 , og X1 har manglende data , og brug derefter værdierne af X2 og X3 til at forudsige manglende værdi af X1 for hver post med manglende X1 .

Dobbelt Imputering


1 .
Udfør listwise sletning .
2 .
tilbagegang alle variabler om variable med manglende data ved hjælp af statistiske software .

3 .
Beregn standardafvigelsen af resterne af det variable af manglende data .
4 .
Brug forbindelser fra denne regression til at forudsige , hvad de manglende data skal være .
5 .
Tilfældigt trække et nummer, " u " fra en standard normalfordeling for hver imputering .
Multiplicer " u "ved standardafvigelsen fra trin 3 , og tilføje produktet til imputering for , som " u "blev udarbejdet . Gør dette for hver imputering , med en ny " u " for hver enkelt . Dette tilføjer en tilfældig element til mistænkeliggørelser , som omhandler den falske sammenhæng mellem de manglende data variable og den afhængige variabel , der tilregne oprettet .

gode råd og advarsler


  • SAS har en procedure kaldet MI , der gør flere imputering . Den maksimale sandsynlighed Metoden tilbyder også en behandling for manglende data , men dobbelt godtgørelsesordningen har alle sine fordele og kræver ikke kendskab til sandsynlighedsfordelingen funktioner .
  • Listwise sletning kan føre til tendentiøse resultater , hvis manglende indberetning korrelater med en vis variabel værdi . Marginal betyder imputering er kendt for at give skæve estimater af varianser og kovarians og derfor bør undgås . Betinget betyder imputering , fordi den ikke bidrager til tilfældighed af de fejl , fører til en undervurdering af standarden fejl . Dette fører igen til en overvurderet af prøven statistikker , såsom F-ratio , der ikke måler så meget variation , som det ville , hvis de manglende data ikke var mangler . Derfor p-værdier ender undervurderet , og nulhypotesen er for let afvises . Dobbelt imputering behandler dette problem .

  • Kommentarer

    Vi ønsker, at dine argumenter og meninger er velkomne. Være objektiv og medfølelse. Mange mennesker læser hvad du skriver. Gør debat til en bedre oplevelse for både dem og dig selv. Mellem 20:00 og 08:00 det er lukket for kommentering og vi fjerner automatisk kommentarer med sjofle ord, defineret af vores moderatorer.

    link:

    • Om os
    • Advertising
    • Fortæl redaktionen
    • Få nyhedsbreve
    • RSS-feed

    Redaktør: Karin Christofferse
    Nyheder redactor: Morten Nyberg

    Kundeservice: Stig Ole Salomon,
    Flemming Sørensen

    Tel: +45 00 99 99 00
    Fax: +45 00 99 99 01

    © Copyright 2014 Einsten.net - All rights reserved.