Statistisk signifikans: definisjon, konsept, signifikans, regresjonsligninger og hypotesetesting

Innholdsfortegnelse:

Statistisk signifikans: definisjon, konsept, signifikans, regresjonsligninger og hypotesetesting
Statistisk signifikans: definisjon, konsept, signifikans, regresjonsligninger og hypotesetesting

Video: Statistisk signifikans: definisjon, konsept, signifikans, regresjonsligninger og hypotesetesting

Video: Statistisk signifikans: definisjon, konsept, signifikans, regresjonsligninger og hypotesetesting
Video: A/B testing - Statistical significance for beginners 2024, November
Anonim

Statistikk har lenge vært en integrert del av livet. Folk møter det over alt. Basert på statistikk trekkes konklusjoner om hvor og hvilke sykdommer som er vanlige, hva som er mer etterspurt i en bestemt region eller blant et bestemt segment av befolkningen. Selv konstruksjonen av politiske programmer for kandidater for statlige organer er basert på statistiske data. De brukes også av detaljhandelskjeder ved kjøp av varer, og produsenter veiledes av disse dataene i sine forslag.

Statistikk spiller en viktig rolle i samfunnets liv og påvirker hvert enkelt medlem, selv i små ting. For eksempel, hvis de fleste i følge statistikk foretrekker mørke farger i klær i en bestemt by eller region, vil det være ekstremt vanskelig å finne en lys gul regnfrakk med et blomstertrykk i lokale utsalgssteder. Men hvilke mengderhar disse dataene en slik innvirkning? Hva er for eksempel "statistisk signifikant"? Hva menes egentlig med denne definisjonen?

Hva er dette?

Statistikk som vitenskap er bygd opp av en kombinasjon av ulike mengder og begreper. En av dem er begrepet «statistisk signifikans». Dette er navnet på verdien av variabler, sannsynligheten for utseendet til andre indikatorer som er ubetydelig.

Beregning av statistiske indikatorer
Beregning av statistiske indikatorer

For eksempel tar 9 av 10 på seg gummisko på føttene under en morgentur etter sopp i høstskogen etter en regnfull natt. Sannsynligheten for at 8 av dem på et tidspunkt tar på lerretsmokkasiner er ubetydelig. I dette spesielle eksempelet er tallet 9 det som kalles "statistisk signifikans."

Følgelig, hvis vi utvikler det gitte praktiske eksempelet videre, kjøper skobutikker gummistøvler mot slutten av sommersesongen i større mengder enn på andre tider av året. Dermed har størrelsen på den statistiske verdien en innvirkning på det vanlige livet.

Selvfølgelig, i komplekse beregninger, for eksempel, når man forutsier spredning av virus, blir det tatt hensyn til et stort antall variabler. Men selve essensen av å bestemme en signifikant indikator for statistiske data er lik, uavhengig av kompleksiteten til beregningene og antall variabelverdier.

Hvordan beregnes det?

Brukes ved beregning av verdien av "statistisk signifikans"-indikatoren til ligningen. Det vil si at det kan hevdes at i dette tilfellet bestemmes alt av matematikk. Det enkleste beregnings alternativet er en kjede av matematiske operasjoner, der følgende parametere er involvert:

  • to typer resultater hentet fra undersøkelser eller studier av objektive data, for eksempel antall kjøp, angitt med a og b;
  • prøvestørrelsesindikator for begge grupper – n;
  • verdien av den kombinerte prøveandelen - p;
  • standardfeil – SE.

Neste trinn er å bestemme den totale testpoengsummen - t, verdien sammenlignes med tallet 1,96. 1,96 er gjennomsnittsverdien, som gir et område på 95 %, i henhold til studentens t-fordelingsfunksjon.

Formel for enkel beregning
Formel for enkel beregning

Spørsmålet dukker ofte opp om hva som er forskjellen mellom verdiene til n og p. Denne nyansen er lett å avklare med et eksempel. La oss si at den statistiske signifikansen av lojalitet til ethvert produkt eller merke av menn og kvinner beregnes.

I dette tilfellet vil bokstavene bli fulgt av følgende:

  • n – antall respondenter;
  • p - antall fornøyde med produktet.

Antallet intervjuede kvinner i denne saken vil bli utpekt som n1. Følgelig menn - n2. Den samme verdien vil ha tallene "1" og "2" for symbolet p.

Sammenligning av testresultatet med gjennomsnittet av Students regneark blir det som kalles "statistisk signifikans".

Hva menes med bekreftelse?

Resultatene av enhver matematisk beregning kan alltid kontrolleres, dette læres opp til barn i grunnskolen. Det er logisk å antaat siden statistikken bestemmes ved hjelp av kjeden av beregninger, så kontrolleres de.

Testing for statistisk signifikans er imidlertid ikke bare matematikk. Statistikk omhandler et stort antall variabler og ulike sannsynligheter, som langt fra alltid lar seg regne. Det vil si at hvis vi går tilbake til eksemplet med gummisko i begynnelsen av artikkelen, kan den logiske konstruksjonen av statistiske data som kjøpere av varer til butikker vil stole på, bli forstyrret av tørt og varmt vær, som ikke er typisk for høsten. Som et resultat av dette fenomenet vil antallet personer som kjøper gummistøvler reduseres og utsalgssteder lide tap. Selvfølgelig er en matematisk formel ikke i stand til å forutse en væranomali. Dette øyeblikket kalles «feil».

Verktøy for statistisk datavisualisering
Verktøy for statistisk datavisualisering

Det er bare sannsynligheten for slike feil og tar hensyn til sjekk av nivået av beregnet signifikans. Den tar hensyn til både beregnede indikatorer og aksepterte nivåer av signifikans, samt mengder som konvensjonelt kalles hypoteser.

Hva er betydningsnivået?

Begrepet "nivå" er inkludert i hovedkriteriene for statistisk signifikans. Den brukes i anvendt og praktisk statistikk. Dette er en slags verdi som tar hensyn til sannsynligheten for mulige avvik eller feil.

Nivået er basert på identifisering av forskjeller i ferdige prøver, det lar deg fastslå deres betydning eller omvendt tilfeldighet. Dette konseptet har ikke bare digitale betydninger, men også deres særegne tolkninger. De forklarerhvordan du trenger å forstå verdien, og selve nivået bestemmes ved å sammenligne resultatet med gjennomsnittsindeksen, dette avslører graden av pålitelighet av forskjellene.

Diskusjon av statistikk
Diskusjon av statistikk

Dermed kan vi enkelt forestille oss konseptet med et nivå - det er en indikator på en akseptabel, sannsynlig feil eller feil i konklusjonene trukket fra de innhentede statistiske dataene.

Hvilke nivåer av betydning brukes?

Den statistiske signifikansen av feilsannsynlighetskoeffisienter i praksis er basert på tre grunnleggende nivåer.

Det første nivået er terskelen der verdien er 5 %. Det vil si at sannsynligheten for feil ikke overstiger signifikansnivået på 5 %. Dette betyr at tilliten til uklanderligheten og ufeilbarligheten til konklusjonene som er gjort på grunnlag av statistiske forskningsdata er 95%.

Det andre nivået er terskelen på 1 %. Følgelig betyr dette tallet at man kan la seg lede av dataene som er innhentet under statistiske beregninger med 99 % sikkerhet.

Tredje nivå - 0,1 %. Med denne verdien er sannsynligheten for en feil lik en brøkdel av en prosent, det vil si at feil praktisk t alt elimineres.

Hva er en hypotese i statistikk?

Feil som begrep er delt inn i to områder, angående aksept eller forkastelse av nullhypotesen. En hypotese er et konsept som, ifølge definisjonen, er skjult et sett med undersøkelsesresultater, andre data eller utsagn. Det vil si en beskrivelse av sannsynlighetsfordelingen til noe relatert til faget statistisk regnskap.

statistisk signifikans av regresjonen
statistisk signifikans av regresjonen

Det er to hypoteser i enkle beregninger - null og alternativ. Forskjellen mellom dem er at nullhypotesen er basert på ideen om at det ikke er noen grunnleggende forskjeller mellom utvalgene som er involvert i å bestemme den statistiske signifikansen, og den alternative er helt motsatt av den. Det vil si at den alternative hypotesen er basert på tilstedeværelsen av en signifikant forskjell i disse prøvene.

Hva er feilene?

Feil som begrep i statistikk står i direkte proporsjon med aksept av denne eller hin hypotesen som sann. De kan deles inn i to retninger eller typer:

  • den første typen skyldes aksept av nullhypotesen, som viste seg å være feil;
  • second - forårsaket av å følge alternativet.
Vise statistiske grafer
Vise statistiske grafer

Den første typen feil kalles falsk positiv og er ganske vanlig på alle områder der statistikk brukes. Følgelig kalles feilen av den andre typen en falsk negativ.

Hvorfor trenger vi regresjon i statistikk?

Den statistiske signifikansen av regresjon er at det med dens hjelp er mulig å fastslå hvor mye modellen av ulike avhengigheter beregnet på grunnlag av dataene samsvarer med virkeligheten; lar deg identifisere tilstrekkeligheten eller mangelen på faktorer for regnskap og konklusjoner.

Regresjonsverdien bestemmes ved å sammenligne resultatene med dataene oppført i Fisher-tabellene. Eller ved å bruke variansanalyse. Regresjonsindikatorer er viktige nårkomplekse statistiske studier og beregninger som involverer et stort antall variabler, tilfeldige data og sannsynlige endringer.

Anbefalt: