Logo no.artbmxmagazine.com

Økonomisk analyse med multivariate statistiske verktøy

Innholdsfortegnelse:

Anonim

Introduksjon

Den økonomiske-økonomiske analysen av reiselivsbedrifter viser økende relevans og betydning i nasjonal og internasjonal litteratur, tradisjonelle teknikker brukes oftere, og evalueringen av resultatene gjør at vi kan ta de riktige beslutningene til rett tid. Denne artikkelen avslører og foreslår bruk av multivariate statistiske verktøy, som blant annet kan brukes i næringslivet og spesielt i turistsektoren. Arbeidet viser et eksempel fra en casestudie som prøver å stimulere bruken av spesialister og forskere i turistområdet.

Kommentarer om multivariate teknikker

Bruken av multivariat statistikk er til stede i forskjellige områder eller vitenskapsgrener, for eksempel: Markedsundersøkelser (for å identifisere egenskaper hos individer for å bestemme hvilken type mennesker som kjøper et bestemt produkt); i utdanningssystemet for enhver type spesialitet (å kjenne studentene som vil lykkes og fullføre studiene); i jordbruket (ved å studere motstanden til visse typer avlinger mot skader av skadedyr og tørke); i idrett (å kjenne fra antropometriske målinger mulighetene for å oppnå gode resultater i en spesifikk idrett); i psykologi (ved å studere forholdet mellom ungdoms atferd og foreldres holdninger);i økonomien (for å kjenne utviklingsnivået til et territorium i forhold til andre og gjøre konklusjoner fra grunnleggende økonomiske variabler, blant andre).

Multivariate data oppstår når det samme individet måles mer enn en karakteristikk av interesse. Et individ kan være et objekt eller et konsept som kan måles. Mer generelt kalles individer eksperimentelle enheter. Eksempler på gjenstander: mennesker, dyr, land, selskaper, land osv. Eksempler på begreper: kjærlighet, vennskap, dating osv. En variabel er et kjennetegn eller attributt som måles til et individ.

Mål for multivariate teknikker:

  1. Forenkling: Multivariate metoder er et sett med teknikker som gjør det mulig for forskeren å tolke og visualisere store datasett (både hos individer og variabler), basert på deres forenkling eller reduksjon. Forhold: Finne forhold mellom variabler, mellom individer og mellom begge..

Forholdet mellom variabler

Det er en sammenheng mellom variabler når de måler vanlige egenskaper. Eksempel: Anta at studenter på nivå 12, valgt i turistenhetene i landet, blir tatt eksamener i spansk, matematikk og historie for å komme inn på bachelorgraden i turisme. Hvis hver av studentene scorer høyt, rettferdig eller lavt på alle tre testene, ville testene være relatert til hverandre. I dette tilfellet kan det vanlige kjennetegn at disse eksamenene måler være den "generelle intelligensen" som lar dem starte den universitetskarrieren.

Forholdet mellom individer

Det er et forhold mellom individer hvis noen av dem ligner hverandre. Eksempel: Anta at forskjellige typer øl blir evaluert med hensyn til deres akseptnivå, og for eksempel blir forbruket deres målt for forskjellige aldersgrupper, lett og mørke øl kan forventes å ha en slags type forhold, eller at øltypene er helt forskjellige.

I multivariate metoder antas variabler å være korrelert, men observasjoner på individer er uavhengige. Det antas også generelt at settet med variabler involvert i analysen har en multivariat normalfordeling. Denne antagelsen gjør at den multivariate analysen kan løpe parallelt med den tilsvarende univariate analysen basert på en normal fordeling.

Klassifisering av multivariate metoder:

  1. Regissert eller motivert av variabler: de fokuserer på sammenhengene mellom variablene. Eksempler: Korrelasjonsmatriser, hovedkomponentanalyse, faktoranalyse og regresjonsanalyse Individuelt drevet eller motivert - Fokus på forhold mellom individer. Eksempler: diskriminerende analyse, klyngebehandling og multivariat variansanalyse.

Multivariat utforskende analyse

Beskrivende (multivariat) statistikk, som navnet tilsier, tjener til å beskrive oppførselen til et datasett, blant dem de viktigste er:

  • Eksempel Gjennomsnittlig prøvevarians Eksempelkorrelasjonsspredningsdiagram Hovedkomponenter

Statistisk inferens

Problemet med statistisk inferens består i å tilnærme verdien av visse populasjonsegenskaper (kalt parametere) ved hjelp av sammendrag (kalt statistikk) generert fra informasjonen i en prøve hentet fra populasjonen.

Punktestimering: Poengestimeringsproblemet består i å tilveiebringe en punktverdi som tilnærmer seg parameteren av interesse. De klassiske poengestimeringsmetodene for parametere er: momentmetode og maksimal sannsynlighetsmetode.

Hypotetesting: Problemet med hypotetesting i statistikk avgjør hvilken av to hypoteser som er riktig. Avgjørelsen tas i samsvar med utvalgsinformasjonen.

Den viktigste hypotesetesten på multivariate data er å teste om korrelasjonen mellom to variabler er vesentlig forskjellig fra null.

Tillitsintervaller: Beregning av et konfidensintervall er et intervallestimeringsproblem, der det som gis er et sett med høye mulige verdier som tilnærminger til parameteren.

Som i tilfelle av hypotesetester, er konfidensintervallet med størst interesse korrelasjonen mellom to variabler.

Bruk av korrelasjoner for å gruppere variabler. Det er mulig at når du har et stort sett med variabler, er det et visst forhold mellom noen av variablene. Korrelasjonskoeffisienten mellom par av variabler gjør det mulig å gruppere variabler på en slik måte at variabler i samme gruppe har høye korrelasjoner og variabler i forskjellige grupper har lave korrelasjoner.

Utvalgte teknikker for multivariat analyse

Flere regresjonsanalyser

Regresjon er en teknikk som brukes for undersøkelse og modellering av de eksisterende forholdene mellom variabler som påvirker et visst virkelighetsfenomen. En økonomisk analytiker, for eksempel, kan være interessert i å etablere forholdet som eksisterer mellom situasjonen presentert av de finansielle indeksene til et selskap og et sannsynlig scenario med ubalanse eller ikke.

I bred forstand er regresjon en prosess som tar sikte på å passe en modell til et sett med data eller observasjoner. I virkeligheten er regresjonsligningen bare en tilnærming av forholdet mellom variablene. Regresjonen kan brukes som et beskrivende verktøy eller som et inferensjonsverktøy.

I det første tilfellet kan forskeren være interessert i å finne den beste lineære prediksjonsligningen. Du kan også kontrollere et sett av faktorer som er tilstede i fenomenet å evaluere. I det andre tilfellet, det vil si inferensiell, er forskeren interessert i å lage estimater av populasjonsparametere ved å undersøke et utvalg observasjoner og verifisere noen hypotetester som for eksempel om det faktisk er en lineær sammenheng mellom de uavhengige variablene, eller det vil si hvis en spesifikk uavhengig variabel ikke har noen lineær effekt på den avhengige.

Hovedkomponentanalyse

Principal component analysis (PCA) er en statistisk teknikk som ble foreslått på begynnelsen av 1800-tallet av Karl Pearson som en del av faktoranalysen. Kompleksiteten i beregningene forsinket imidlertid utviklingen til datamaskinens utseende og deres bruk i andre halvdel av 1900-tallet.

Hovedmålet som AVS forfølger, er å representere de numeriske målene for forskjellige variabler i et rom med få dimensjoner der sansene våre kan oppfatte forhold som ellers ville forbli skjult i høyere dimensjoner. Denne representasjonen må være slik at når man kasserer høyere dimensjoner (vanligvis fra tredje eller fjerde), er tapet av informasjon minimalt. Selv om dette antyder at ACP er en beskrivende teknikk, benekter den ikke muligheten for at den også kan brukes til slutningsformål.

ACP gjør det mulig å redusere dimensjonaliteten til dataene, og transformere settet med originale p-variabler til et annet sett med q ukorrelerte variabler, kalt hovedkomponenter. P-variablene måles på hver av de n individene, og oppnår en datamatrise av rekkefølgen np (p <n). I ACP er det muligheten til å bruke korrelasjonsmatrisen eller kovariansmatrisen. I det første alternativet blir like stor vekt til hver og en av variablene; Dette kan være praktisk når forskeren vurderer at alle variablene er like relevante. Det andre alternativet kan brukes når alle variablene har de samme måleenheter, og også når forskeren anser det som praktisk å fremheve hver av variablene basert på deres grad av variabilitet.

De nye q-variablene (hovedkomponenter) oppnås som lineære kombinasjoner av de opprinnelige variablene. Komponentene blir bestilt i henhold til den forklarte variansprosenten. I denne forstand vil den første komponenten være den viktigste fordi den er den som forklarer den høyeste prosentandelen av variansen til dataene. Det er opp til etterforskeren å bestemme hvor mange komponenter som skal velges i studien. AVS har fordelen av å ikke kreve forutsetninger som normalitet.

applikasjoner

Blant de hyppigste bruken av AVS er:

  1. Foreslå de mest hensiktsmessige statistiske analysene som en utforskende analyseteknikk som gjør det mulig å oppdage sammenhenger mellom dataene og i henhold til resultatene. Redusere datamatrisens dimensjonalitet for å unngå oppsigelser og fremheve relasjoner. I de fleste tilfeller, ved å ta bare de første komponentene, kan det meste av den totale variasjonen i de originale dataene forklares. Konstruer uobserverbare variabler (komponenter) fra observerbare variabler. For eksempel er en persons intelligens ikke direkte observerbar, i stedet kan forskjellige aspekter av den måles ved hjelp av psykometriske tester. Variablene som måler de forskjellige aspektene ved intelligens, har en tendens til å variere;Dette antyder at de uttrykker de samme egenskapene, men på en annen måte, og at det bare er et lite antall egenskaper som ikke er direkte målbare, som kalles syntetiske indikatorer og som er estimert av komponentene. Under visse omstendigheter er det veldig nyttig å bruke disse ukorrelerte komponentene, som inputdata for andre analyser. For eksempel, i tilfelle multippel regresjon når de uavhengige variablene viser høy kollinearitet, er det å foretrekke regresjonen på hovedkomponentene i stedet for å bruke de opprinnelige variablene.For eksempel, i tilfelle multippel regresjon når de uavhengige variablene viser høy kollinearitet, er det å foretrekke regresjonen på hovedkomponentene i stedet for å bruke de opprinnelige variablene.For eksempel, i tilfelle multippel regresjon når de uavhengige variablene viser høy kollinearitet, er det å foretrekke regresjonen på hovedkomponentene i stedet for å bruke de opprinnelige variablene.

Diskriminerende analyse

Statistisk teknikk og verktøy som gjør det mulig å forutsi den nominelle atferden til en avhengig variabel gjennom en lineær kombinasjon av de uavhengige variablene, også kalt prediktive variabler, egenskaper eller parametere, som gjør gjennomsnittlig score for kategoriene til de avhengige variablene i denne kombinasjonen. lineære er differensiert så mye som mulig.

Brukt i markedsundersøkelser, for eksempel for å forutsi om potensielt salg i et gitt markedsområde vil være "bra" eller "dårlig", er de avhengige variablene basert på visse evalueringer av personlig disponible inntekt etter territorium, befolkningstetthet og antall utsalg, de prediktive variablene. Andre eksempler på anvendelse er i finansinstitusjoner, der definerte "problematiske" eller "seriøse" kontoer, hver og en av dem er beskrevet parametere som kredittpriser, antall ganger kriminelle, gjeld til kapitalforhold, eksistens av krav, Deretter oppnås de prediktive variablene som best kan diskriminere der en viss analyseenhet, individer, objekter eller i dette tilfellet en konto kan bli "alvorlig" eller "problematisk".Det er to hovedmål med diskriminerende analyse:

  1. forutsi kategorien til en analyseenhet eller objekt eller individ. bestemme hvilke som er prediktorvariablene med den høyeste diskriminerende kraften til å klassifisere analyseenhetene slik at de har det ene eller det andre attributtet til den avhengige variabelen.

Måten å nå målene er ved å skaffe en diskriminerende funksjon:

FD = ß1 X1 + ß2 X2 + …………… + ßm Xm

hvor xm er den m-uavhengige variabelen. Diskriminerende funksjon oppnådd av dataprogrammer som systat, BMD-07M eller statgrafikk bestemmer verdiene for hver uavhengige variabel av ß som kalles diskriminerende koeffisienter, diskriminerende betas eller diskriminerende vekter. Hver beregnet diskriminerende beta har en viss mengde eller koeffisient og dets positive eller negative tegn. Betas-koeffisienten bestemmer vekten til hver av de uavhengige variablene i diskriminering, og tegnet, positivt eller negativt, representerer deres tildeling i den ene eller den andre av undergruppene definert av de avhengige variablene. Hensikten er å erstatte en analyseenhet, objekt eller individ av målpopulasjonen med de uavhengige variablene,parametere eller karakteristikk i den oppnådde funksjonen og beregne i forkant sin kategori. Algebraisk representerer diskriminerende funksjon en lineær kombinatorikk av de opprinnelige dataene som maksimerer forholdet mellom variabilitet mellom grupper (på den ene siden de problematiske beretningene og på den andre de alvorlige) til variasjonen i gruppen. Kriteriet som ble brukt for å bestemme når gruppevariabiliteten er maksimal er analysen av variansetest F eller også kalt Snedecors F, kjent for å finne forskjeller mellom variansene. Derfor blir diskriminerende koeffisienter avledet på en slik måte at:Algebraisk representerer diskriminerende funksjon en lineær kombinatorikk av de opprinnelige dataene som maksimerer forholdet mellom variabilitet mellom grupper (på den ene siden de problematiske beretningene og på den andre de alvorlige) til variasjonen i gruppen. Kriteriet som ble brukt for å bestemme når gruppevariabiliteten er maksimal er analysen av variansetest F eller også kalt Snedecors F, kjent for å finne forskjeller mellom variansene. Derfor blir diskriminerende koeffisienter avledet på en slik måte at:Algebraisk representerer diskriminerende funksjon en lineær kombinatorikk av de opprinnelige dataene som maksimerer forholdet mellom variabilitet mellom grupper (på den ene siden de problematiske beretningene og på den andre de alvorlige) til variasjonen i gruppen. Kriteriet som ble brukt for å bestemme når gruppevariabiliteten er maksimal er analysen av variansetest F eller også kalt Snedecors F, kjent for å finne forskjeller mellom variansene. Derfor blir diskriminerende koeffisienter avledet på en slik måte at:diskriminerende koeffisienter er avledet på en slik måte at:diskriminerende koeffisienter er avledet på en slik måte at:

Variabilitet mellom grupper

F = ----------- være maksimal

Variasjon i gruppen

Utgangspunktet for enhver diskriminerende analyse er bestemmelsen av datamatrisen for avhengige variabler, av en nominell karakter, som kan beregnes av hovedkomponenter eller gis.

En casestudie. Hotell i Miramar

Miramar SA hotellkjede, med 10 års drift, har befester sin posisjon i det karibiske området, med fasiliteter i nesten alle land i området. Aksjonærmøtet har bedt om en klassifisering av hotellene deres, i henhold til resultatene av deres økonomiske aktivitet, med det formål å ta beslutninger for de som har falt bak i sine mål.

For å utføre dette arbeidet ansetter styret en konsulent, dedikert til økonomiske spørsmål og revisjonsspørsmål, og ber om at følgende variabler blir undersøkt i hvert av de 30 hotellene som kjedes: Sales Growth, Økonomisk lønnsomhet og kostnad etter vekt.

Konsulenten bestemmer at for å oppnå det foreslåtte målet, bør de ty til multivariate teknikker, nærmere bestemt hovedkomponentanalyse og diskriminerende analyse. Statgraphics System, som er mye brukt, ble brukt til å behandle informasjonen. Resultatene gitt nedenfor kommer fra resultatene levert av det systemet.

Hovedkomponentanalyse

Sammendrag

Variabler analysert:

Salgsvekst

Økonomisk lønnsomhet

Kostnad etter vekt

Antall saker: 30

Standardisering: ja

Antall komponenter fjernet: 1

Hovedkomponenter Analyse

-------------------------–

Prosent

Varians Komponent Prosent

Antall Egen verdi forklart Akkumulert

1 2,7729800 92,433 92,433

2 0, 1507870 5,026 97,459

3 0,0762356 2,541 100 000

--------------------------

Kommentar

--------------------------

Hensikten har vært å få en lineær kombinasjon av de tre variablene som er studert, noe som forklarer mesteparten av variabiliteten til Dataene, i dette tilfellet, forklarer den første komponenten 92,433% av variasjonen til de opprinnelige dataene.

Tabell over komponentvekter

Komponent 1

--------------------------

Omsetningsvekst 0,584118

Økonomisk lønnsomhet 0,577760

Kostnad etter vekt 0,570088

--------------------------

Kommentar

--------------------------

Den forrige tabellen viser koeffisientene til variablene til den første hovedkomponenten, hvis ligning er gitt av:

0,584118 * Omsetningsvekst + 0,57776 * Økonomisk avkastning + 0,570088 * Kostnad etter vekt

Der verdiene på variablene i ligningen er standardisert, det vil si, er middelverdiene deres trukket fra og delt med standardavviket.

Diskriminerende analyse

Sammendrag

Klassifiseringsvariabel: Col_7

Uavhengige variabler:

Salgsvekst

Økonomisk lønnsomhet

Kostnad etter vekt

Antall saker: 30

Antall grupper: 2

Funksjon Prosent

Diskriminerende Korrelasjon Kanonisk relativ egenverdi

-------------------------–

1 3.14232 100.00 0.87097

Funksjoner Wilks Chi-Square DF P-verdi

avledet Lambda

-------------------------–

1 0.241411 37.6633 3 0.0000

--------------------------

Kommentar

--------------------------

Denne prosedyren er utformet for å få et sett med diskriminerende funksjoner som kan bidra til å forutsi den avhengige variabelen basert på de kvantitative verdiene til de uavhengige variablene. Rundt 30 saker ble brukt for å oppnå en diskriminerende modell i to grupper. Tre prediktive variabler ble introdusert. Den første diskriminerende funksjonen er statistisk signifikant ved et signifikansnivå på 95%.

Diskriminerende funksjon for avhengig variabel

Standardiserte koeffisienter

-----------

Økonomisk lønnsomhet 0,736324

Salgsvekst 0,171982

Kostnad etter vekt 0,1196148

------------------- -----

Ikke-standardiserte koeffisienter

-------------

Økonomisk lønnsomhet 0.1371040

Omsetningsvekst 0.0454077

Kostnad etter vekt 0,0629418

Konstant -25,5891

--------------------------

Kommentar

--------------------------

Den forrige tabellen viser koeffisientene til funksjonen som ble brukt for å skille mellom de forskjellige nivåene til den avhengige variabelen. Av spesiell interesse er de standardiserte koeffisientene. Den første standardiserte diskriminerende funksjonen er:

0,736324 * Økonomisk avkastning + 0,171982 * Omsetningsvekst + 0,1996148 * Kostnad etter vekt

Fra de relative størrelsene på koeffisientene til den forrige ligningen, kan det bestemmes hvordan den avhengige variabelen kan brukes til å skille mellom grupper.

Klassifiseringstabell

Størrelsesgrupper Grupper

av gruppe 1 2

---------------------

1 15 15 0

(100.0%) (0.0%)

2 15 0 15

(0,0%) (100,0%)

----------------------

Prosent av riktig klassifisering: 100,0%

Sammendrag av gruppestatistikker

------------------------------–

Avhengig variabel 1 2 TOTAL

BEDRAG 15 15 30

---------- ---------------------

MEDIAS

Lønnsomhet 115.227 106.303 97.38 Økonomisk

vekst i salg 104.893 99.4767 94.06

Kostnad per vekt 99.3667 103.23 107.093

-------------------------------

STANDARDAVVIKLING

Økonomisk avkastning 4.29737 6.26241 10.4986

Omsetningsvekst 4, 47386 2.94533 6.6485

Kostnad etter vekt 2.37296 3.71377 4.98163

-------------------------------

Klassifiseringsfunksjon Koeffisienter for den avhengige variabelen

--------------------------

1 2

Økonomisk avkastning -0.738405 -0.268809

Salgsvekst 2.299696 2.45449

Kostnad pr. vekt 9,06632 9,28191

Konstant -523,306 -610,951

Utfall

-523,306 - 0,738405 * Økonomisk avkastning + 2,29896 * Salgsvekst + 9,06632 * Kostnad per vekt

Denne funksjonen brukes som en prediktor for den avhengige variabelen for nye observasjoner.

Statistikk

Covariance Matrix

Økonomisk lønnsomhet Salg Vekst Kostnad etter vekt

Økonomisk lønnsomhet 28.8426 14.6768 9.36831

Salgsvekst 14.6768 14.3452 7.93248

Kostnad etter vekt 9.36831 7.93248 9.71152

Korrelasjonsmatrise

Økonomisk lønnsomhet Salg Vekst Kostnad etter vekt

Økonomisk lønnsomhet 1.0 0.721541 0.559758

Salgsvekst 0.721541 1.0 0.672066

Kostnad etter vekt 0.559758 0.672066 1.0

Kommentar

Denne tabellen viser estimerte korrelasjoner mellom de uavhengige variablene i hver gruppe.

Konsulentfirmaet oppsummerer resultatene oppnådd som følger:

Halvparten av hotellene i Miramar Chain har problemer i driften.

Metodikken som brukes og ligningene som er funnet, tillater å diskriminere om et hotell har problemer i driften eller ikke.

Denne studien skal utføres både i lave og høye turistperioder.

Salgsvekstindikatoren har en grunnleggende vekt i resultatene av driften av hotellene, etterfulgt av lønnsomheten av salget og til slutt kostnadene etter vekt.

Det anbefales å gjennomføre en grundig gjennomgang av situasjonen presentert av de hotellene som ikke klarer å være i gruppen av tilfredsstillende resultater.

Bibliografi

  • Linares Fintes, Gladys; Acosta Ramírez, Liliam; Sintache Vega, Vivian. ¨ Multivariat statistikk ¨ENDES, Stgo de Cuba. Cuba. 1986.htpp: //www.emagister.com//Comunidad_Emagister_quiebra_2001htpp: //www.google.es // Analyse av hovedkomponenter. ¨ Hovedkomponenter med statistikk ¨. 2005htpp: //www.google.es//Multivariate-analyse. multivariat analyse. 2005htpp: //www.google.es.// Diskriminerende analyse. ¨ Finansiell helse i et selskap. Altman-modell for nye markeder ¨. 2006htpp: //www.google.es// Diskriminerende analyse. ¨ Diskriminerende analyse ¨. 2006
Økonomisk analyse med multivariate statistiske verktøy