Sammendrag
I denne artikkelen har lineær regresjon programmet blitt brukt til å skaffe prognostiske ligninger, som vil hjelpe oss å gjøre tilnærmelser i en x kvartal eller år, noe som resulterer i et omtrentlig antall innbyggere funnet (inkluderer ikke uformelle oppgaver), ved hjelp av dataene innhentet fra 2014 til første kvartal 2018, disse dataene ble hentet fra ENEMDU, INEC.
Stikkord: ENEMDU (Nasjonal undersøkelse av sysselsetting, arbeidsledighet og arbeidsledighet.), INEC (National Institute of Statistics and Census), Lineær regresjon.
Abstrakt
I denne artikkelen har den lineære regresjonsapplikasjonen blitt brukt til å oppnå prognoserlikninger, noe som vil hjelpe oss med å foreta tilnærminger i øksekvartalet eller året, noe som resulterer i det omtrentlige antallet innbyggere som finner arbeid (inkluderer ikke uformelle oppgaver),
ved å bruke dataene innhentet fra 2014 til første kvartal 2018, ble disse dataene hentet fra ENEMDU, INEC.
Stikkord: Nasjonal undersøkelse av sysselsetting, arbeidsledighet og arbeidsledighet (NSEUU), National Institute of Statistics and Census (NISC), Lineær regresjon.
Introduksjon
Lineær regresjon er en metode som gjør det mulig å bestemme matematiske modeller for å kunne utføre visse typer projeksjoner eller tilnærminger, avhengig av forholdet mellom en avhengig variabel y, en uavhengig variabel x, ble regresjonsbetegnelsen brukt for første gang i studien av antropometriske variabler, når man sammenliknet høyden til foreldre og barn, der det viste seg at barn hvis foreldre var mye høyere enn middelverdien, hadde en tendens til å være lik den, mens de hvis foreldre var veldig korte hadde en tendens til å redusere forskjellen fra gjennomsnittlig høyde; det vil si at de "returnerte" til gjennomsnittet, den empiriske verifiseringen av denne egenskapen ble senere forsterket med den teoretiske begrunnelsen for dette fenomenet. Det lineære uttrykket brukes for å skille det fra andre regresjonsteknikker, som bruker modeller basert på en hvilken som helst form for matematisk funksjon, det være seg kvadratiske, polynomiske, flere variabler, kjente funksjoner.
Figur 1. Forholdstyper mellom 2 variabler.
Lineære modeller er en forenklet virkelighetsforklaring, mye mer smidig og med mye mer teoretisk støtte fra matematikk og statistikk. Den lineære regresjonsmodellen brukes i et stort antall felt, fra den vitenskapelige til den sosiale sfæren, gjennom industrielle anvendelser, siden lineær atferd finnes i mange situasjoner, hvor de forskjellige bruksområdene regresjonen kan sees på. lineær: innen fysikk, kjemi, produksjon, populasjonsstudier, etc. siden hver av disse kan være representert med en funksjon som involverer forskjellige disponerte punkter i et spredningsdiagram.
Når skal jeg bruke lineær regresjon?
Lineær regresjon er en optimal modell for visse typer mønstre som presenterer en trend (økende eller avtagende), det vil si med noen få ord mønstre som presenterer et lineært forhold mellom den avhengige variabelen (y) og tid (uavhengig variabel (x). Distribusjonsgrafen til dataene må tas med i betraktningen hvis de indikerer et lineært forhold mellom spredningspunktene, dette vil være en flott indikator på at regresjonsmetoden for å oppnå en prognostisk ligning av disse punktene er en lineær regresjon.. Det er veldig viktig å ta hensyn til hvilken type regresjon som skal brukes, som vil avhenge av oppførselen til dataene gitt i spredningsskjemaet, siden på en eller annen måte, hvis en type regresjon blir brukt, som ikke er indikert for en gruppe av data feilen ved evaluering av tilnærmingen vil øke og derfor vil korrelasjonskoeffisienten målt i de gitte standarder indikere at en feilaktig regresjonstype har blitt brukt i tilfelle av den lineære.
I denne artikkelen vil regresjonsanalysen der en avhengig variabel (y) og en uavhengig variabel (x) er involvert, hvor det vil være et forhold mellom dem, som vil bli representert med en linje, bli beskrevet i detalj. linje som vil være en ligning (prognose) indikert under formatet for skråningen til en linje i denne studien, vil vi anvende lineær regresjon basert på populasjonsdataene som
Befolkning med sysselsetting | ||||||||||||||||||
ÅR (X) | 2014 | 2014,3 | 2014,6 | 2014,9 | 2015 | 2015,3 | 2015,6 | 2015,9 | 2016 | 2016,3 | 2016,6 | 2016,9 | 2017 | 2017,3 | 2017,6 | 2017,9 | 2018 | 2018,3 |
NATIONAL TOTAL | 6664241 | 6706314 | 6643458 | 6866776 | 6921107 | 7091116 | 7098584 | 7274221 | 7140636 | 7412671 | 7415099 | 7637986 | 7463579 | 7728968 | 7781560 | 7842471 | 7712177 | 7802374 |
URBAN | 4481130 | 4501505 | 4529978 | 4638310 | 4647582 | 4630745 | 4707715 | 4854005 | 4840314 | 4882929 | 4889895 | 5005457 | 4971669 | 5048482 | 5125446 | 5174135 | 5169942 | 5129893 |
LANDLIG | 2183111 | 2204809 | 2113480 | 2228466 | 2273525 | 2460371 | 2390869 | 2420216 | 2300322 | 2529742 | 2525203 | 2632529 | 2491910 | 2680487 | 2656114 | 2668336 | 2542236 | 2672481 |
Tabell 1. Befolkningsdata med sysselsetting i nasjonalt, urbant og landlig totalt
er funnet med sysselsetting i Ecuador hvor vi har data fra National Total, denne totalen ser også ut delt i landlige og urbane, basert på disse dataene vil vi fortsette å finne og etablere prognoseligningen for å kunne gjøre fremskrivninger for å tilnærme befolkningen som er vil
finne sysselsetting i et år eller et kvartal av et år som ikke er i databasen som gis, det vil si at med den prognostiserte ligningen vil en verdi av y bli funnet som en funksjon av x.
Anvendelse av den lineære regresjonsmodellen.
For å forstå og anvende denne metoden i forhold til emnet som skal behandles, begynte han med de relevante undersøkelsene for å samle tydelig og sann informasjon om befolkningsdataene med ansettelse av National, Urban and Rural Total i offisielle kilder fra året 2014 til den første kvartal 2018, er det viktig å ha en stor mengde data slik at spredningsdiagrammet ikke endres, av denne grunn ble kvartalsdata (3 måneder) av den bestemte tidsperioden tatt, med dette større datagrunnlaget letter det å ta beslutningen om metoden av regresjon å bruke, ble all denne informasjonen gitt av statlige institusjoner ENEMDU (National Survey of Employment, Unemployment and
Underemployment), INEC (National Institute of Statistics and Census), som gir oss nøyaktige data, for å være sikre på de tidligere resultatene som skal utføres ved hjelp av de relevante beregningene, som kan sees i de følgende tabeller med deres respektive spredningsgrafer.
Med dataene som er vist i tabellene, vil det bli etablert en prognosematematisk funksjon eller ligning som vil passe til de angitte dataene og vil beskrive forholdet mellom variablene ved hjelp av en regresjon av hver av tabellene.
Det er tre viktige punkter når du utfører regresjonsanalysen, disse er:
- Bestem hva slags kurve punktene på en graf skal beskrive. I henhold til grafen, bestem hvilken type ligning som passer best
dataen.
- Finn prognoseligningen, og bekreft nærhetsdata.
Figur 2. Scatterplot National T.
Figur 3. Urban spredning graf
Figur 4. Landlig spredningsgraf
I analysen utført og i henhold til det som allerede er blitt sagt og observert i figur 2,3,4. Hvor oppførselen til dataene kan sees i grafen fra 2014 til første kvartal 2018 og hva som er etablert i figur 1. En lineær atferd kan bestemmes.
Lineær regresjonsmodell:
? ̂ =? + ?? (1)
Hvor ? Det vil bli representert som følger:
? =? ̅ -? ∗? ̅ (F1)
? ̅ = Gjennomsnitt av avhengig variabel.
? ̅ = Gjennomsnitt av uavhengig variabel
Hvor ? Det vil bli representert som følger:
(F2)
Parameterverdiene? ? ? ligning (1) er ikke kjent og må estimeres ut fra dataene fra den oppnådde prøven. Disse koeffisientene er beregnet med kjente verdier og er kjent som regressorer.
For verdien på regressorene brukes metoden basert på minste kvadrateteorem Denne metoden bruker dataene fra prøven (populasjonen) for å bestemme egenskaper for linjen som vil minimere summen av kvadratene til avvikene.
???? (? ? -?) ^? (to)
Hvor;
? ? = Observert verdi av den avhengige variabelen for i-th. ? ̂ = Værvarslingsligning bestemt fra datatabeller.
Erstatte prognoseligningen (1), i
(2).
? (? ?? (+ ??)) ^? (3) Denne ligningen vil hjelpe oss med å bestemme feilen som en funksjon av variablene x, og av prognosefunksjonen, slik at prognosefunksjonen representerer de totale dataene på en mye mer representativ måte, feilen som er begått i Ved tilnærming er denne feilen ikke mer enn avstanden fra et hvilket som helst punkt på grafen til linjen (d1, d2, d3), som presentert i figur 5.Ligning (3) lar oss minimere medlemmet i ligningen. For dette må de partielle derivatene av dette uttrykket beregnes med hensyn til hver av regresjonskoeffisientene, det vil si at vi må differensiere med hensyn til α og β og lik hver til null. av de partielle derivater, etter denne prosedyren vil vi få et system med ligninger som kan representeres som et matrikssystem. Som følger:
??? = ?? + ???????? =? ∗ ??? + ?????
Figur 5. Representasjon av feilen i grafen.
Korrelasjonskoeffisient.
Korrelasjonskoeffisienten er et mål som vil indikere tilknytningsgraden til dataene for variablene (x, y), dette målet vil indikere typen relasjon eller avhengighet, med denne koeffisienten også
vi kan bestemme om metoden til
regresion que usamos es el correcto de acuerdo a la escala ya dada Figura 6. Si la correlacion esta entre (-0,5;0,5) esto nos indica que existe una correlacion, en la cual no es recomendable aplicar regresion lineal esto quiere decir que la ecuacion pronostico no se ajusta de manera adeacuada a los datos dispersos en el diagrama de dispercion.
Figura 6. Escala de aceptacion del coeficiente de correlacion.
Fórmula para calcular el coeficiente de correlación.
Coeficiente de determinación.
El coeficiente de determinación se lo simboliza con la letra ?? y no es más que el coeficiente de correlación al cuadrado, lo que el coeficiente de determinación nos indica en la regresión lineal, es probar cierto tipo de hipótesis, este coeficiente ayudara a determinar la calidad del modelo (ecuación pronóstico), para replicar resultados, y la proporción de variación de los resultados.
Procedimiento para encontrar las ecuaciones pronostico.
Para encontrar las ecuaciones pronósticos respecto a URBANO, RURAL y el TOTAL DE POBLACION que es la sumatoria de ambos respectivamente y con el cual se va a comparar la sumatoria de las ecuaciones pronóstico de RURAL, URBANO respecto al TOTAL NACIAONAL y determinar la dispersión de los resultados que en este caso se lo podrá determinar como un error entre sus partes y el total, así tendríamos aplicando la ecuación (1), y encontrando sus subtérminos (F1), (F2), respectivamente se procederá a encontrar las ecuaciones pronóstico de cada categoría:
- Ecuaciones pronostico (RURAL).
Reemplazando en ecuación (1), tenemos;
Tabla 2. Coeficientes de regresión e intervalos de confianza (Rural).
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0%Superior 95,0% | ||||||||
Intercepción | -255885317 | 28788655,9 | -8,88840791 | 1,3785E-07 | -316914541 | -194856093 | -316914541 | -194856093 |
Variable X 1 | 128126,694 | 14278,7071 | 8,97326999 | 1,2129E-07 | 97857,1871 | 158396,201 | 97857,1871 | 158396,201 |
Ecuación pronostico (URBANO).
Reemplazando en ecuación (1).
Tenemos
Tabla 3. Coeficientes de regresión e intervalos de confianza (Urbano).
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0%Superior 95,0% | ||||||||
Intercepción | -348136220 | 13925907,6 | -24,9991764 | 2,9943E-14 | -377657825 | -318614615 | -377657825 | -318614615 |
Variable X 1 | 175073,532 | 6907,02462 | 25,3471707 | 2,4125E-14 | 160431,294 | 189715,77 | 160431,294 | 189715,77 |
Ecuación pronostico (TOTAL POBLACION).
Reemplazando en ecuación (1), tenemos;
Tabla 4. Coeficientes de regresión e intervalos de confianza (Total Nacional)
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Inferior 95,0%Superior 95,0% | ||||||||
Intercepción | -604021371 | 32580998,6 | -18,5390687 | 3,0713E-12 | -673090003 | -534952739 | -673090003 | -534952739 |
Variable X 1 | 303200,144 | 16159,6477 | 18,7627942 | 2,5553E-12 | 268943,221 | 337457,066 | 268943,221 | 337457,066 |
Como se describió anteriormente estas ecuaciones pronósticos no representan el muestral total debido a que cada una de estas ecuaciones pronostico se ajustan en una línea recta de tal manera que la distancia entre la recta y cualquier punto se aproximadamente igual y eso se lo determina como un error, entonces para que la ecuación pronostico represente de manera mucho más exacta las proyecciones se les debe de sumar el error cometido.
Factor de correlación.
El factor de correlación de cada uno de las categorías et dada por:
URBANO.
? = 0,987776078
Tabla 5. Estadísticos de la regresión Urbano.
Coeficiente de correlación múltiple
Coeficiente de determinación R^2 R^2 ajustado Error típico Observaciones |
0,98777608 |
0,97570158 | |
0,97418293 | |
38113,6631 | |
18 |
RURAL.
? = 0,913362204
Tabla 6. Estadísticos de la regresión Rural.
Coeficiente de correlación múltiple
Coeficiente de determinación R^2 R^2 ajustado Error típico Observaciones |
0,9133622 |
0,83423052 | |
0,82386992 | |
78791,3555 | |
18 |
TOTAL NACIONAL.
? = 0,978021857
Tabla 7. Estadísticos de la regresión Total Nacional.
Coeficiente de correlación múltiple
Coeficiente de determinación R^2 R^2 ajustado Error típico Observaciones |
0,97802186 |
0,95652675 | |
0,95380968 | |
89170,5765 | |
18 |
De acuerdo a la regla de correlación el resultado obtenido en los factores de correlación calculada nos determina que existe una correlación en un intervalo entre 0,5 y 1 los que indica que existe una correlación positiva muy fuerte, lo que nos indica que la fuerza de correlación de los datos es muy buena y nos asegura que el método que se ha empleado para realiza la regresión ha sido el correcto por ende el error que se ha obtenido nos corrobora toda la información previa ya que son cifras que indican un error muy depreciable.
Errores.
Total nacional.
Σ(?? − (−604021371,2 + 303200,143(?))
McGRAW HILL.
FAIRES, R. L. (Junio 2003). ANALISIS NUMERICO.
G., S. (s.f.). INTRODUCTION TO APPLIED MATHEMATHICS. ED.
Wesllesley Cambridge press.
Sánchez, A. N. (2002). Métodos Numéricos Aplicados a la Ingeniería.
Spiegel, MR (2010). Sannsynlighet og statistikk.
Last ned originalfilen