Datautvinning. informasjon som uvurderlig eiendel

Informasjon som et uvurderlig aktivum

Innenfor nyklassisistiske økonomiske modeller florerer det av en antakelse som gjør det mulig å etablere forhold for å forklare agenter i markedet. Imidlertid finnes denne antagelsen sjelden i reelle situasjoner: Denne antakelsen er perfekt informasjon.

I en ideell verden har alle agentene som konkurrerer i markedet, perfekt kunnskap om forbrukernes preferanser og konkurrentenes beslutninger. Videre er forbrukere perfekt klar over alle hendelsene som skjer i markedet og tar beslutninger basert på denne perfekte informasjonen.

Perfekt informasjon refererer til en situasjon der alle agenter er fullstendig klar over alle hendelsene som skjedde i markedet. Perfekt informasjon er imidlertid en umulig situasjon å oppnå fordi markedene er i konstant og ustoppelig transformasjon.

Bedrifter har behov for å generere metodologier som lar dem definere trender og preferanser hos sine potensielle forbrukere, samt analysere potensielle bevegelser til konkurrentene. Å vite alle disse variablene er uvurderlig for det aktuelle selskapet fordi overlevelsen og veksten av selskapet er knyttet til beslutningene som tas.

Imidlertid har markedsinformasjon en tendens til å være så statisk som mulig. På grunn av sosiale trender, politiske bevegelser, religiøs tro og ideologiske trender, tilpasser forbrukerne stadig ideene og preferansene sine. Derfor er det ikke en garanti for at denne informasjonen forblir aktuell på lang sikt, å kjenne til markedspreferansene på et bestemt tidspunkt.

Bedrifter må utforme verktøy som lar dem skaffe og analysere store mengder informasjon for å identifisere trender som lar dem ta et best mulig valg. I en verden der det er millioner av forskjellige preferanser, må selskaper velge alternativet som lar dem tilfredsstille så mange kunder som mulig.

Å ha riktig informasjon lar enkeltmennesker ta passende beslutninger for hver situasjon. I et scenario der det mangler tilstrekkelig informasjon, er det tydelig at trenden har en tendens til å mislykkes eller flaks. Fordi informasjon er avgjørende for å ta beslutninger, er verdien uberegnelig.

I den virkelige verden er perfekt informasjon et ikke-eksisterende element. Informasjon har en kostnad, og selskapene må inkludere utgiftene for å innhente relevant informasjon i kostnadene sine. En organisasjon som innhenter informasjon effektivt er en organisasjon med uendelig potensial.

Hvordan kan selskaper få informasjon om markedstrender? Med teknologisk utvikling er brukerne stadig nærmere selskap. For noen år siden skaffet selskaper dataene sine gjennom undersøkelser utført av seg selv med sine forbrukere. Imidlertid, med introduksjonen av Internett som et middel for massekommunikasjon, kan enkeltpersoner vise sine preferanser gjennom sosiale nettverk på hvilke måter å identifisere preferanser brukes.

Bedrifter kan skaffe markedsinformasjon på forskjellige måter, som, avhengig av metodikk og størrelse på valgt utvalg, har en annen grad av sannhet. Imidlertid vil disse analysene vanligvis resultere i en stor rå database, hvorfra en trend ikke kan oppnås med det blotte øye.

For å analysere en database, som inneholder millioner av kvalitative og kvantitative data, er det nødvendig å bruke metoder som lar oss identifisere de viktigste delene av informasjonen, trender og muligheter. Det er en analogi mellom databaseanalyse og gruvedrift. En stor mengde ressurser brukes i gruvedrift, men de krever spesifikk planlegging for å bli brukt.

Et gruveselskap bruker ikke millioner av dollar på å grave ut uten å først foreta en spesifikk analyse av undergrunnen. Selskapet kommer ikke tilfeldig inn i et territorium og starter en gruve. På samme måte har en dataanalytiker spesifikke metoder som unngår å utføre en analyse der han bruker ekstra ressurser.

Data mining er en prosess som involverer flere vitenskaper og disipliner som spenner fra psykologi, gjennom statistikk, databehandling, matematikk, selv ved bruk av anvendt teknologi innen kunstig intelligens. Målet med data mining er å identifisere trender som lar analytikere ta riktige beslutninger.

Bruken av data mining tilsvarer ikke bare markedsanalyse, dette verktøyet kan brukes i enhver undersøkelse som krever analyse av store mengder informasjon. I løpet av dette korte essayet vil imidlertid bruken av verktøyet bli analysert i sammenheng med markeder og organisasjoner.

Hva er data mining?

Når man tar hensyn til analogien der det refereres til noen få ledd, kan man konstruere et vagt konsept av hva data mining er. I følge Vallejos (2006, s. 11), som siterer Fayyad og andre (1996), definerer det at data mining er “En ikke-triviell prosess med identifikasjonsgyldighet, ny, potensielt nyttig og forståelig for forståelige mønstre funnet skjult i data. "

Denne tekniske definisjonen tilbyr visse grunnleggende konsepter for å forstå bruken av verktøyet. Vallejos (2006) siterer også Molina og andre (2001) for å forklare konseptet fra forretningsmessig synsvinkel, og definerer konseptet som: “Integrering av et sett med områder som har til formål å identifisere et sett med områder fra databaser som gir en skjevhet mot beslutningstaking. "

Hensikten med data mining er analysen av tilgjengelig informasjon som søker å finne mønstre som bestemmer flyten av handlinger fra organisasjoner. Data mining er ett trinn i en mye større prosess, kjent som kunnskapsutvinning fra databaser.

Fagområdene som involverer databaseanalyse inkluderer statistikk, kunstig intelligens, datagrafikk og massiv prosessorkraft. Det ville være umulig å tenke på en adekvat dataanalysemetodikk uten en regnekraft som er i stand til å håndtere og beregne millioner av resultater per minutt.

I følge Vallejos (2006) er imidlertid ideen om data mining ikke et konsept som oppstår fra fødselen til moderne databehandling. For å forklare begrepene data mining er det nødvendig å forstå begrepet "kunnskapsfunn i databaser ". Dette konseptet er et grunnleggende element for å kunne utføre riktig dataanalyse basert på riktige metoder.

Kunnskapsoppdagelse i databaser

Med utviklingen av databehandling i det 20. århundre har kostnadene for lagring av informasjon sunket betydelig i tillegg til å redusere kostnadene for å behandle selve informasjonen. Med reduksjonen i kostnadene har analysen av selve informasjonen blitt transformert til det er mulig å gjennomføre svært detaljerte studier til reduserte kostnader.

Det er imidlertid ubrukelig å ha en stor mengde data hvis du ikke kan analysere den skjulte informasjonen som mønstrene danner i råinformasjonen. Den virkelige verdien av dataene ligger i informasjonen som kan hentes ut fra den. Vellykkede virksomheter er basert på riktig utforsking av mønstre og beslutninger basert på forventning og forberedelse.

I følge Vallejos (2006) har evnen til å produsere og analysere verdens informasjon vokst så mye at den dobles hver 20. måned. Organisasjoner utfører SQL-sekvenserfor å få grunnleggende informasjon. De krever imidlertid mer avanserte teknikker for å kunne definere de viktigste trendene i dataene.

CBD ifølge Vallejos (2006) har som mål å automatisk behandle store datamengder for å finne nyttig kunnskap i dem. På denne måten kan brukeren bruke informasjonen for deres bekvemmelighet. Kunnskap har et spesifikt hierarki som må analyseres fra det generelle til det spesifikke.

Teknikker basert på data mining

Grunnleggende for data mining er resultatet av en lang forskningsprosess. Utviklingen av teknikkene begynte da informasjonen ble lagret i et datautstyr. Data mining avhenger av 3 teknologier som er:

Massiv datainnsamling Kraftige mikroprosessorcomputere Data mining algoritmer

Vallejos (2006) nevner at databaser med kommersiell tilgjengelighet vokser med en enestående hastighet. Data mining algoritmer finner en måte å bevisst overvinne klassiske statistiske metoder.

De viktigste kjennetegnene og målene for data mining er følgende: (Vallejos, 2006)

Utforsk data dypt inne i databaser som er lagret i datavarehus. Data kan hentes fra internett- eller intranettkilder. Data mining-miljøet opprettholder klient-server-arkitektur. Verktøy tillater utvinne malm fra informasjon begravet i offentlige poster Miner er en sluttbruker som er bemyndiget av dataøvelser Graving gjennom data gir mulighet for uventede resultater Datagruververktøy kombineres enkelt og hensiktsmessig analyseres Gruvedrift produserer 5 typer informasjon o Foreninger o Sekvenser o Klassifiseringer o Grupperinger eller prognoser

Data mining sparer en vitenskapelig metode, fordi den formulerer hypotesen der eksperimentet er designet for å samle inn data. Med dette systemet kan du få ny kunnskap. Data mining presenterer en utforskende og ikke en bekreftende tilnærming.

Omfanget av data mining

Databehandlingsteknologi har hatt flere fremskritt de siste årene. Med dagens teknologi kan nye forretningsmuligheter genereres ved å tilby nye muligheter. Imidlertid øker kostnadene for data mining med økningen i spesialiseringsgraden. I følge Vallejos (2006) er omfangene følgende:

Automatisk trend- og atferdsprediksjon:

Data mining kan du automatisere prosessen med å finne forutsigbar informasjon i store databaser. Spørsmål krever vanligvis manuell analyse, men de kan nå besvares direkte.

Et eksempel der denne analysen blir observert er når systematisk markedsføring gjennomføres med sikte på mål. Data mining bruker resultatanalyse for å målrette mot nye markedsføringskampanjer. Med denne teknikken kan vi identifisere atferden til bestemte befolkningsektorer og gjenta atferden deres.

Automatisk oppdagelse av tidligere kjente modeller:

Data mining-verktøy lar deg identifisere tidligere kjente modeller i ett trinn. Denne metoden kan også identifisere falske transaksjoner i banksystemer og finne unormalt.

Automatisk masseanalyse:

Når automatiseringsteknikker implementeres i parallelle prosesseringssystemer, er det mulig å analysere databaser på få minutter. Brukere har muligheten til å utføre automatisert analyse i stadig mer kompliserte minutter. Denne høye hastigheten gir bedre spådommer.

Hvordan løse et problem med data mining?

Etter å ha definert at data mining er en prosess som det er mulig å oppdage informasjon i store datasett, kan vi nærme oss metodikken som brukes av verktøyet. Vi må være klar over at den grunnleggende fremgangen til gruvedrift er å analysere komplekse forhold som ikke er synlige med konvensjonelle teknikker.

Microsofts SQL-server (Microsoft, 2014) tilbyr oss en metodikk som er lett å forstå for nybegynnere innen dataanalyse. Som vi nevnte tidligere, har SQL-sekvenser et stort verktøy når det gjelder å utføre enkle analyser, men mer avanserte teknikker er nødvendige for å få all informasjonen. I dette tilfellet vil vi analysere SQL-metodikken på en innledende måte.

For å utføre en data mining-modell er det nødvendig å definere følgende øyeblikk (Microsoft, 2014):

Definer problemet Forbered dataene Utforsk dataene Generer modeller Utforsk og valider modellene Distribuer og oppdater modellene

Denne prosessen er imidlertid ikke enveis, men er syklisk. Etter implementering av modellen er det nødvendig å utføre prosessen på nytt for å bekrefte at utvikling av nye modeller er mulig. Databehandlingen som SQL tillater å utføre har en tendens til å forbedre seg selv.

Definere problemet:

Det første trinnet i data mining-prosessen, som fremhevet i diagrammet nedenfor, er å tydelig definere problemet og vurdere måter å bruke dataene på for å gi et svar på problemet. (Microsoft, 2014)

Forberede dataene:

Rengjøring av data innebærer ikke bare å fjerne ugyldige data eller interpolere manglende verdier, men også å se etter skjulte korrelasjoner i dataene, identifisere datakildene som er mest nøyaktige og bestemme hvilke kolonner som er best egnet for analyse. (Microsoft, 2014)

Utforske dataene:

Ved å utforske dataene for å forstå forretningsproblemet, kan du bestemme om datasettet inneholder dårlige data, og deretter kan du finne opp en strategi for å rette opp problemene eller få en mer dyptgående beskrivelse av atferden som er typisk for bedriften din. (Microsoft, 2014) Genererer modellen:

Før prosessering av strukturen og modellen er en gruvemodell ganske enkelt en beholder som spesifiserer kolonnene som blir brukt for inndata, attributtet som den forutsier, og parametere som forteller algoritmen hvordan dataene skal behandles. (Microsoft, 2014)

Utnytte og validere modellen:

Treningsdatasettet brukes til å bygge modellen, og testdatasettet brukes til å sjekke nøyaktigheten til modellen ved å lage prediksjonsspørsmål. (Microsoft, 2014)

Implementering og oppdatering av modellen:

Når gruvemodellene er i produksjonsmiljøet, kan du utføre forskjellige oppgaver, avhengig av dine behov, for eksempel å bruke prediksjonsmodeller, lage statistiske spørsmål eller lage rapporter. (Microsoft, 2014)

Framtiden for dataanalyse

Med utviklingen av sosiale medier har individer med tilstrekkelig kjøpekraft til å få tilgang til internett blitt en uendelig og uvurderlig kilde til informasjon. For øyeblikket legger brukerne selv ut sin smak og forbruksvaner over Internett, noe som gjør det lettere å skaffe data.

Med denne typen kontroll innen informasjonssystemer, har selskaper muligheten til å kjenne forbruksvanene til hver enkelt og generere reklame i samsvar med det som er demonstrert i informasjonen som brukeren gjør tilgjengelig.

For øyeblikket er internettreklame hovedsakelig basert på individuell undersøkelse av individers preferanser. Det er viktig at utviklingen av data mining gjør det mulig å generere systemer som ikke bare identifiserer trender, men også identifiserer individuell atferd.

Oppgaveforslag:

Temaet foreslås: "Data mining: Bruk verktøy for markedsføring som er orientert til den enkelte forbruker" for å utvikle data mining-verktøy som gjør det mulig å administrere informasjonen som er tilgjengelig gjennom sosiale nettverk og fokusere dem på målrettede annonseringsmål.

Målene med oppgaven er:

Utvikling av data mining Utvikling av markedsføringsteknikker Teknisk anvendelse av dataanalyse

Bibliografi

Microsoft. (2014). SQL server 2014. Mottatt fra

Tips og tips. (2012). Grunnleggende uttalelser i SQL. Hentet fra

Vallejos, S. (2006). National University of the Northeast. Innhentet fra Data Mining:

exa.unne.edu.ar/informatica/SO/Mineria_Datos_Vallejos.pdf

SQL-setninger er et deklarativt språk for tilgang til databaser, som lar deg spesifisere forskjellige typer operasjoner. Disse setningene tillater håndtering av algebra og relasjonsberegning for å hente informasjon. Kilde: (Tips And Tips, 2012).

Last ned originalfilen