Data, tekst og sentiment gruvedrift

Data mining kan defineres som en prosess for å oppdage nye og betydningsfulle relasjoner, trender og mønstre ved å utforske store datamengder.

Å ha en stor mengde informasjon tilgjengelig, samt bruk av forskjellige dataverktøy, har ført analysen av data til anvendelse av forskjellige spesialiserte teknikker innrammet i det som er kjent som Data mining eller data mining.

data-mining-fra-tekster-og-følelser-ana

Teknikkene som brukes i data mining, tar sikte på automatisk å oppdage kunnskapen som er lagret på en ryddig måte i informasjonen i en stor database. Hovedhensikten er å finne mønstre, profiler og trender ved å analysere data ved hjelp av teknologier som tillater gjenkjennelse av mønstre, nevrale nettverk, uklar logikk, genetiske algoritmer og mange andre avanserte teknikker for dataanalyse.

I dag brukes data mining i mange vitenskapsfelt, på finans- og banknivå, i analyse av markeder og virksomheter, både innen offentlig og privat helse, på utdanningsnivå, i industrielle prosesser, i medisin, biologi og bioingeniør samt innen telekommunikasjon og forskjellige områder. (Perez Lopez & Santín González, 2007)

I dette skrivet vil du gjennomgå begrepet data mining, dets anvendelse og viktighet for beslutninger i organisasjoner.

Hva er data mining?

Data mining er forstått som en gruppe teknikker som brukes til å trekke ut og skaffe gyldig, detaljert og veldig nyttig informasjon som finnes i de forskjellige databasene. Det er veldig nyttig for beslutninger, da det hjelper til med å forutsi fremtidige trender og atferd, noe som gjør det til et kraftig verktøy for organisasjoner.

Data mining eller Data mining som det er kjent på engelsk, forholder prosedyrene som brukes i gruveindustrien for å utvinne mineraler fra jorden ved å gjøre eksplosjoner som får den til å komme opp til overflaten. Etter samme teknikk eksploderer data mining databaser for å hente ut skjult informasjon fra dem.

Ved hjelp av forskjellige algoritmiske verktøy og teknikker søker data mining etter skjulte mønstre av interesse i databaser for å forutse fremtidsutsikter og prognosesituasjoner med en viss grad av sannsynlighet. På denne måten kan forutsigbar informasjon bli funnet som alle, uansett hvor ekspert de ikke lett kan finne. Data mining kan implementeres på hvilken som helst maskinvare- og programvareplattform og kan integreres i online informasjonssystemer. (Reinosa & Maldonado, 2012)

Historie om data mining

Data mining er ikke noe nytt, det har skjedd siden sekstitallet da statistikere brukte begrepene data fishing, data mining eller data archaeology på den tiden; Senere på åttitallet begynte folk å snakke om begrepet KDD, som med sitt akronym på engelsk betyr kunnskapsutvinningsprosess fra data som data mining er en del av. Fra det året ble flere selskaper dedikert til å tilby tjenester relatert til data mining og litt etter litt mange andre dukket opp; Så langt er det mer enn hundre selskaper dedikert til data mining. (Felix, 2002)

Det er en kjent suksesshistorie fra implementering av data mining fra 1992 fra en ansatt i NCR-selskapet som gjennomførte en studie for Osco Drugs of American Stores. Som et resultat av denne studien ble det observert at kjøp av to gjenstander som ikke var relatert til hverandre men som ble båret på samme tid i løpet av 5 til 7 om natten, forekom ofte oftere: bleier og øl. Dette konkluderte da med at mange foreldre som ble sendt for å kjøpe bleier på den tiden, også endte opp med å bære noen få bokser øl, en situasjon som ble brukt av butikken for å plassere kjøleskapet med ølene i nærheten av bleiesjermen for å forbedre nevnte kjøp enten etter valg eller på impuls.Dette er et utvalg av de uventede resultatene som kan bli funnet når du bruker data mining, og beslutningene som organisasjonen din kan ta basert på disse funnene. Det er veldig viktig at organisasjonen er smidig med å bruke de oppnådde resultatene, derfor er datautvinning alene ikke nyttig, med mindre den brukes som den skal være. (Reinosa & Maldonado, 2012)

Business intelligence

Data mining har sitt opphav i informasjonssystemer hvis formål var å samle informasjon om et bestemt emne for å ta beslutninger. Med fremveksten av ny programvare og maskinvare, er organisasjoner datastyrt og informasjonssystemer begynte å støtte de grunnleggende prosessene i selskapet som salg, produksjon, menneskelige ressurser og andre, som kalles informasjonssystemer for styring. Over tid og etter behov for at selskaper skal ha et grunnlag som hjelper dem å ta beslutninger; verktøy dukket opp som oppfyller disse behovene kalt DSS (Decision support system) som EIS og OLAP samt de forskjellige tekniske verktøyene for data mining.

EIS (Executive information systems) er et sett med verktøy og informasjonssystemer som gjør at bedriftsledere har tilgang til statusen til aktiviteter og deres ledelse. De lar deg øyeblikkelig rapportere alle endringer som skjer i selskapet, for dette analyserer den den daglige statusen til organisasjonen gjennom nøkkelindikatorer. Den type informasjon som blir regelmessig bedt om, er vanligvis salg per uke, delvis saldo og lagernivå, og samtidig er den representert med grafer i regneark. (Perez Lopez & Santín González, 2007)

OLAPs (online analytisk prosessering) gir enkel håndtering og transformering av data for å produsere nye data. Målet med OLAP er å effektivisere spørringen om store datamengder.

Verktøy for utvinning av data har som mål å trekke ut mønstre og trender for å forutsi fremtidig atferd. Data mining analyserer dataene mens OLAP og EIS legger til rette for tilgang til informasjon slik at en mer effektiv analyse kan gjøres, noe som betyr at de støtter data mining.

Bruken av hvert verktøy vil avhenge av organisasjonens mål, for dette må det starte fra et grunnleggende spørsmål, som vi kan se i følgende tabell: (Braga, Valencia, & Carvajal, 2009)

For at de nevnte systemene skal fungere, er det nødvendig at det finnes et datavarehus eller et lager som er en samling av interne eller eksterne historiske data, som beskriver en kontekst eller et studieområde orientert mot et domene som gjør det mulig å bruke verktøy for å å beskrive, oppsummere og analysere data som hjelpemiddel i beslutningen.

For å laste inn eller mate dataene, brukes et system som heter ETL (Extraction, transformation, Load) som er ansvarlig for å lese dataene, inkorporere nye data, lage nøkler, etc. Følgende bilde forklarer hvordan disse systemene fungerer

Teknikk for data mining

Teknikk for data mining er klassifisert som prediktiv, beskrivende og hjelpemiddel og er organisert slik de vises i bildet nedenfor

Hvordan lager du en data mining-modell?

For å bruke data mining kan du følge følgende seks trinn:

Definere problemet Forberedelse av data Datautforskning Generasjon av modeller Utforsking og validering av modeller Implementering og oppdatering av modeller

I figuren nedenfor kan du se disse trinnene

Som det fremgår, er dette en syklisk prosess, som betyr at dersom dataene som er funnet ikke er tilstrekkelige for å lage modellen, eller modellene ikke er dekkende for de foreslåtte formålene. De samme trinnene må deretter gjentas for å lage en ny modell.

Definer problemet

Den første tingen å gjøre for å lage en gruvemodell er å definere problemet og vurdere hvordan dataene kan brukes til å løse det.

På dette tidspunktet blir virksomhetens krav analysert, omfanget av problemet definert, måten modellen skal evalueres i tillegg til å etablere de spesifikke målene for data mining-prosjektet. For å gjøre dette kan følgende spørsmål stilles:

Hva ser du etter? Hva slags forhold prøver du å finne? Gjenspeiler problemet å løse problemet politikkene prøver å løse? Hva vil du gjøre fra data mining-modellen? Spådommer, på jakt etter interessante mønstre eller assosiasjoner? Hvilket resultat vil du forutsi? Hvilke data har du og hvilken type informasjon er det i hver kolonne? Hvis det er tabeller, hvordan er de relatert? Må dataene rengjøres, samles eller behandles før de brukes? Hvordan distribueres dataene? Er de sesongbaserte? Representerer de selskapets prosesser nøyaktig?

Forbered dataene

Neste trinn er å konsolidere og rengjøre dataene som ble identifisert i forrige trinn. Disse dataene kan ha uoverensstemmelser eller være vidt spredt, for eksempel at en kunde kjøpte et produkt før det kom på markedet eller at han kjøper i en butikk som ligger 20 000 km fra hjemmet.

Denne opprydningen handler ikke bare om å fjerne data som ikke er gyldige, men også se etter korrelasjoner som er skjult i dataene, identifisere kilden til dataene som er mest nøyaktige, og bestemme hvilke kolonner som er best egnet for analyse.

Utforsk dataene

Du må kjenne til dataene for å kunne ta den beste beslutningen når du lager modeller for data mining, for dette må du bruke leteteknikker som beregning av minimums- og maksimumsverdier, beregne middel- og standardavvik og undersøke distribusjonen av dataene.

Generer modeller

I det fjerde trinnet med data mining er det som gjøres å generere modellen ved å bruke kunnskapen som ble tilegnet i utforskningen av dataene, for dette er det nødvendig å definere hvilke datakolonner som skal brukes for å lage en struktur av data mining.

Utforske og validere modellene

Det neste trinnet i data mining-prosessen er å utforske de tidligere oppnådde modellene og bekrefte at de er effektive før distribusjon. Ved å teste modellene kan du se hvilken som gir bedre resultater for problemet opprinnelig oppstod.

Hvis ingen av modellene som er opprettet fungerer, kan du gå tilbake til de foregående trinnene for å enten revurdere problemet eller undersøke dataene fra det originale settet på nytt.

Distribuer og oppdater modellene

Til slutt må modellene som fungerer best i produksjonsmiljøet implementeres, som kan utføre forskjellige oppgaver i henhold til bedriftens behov.

Blant oppgavene modellen kan utføre er:

Slik lager du spådommer som senere kan brukes til å ta forretningsavgjørelser Lag innholdsspørringer for å hente regler, formler og statistikk fra modellen Legge ned funksjonaliteten til modellen i en applikasjon (Microsoft, 2014)

Søknad om data mining

For øyeblikket kan data mining brukes i forskjellige felt innen:

Gjør økonomisk analyse: den brukes i bank- eller finanssektoren, og det som søkes er å gi data som det er mulig å gjøre pålitelige systematiske analyser. Med dette er det mulig å forutsi lånebetalinger, analysere kundekredittpolicyer, klassifisere og gruppere kunder for å lage spesialiserte tilbud og oppdage mulige svindel og økonomiske forbrytelser. I detaljhandelen: butikker dedikert til denne typen aktiviteter samles daglig mye informasjon fra salg, kjøpshistorikk og godstransport. Med disse dataene kan det gjøres spådommer som gjør at butikker kan tilby en bedre service og lette oppbevaringen deres. Data mining kan i disse tilfellene gjøre:
- Analyse av salg, kunder, produkter, tid og region Analyser effektiviteten av salgskampanjer Anbefaler produkter på en personlig måte
Innen telekommunikasjon: i denne sektoren kan data mining brukes til å identifisere telekommunikasjonsmønstre, det hjelper til med å lette oppdagelsen av uredelige aktiviteter og utnytter ressursene bedre, og forbedrer dermed tjenestekvaliteten. (Lantares, 2014)

Hva er tekstbryting?

Tekstbryting er plassering, analyse og organisering av informasjon for å lage ny informasjon som ikke kan sees tydelig når du gjennomgår dokumenter. Den nye informasjonen som er oppnådd kan være et mønster, en trend eller en korrelasjon som ikke bare kan identifiseres ved å lese dokumentene, som kan være internettsider, e-postmeldinger, et felt i databasene eller en tekstfil uten noe format.

Tekstbryting eller tekstbryting omfatter tre grunnleggende aktiviteter som er:

Hent informasjonen: velg passende tekster Pakk ut informasjonen i disse tekstene: nøkkeldata, fakta og hendelser Bruk datautvinning for å finne assosiasjoner mellom disse nøkkeltekstene (galeon.com, 2016)

Hvordan gjøres tekstbryting?

Følgende fire trinn kan følges for å implementere data mining:

Første trinn: Målene er etablert for å tydeliggjøre hva som søkes i etterforskningen og for å etablere grensene og begrensningen i hvilken grad det er ønsket å utdype.

Andre trinn: Behandle dataene ved å velge, analysere og redusere tekstene eller dokumentene informasjonen vil bli hentet fra. Dette er scenen som bruker mest tid

Tredje trinn: Spesifiser hvilken modell eller teknikk som skal brukes, dette vil avhenge av målene som er satt og oppgavene som skal utføres

Fjerde trinn: Resultatene blir analysert for å bruke informasjonen som er funnet for å ta de beslutningene som passer best for organisasjonen. (galeon.com, 2016)

Søknad om tekstbryting

For å trekke ut informasjon: den kan brukes til å trekke ut informasjon fra store mengder tekst som finnes på nettet, og dermed tillate definisjon av enheter og deres forhold, avsløre betydelig informasjon og lette forståelsen av dataene Klassifiser dokumenter: lar deg hente og navigere i dokumenter, spesielt i selskaper som holder en historisk oversikt over sine aktiviteter og prosjekter i dokumenter. For dette brukes tekstbrytningsalgoritmer som grupperer dokumentene og skaffer beskrivende informasjon fra hver enkelt av hver gruppe for bedre å forstå dem. Forberedelse av sammendrag: en generell beskrivelse av et sett med dokumenter kan fås angående et spesifikt emne.Slik sett kan disse metodene klassifiseres i to kategorier: uttrekkende oppsummering og abstrakt oppsummering Kunnskapsutvinning: ved bruk av tekstbryting er det mulig å lage kunnskapsmodeller fra informasjonen hentet fra dokumentene.

Hva er følelse eller meningsbrytning?

Opinion eller sentiment mining kan defineres som bruken av en serie teknikker for naturlig språkbehandling, beregningsspråklig tekst og gruvedrift av tekst, som har som mål å hente ut subjektiv informasjon fra informasjon som publiseres av folk, enten i blogger eller gjennomganger av produkter på nettet. Fra denne analysen kan du få viktig informasjon, enten den er positiv eller negativ.

Når gruvedriftens meninger eller følelser brukes, brukes tekstbryting og kan gjøres på to måter:

Polaritetsdeteksjon: Målet er å fastslå om en mening er negativ eller positiv og samtidig prøve å oppnå en numerisk verdi innenfor et etablert område for å oppnå en vurdering knyttet til en viss mening. Analyse av sentiment basert på kjennetegn: dens mål er kunne fastslå hva kjennetegnene til et produkt er basert på gjennomgang eller mening fra brukerne, og med hver av disse egenskapene oppnå en polaritet. (Brainsins, 2015)

konklusjon

Data-, tekst- og sentimentutvinning gir svært nyttige verktøy for å analysere data og tekster som samtidig gjør det mulig å identifisere atferdsmønstre som hjelper beslutningen. Det er mange bruksområder som kan gis til data, tekst og sentiment gruvedrift, men det er opp til hver organisasjon å bestemme hvilken type teknikk som skal brukes basert på den innledende tilnærmingen til et problem.

Bibliografi

Braga, LP, Valencia, LI, & Carvajal, SS (2009). Introduksjon til data mining. Sao Pablo: National Union of Publishers Brainsins. (2015). Mottatt fra: http://www.brainsins.com/es/blog/mineriaopiniones/3555Cesar Perez Lopez, DS (2007). Data mining: teknikker og verktøy. Madrid: International Thompson Ediciones Paraninfo saEnrique Jose Reinosa, CA (2012). Database. Mexico: Allfaomega.galeon.com. (02 av 04 2016). Galeon.com. Mottatt fra: http://textmining.galeon.com/Lantares. (2014). Mottatt fra http://www.lantares.com/blog/mineria-de-datosaplicaciones-que-ya-son-una-realidadMicrosoft. (2014). Mottatt fra: https://msdn.microsoft.com/esmx/library/ms174949%28v=sql.120%29.aspxPerez Lopez, C., & Santín González, D. (2007). Databehandling: teknikker og verktøy. Madrid:Thomson International Editions Paraninfo.

Takk

Til Technological Institute of Orizaba for å gi meg muligheten til å trene profesjonelt og til professor Fernando Aguirre y Hernández for all kunnskapen han har delt med oss i faget sitt Fundamentals of Administrative Engineering for å lære og perfeksjonere mine ferdigheter til å skrive vitenskapelige artikler av høy kvalitet.

Bilde hentet fra boken Introduksjon til datamining Luis Pablo Vieira Braga og andre. 2009

Bilde hentet fra boken Data Mining: Techniques and Tools av César Perez López og Daniel Santín González

Last ned originalfilen