Data- og tekstbryting

Nevn hva Data Mining er, og gi en kort beskrivelse av hvert av trinnene og hva er formålet med å bruke denne teknikken.

INTRODUKSJON

I dag har forretningsorganisasjoner mye informasjon som de må håndtere på en mest mulig effektiv måte, blant informasjonen som må håndteres er salg, kunder, samlinger, i tilfelle det er sykehus, pasienter, behandlinger og så videre. Avhengig av hvilken tur organisasjonen er bestemt til, er det derfor å ha en bedre forståelse og kontroll av informasjonen til organisasjonene, datamaskin og lagringsutstyr som personlige datamaskiner, USB-minner, CD-er, flashminner. osv., på samme måte som bruken av disse enhetene gjøres siden investeringseffekten for å anskaffe et av dette utstyret har blitt billigere med årene,Imidlertid gjør det samme siden disse informasjonssystemene blir mye mer pålitelige enn mennesket selv.

All denne informasjonen som er lagret i informasjonssystemene, ligger i databasene som blir brukt i arbeidet med organisasjonene, som kalles operative databaser, som får navnet sitt fordi organisasjonene gjennom dem gjennomfører forskjellige aktiviteter som forsendelse av varer til kunder, studentregistrering, pasientbehandling, innsamlingsprosedyrer og andre.

Når disse operasjonene er utført, blir en rensing utført og informasjonen innhentet gjennom de primære kildene blir oppsummert, som ville være alle oppgavene oppført ovenfor, til innsamling, rensing og sammendrag av informasjon den overføres til det som kalles som datavarehus, som å si en metafor kan være periodiske fotografier som brukes til å ha en forestilling om staten selskapet har vært i, og hvordan man lærer fra fortiden.

Det er på denne måten gründere kan ha ideelle indikatorer for å kontrollere forløpet av selskapet, siden de kan ha muligheten til å undersøke og utforske i mange situasjoner der de kan anses å være av interesse og bekymring for å oppnå målene. forretningsmessige mål.

Slik dukket data mining opp for kort tid siden, noe som hjelper toppsjefene i organisasjoner til å ta de beste beslutningene for selskapet de jobber i. Data mining fungerer gjennom en serie "gruvearbeidere" som er en serie tidligere opprettede algoritmer som har til oppgave å utføre en uttømmende oppgave innen informasjonen som er lagret av organisasjonen i informasjonssystemene, Materialet som disse algoritmene ser etter er ikke annet enn en serie trender, avvik, avvik eller situasjoner som kan være av interesse, noe som kan være ukjent av selskaper. Disse algoritmene eller gruvearbeiderne hjelper ledere med å kunne lede organisasjonen på en enklere måte, og dermed ta den på rett vei.

Gruvearbeiderne bruker “i tillegg til databaser, kunstig intelligens (prosedyrer for å finne grupper i lignende situasjoner, klassifisere nye hendelser i kjente kategorier osv.) Og statistikk. Men i motsetning til sistnevnte, som tar et utvalg av dataene og studerer det, studerer data mining alle dataene. Jo flere data som blir analysert, jo mer nøyaktig er det, og deteksjons- og prediksjonskraften øker. " (Martínez Luna, 2011)

Alt det ovennevnte ble fortalt med hensyn til hva data mining omfatter, men det er en annen type gruvedrift som på samme måte kan hjelpe selskaper med å oppnå de ønskede målene som den har etablert i begynnelsen.

For oss som mennesker er kunnskap et av basene i vår eksistens, som definerer hvor vi skal og også våre ambisjoner. Det meste av kunnskapen som menneskeslekten har generert, er i skriftlig form som kan benevnes som naturlig språk, som er aviser, magasiner, bøker, tekniske rapporter og så videre. Imidlertid er det ikke alle mennesker som har samme evne til å håndtere bibliografisk innhold, slik kan vi si at de mest konvensjonelle oppgavene som alle mennesker er nødvendig hele livet er å samhandle med skrevet for å ha en viss fordel. Ferdighetene som en god leser og informasjonssøker burde ha ville være:

Finn nødvendig informasjon Sammenlign forskjellige informasjonskilder og trekk konklusjoner Administrer tekster, for eksempel oversett, rediger osv. (Montes og Gómez, 2011)

Når man observerer våre mangler med informasjonshåndtering, blir beregningsspråkvitenskap et veldig sterkt verktøy for å hjelpe oss med tekstbehandling, siden informasjonsanalysen gjennom denne teknikken kan utføres automatisk og dermed løse problemene de fleste har.

Akkurat som data mining ser etter en serie mønstre i et datasett, utfører text mining den samme aktiviteten, men tar som data tekstene som kan mates til et datasystem, i tillegg til at de også ser på oppgave å kunne oppdage avvik og assosiasjoner mellom hver av tekstene som kan analyseres.

DATAUTVINNING

Gjennom den digitale tids revolusjon har prosessene for å håndtere informasjon blitt mer effektive enn tidligere, det er slik vi sier at informasjonsprosessen i digitale systemer i utgangspunktet består av fem trinn som er:

Capture Process Store Distribuere sending

Gjennom bruk av databehandling har store organisasjoner rundt om i verden samlet inn store mengder historiske data som er innhentet med erfaring, men informasjonen fortsetter å vokse i beregningsinformasjonssystemer, noe som gjør disse mengdene stadig større.

Imidlertid er håndtering av disse store mengder informasjon noe komplisert, og det er grunnen til at data mining ble født, "det oppstår som et forsøk på å gi mening om eksplosjonen av informasjon som for øyeblikket kan lagres" (Mitra & Acharya, 2003)

Gjennom bruk av teknologi er det således mulig å lagre forskjellige typer data, det være seg bilder, videoer, tekster og numeriske data i et relativt enkelt grensesnitt som gir mulighet for en god multimediahåndtering av informasjonen.

Det kan sies at gjennom denne typen informasjonsblandinger er konvensjonelle statistiske prosesser for å analysere den innhentede informasjonen utilstrekkelig siden statistiske teknikker fokuserer på bruk av prøver, i motsetning til data mining som bruker hele universet av data for å få en bedre forståelse og løsning.

På denne måten kommer vi til definisjonen av hva data mining er, som er “prosessen som tar sikte på å oppdage, trekke ut og lagre relevant informasjon fra store databaser, gjennom søkeprogrammer og identifisering av mønstre og relasjoner. globale, trender, avvik og andre tilsynelatende kaotiske indikatorer som har en forklaring som kan oppdages ved forskjellige teknikker for dette verktøyet. " (Ángeles Larrieta & Santillán Gómez, 2001)

Data mining brukes i selskaper for å kunne dra nytte av verdien av informasjonen som finnes i databasene for å oppdage, som nevnt ovenfor, forhåndsetablerte mønstre slik at topplederne i organisasjonene kan ha bedre kunnskap om virksomheten de leder og dermed gjennomføre mer effektive beslutningsprosesser.

Fordeler ved bruk av datagruving med hensyn til annen teknikk for administrasjon av informasjon

Databehandling stammer fra behovene for å administrere informasjon i databasene til organisasjoner. Denne prosedyren har en rekke fordeler i forhold til andre prosesser som brukes til informasjonsstyring, for eksempel:

Data mining gir seniorbedriftsledere et sett av relasjoner og kunnskap som i mange tilfeller ikke var kjent for å eksistere i organisasjonen. Data mining hjelper selskaper med å velge rutene de vil gå gjennom selskaper, så vel som å oppnå konkurransefortrinn mot sine konkurrenter i markedet, siden informasjon, som bare selskapet vet utelukkende kjenner til, vil være kjent gjennom bruk av data mining. Vi som mennesker har evnen til å oppdage mønstre og avvik på en måte Så for å snakke overfladisk, er det derfor ved å bruke data mining, det vil være mulig å oppfatte på en bedre måte mønstre som ved første øyekast er vanskelige å finne etter vår enkle forståelse.

STRUKTUR AV DATAVIRKNINGEN

Nå, når vi snakker om strukturen for data mining, består den i utgangspunktet av bruk av en algoritme eller et dataprogram for å utføre søkeaktiviteter innenfor de store mengdene informasjon som finnes i databasen.

Bruken av disse programmene og algoritmene er for å kunne oppdage trender og mønstre som på en eller annen måte er skjult i historiske data fra organisasjoner.

Disse programmene er det vi tidligere kalte gruvearbeidere, disse gruvearbeidere, programmer eller algoritmer, er opprettet av brukere der forskjellige datautforskningsteknikker brukes, teknikkene som kan brukes er:

ClusterAssociationsClassificationsVisualizationNeuralnettGeneriske algoritmer Avviksdeteksjon

Alle disse nevnte metoder krever en veldig stor database slik at de kan ha større effektivitet.

Disse programmene har som funksjon å samle informasjonen tidligere innhentet, og som en konsekvens utfører de aktivitetene for valg og søk i de historiske dataene, etter å ha gjort det ovennevnte, hvis noe interessant blir funnet, vises det til brukeren.

"Gruvearbeiderne" har en fordel i forhold til andre informasjonssøkmetoder, som er at de ikke trenger spesialisert programvare for å utføre søk. Disse søkeaktivitetene blir utført på selskapets servere og hele PC-nettverket som brukes til å fange opp data og informasjon.

DATA MINSYKKEL

Data mining fungerer på en syklus som inneholder fire trinn, siden resultatene oppnådd etter syklusens slutt kan føres tilbake til syklusen og så videre.

For det første må brukerne som skal utføre data mining prosessen identifisere problemene som organisasjonen, selskapet eller bedriften har på samme måte, de må finne dataene som kan gi en slags merverdi for selskapet og må også være lokalisert områdene i selskapet der informasjonen er ekstremt foranderlig. Når ovenstående er gjort, vil brukeren bli møtt med oppgaven å oppdage den beste algoritmen som skal brukes til å analysere de historiske dataene som er oppnådd, slik at gruveprogrammene kan fungere effektivt I henhold til de tidligere etablerte søkekriteriene, må informasjonen som er innhentet gjennom data mining-prosessen bli integrert i beslutningsprosesser, og gi funnene som er oppnådd til komiteen som er involvert i å ta beslutninger,På samme måte må kunnskap om de påviste problemene gis til områdene det gjelder, slik at en riktig løsning kan brukes. Til slutt måles en måling av resultatene som er gitt til den personen eller utvalget som har ansvar for å ta beslutninger om i henhold til problemene som er funnet i henhold til de tidligere etablerte søkekriteriene.

BRUKSANVISNINGER OG ANVENDELSER AV DATAINDRING

Noen av de viktigste oppgavene som kan utføres ved bruk av data mining er som følger:

Handel og bank: kundesegmentering, salgsprognose, risikoanalyse. Medisin og apotek: diagnostisering av sykdommer og effektiviteten av behandlinger Sikkerhet og påvisning av svindel: ansiktsgjenkjenning, biometriske identifikasjoner, tilgang til nettverk, etc. Ikke-numerisk innhenting av informasjon: gruvedrift av tekst, gruvedrift av nettet, bilde, video, tale- og tekstsøk og identifikasjon fra multimediedatabaser. Astronomi: identifisering av nye stjerner og galakser. Geologi, gruvedrift, landbruk og fiske: identifisering av bruksområder for forskjellige avlinger eller fiske eller leting i databaser med satellittbilder. Miljøvitenskap:identifisering av modeller for drift av naturlige og / eller kunstige økosystemer (renseanlegg) for å forbedre deres observasjon, styring og / eller kontroll. Samfunnsvitenskap: studier av strømmen av opinionen. Byplanlegging: identifisere nabolag med konflikt basert på sosiodemografiske verdier. (Riquelme, Ruíz, & Gilbert, 2006)

TEKSTMINNING

Tekstbryting er den nyeste delen av forskningsområdet med fokus på tekstbehandling. Definisjonen som kan gis til tekstbryting er veldig lik den for data mining, siden begge søker den samme tingen, men er knyttet til forskjellige typer informasjon.

Tekstbryting er “prosessen med å oppdage interessante mønstre og ny kunnskap i en samling tekster, det vil si tekstbryting er prosessen som har ansvaret for å oppdage kunnskap som ikke eksplisitt finnes i noen tekst i samlingen, men at oppstår ved å relatere innholdet til flere av dem (Hearst, 1999)

Tekstgruveprosessen består i utgangspunktet av to trinn som er:

Behandlingsstadium: I det første trinnet blir tekstene som kan manipuleres transformert til en serie representasjoner strukturert på en slik måte at de fremmer lettere analyser. Oppdagelsesstadium: I dette stadiet blir det utført en analyse av mellomrepresentasjoner, denne oppgaven blir utført for å oppdage og finne interessante mønstre innen tekstene av interesse, samt for å få ny kunnskap.

I henhold til prosedyrene som brukes i tekstbehandlingsstadiet, er det typen innholdsrepresentasjon som vil bli oppnådd. Strategiene som kan brukes for tekstbehandling i data mining, er som følger.

Pre-scenen

tiltale

Representasjonstype

Type funn

1. Kategorisering

2. Fulltekst

3. Utvinning av informasjon

4. Vektortemaer

5. Ordets rekkefølge

6. Datatabell

7. Tematisk nivå

8. Språkmønstre

9. Forhold mellom enheter

Fig. 1.1 State of the art of text mining (Montes og Gómez, 2011)

Som det kan sees i figur 1.1, er de tre typene metoder som eksisterer for tekstanalyse noe begrenset i presentasjonen av resultatene, noe som gjør det veldig vanskelig å oppdage og ha kunnskap om noen mer komplekse ting som f.eks. de kan være:

Konsensus trender avvik

For å få en bedre forståelse av de nevnte, anbefales det imidlertid at du kan benytte deg av konseptuell grafikk, som du kan få en bedre representasjon av de analyserte tekstene med.

Likevel bringer analysen av informasjon i henhold til konseptuell grafikk to typer problemer som er relatert til den syntaktiske analysen og den semantiske analysen av tekster. Noen eksempler på tekster transformert til konseptuell grafikk er:

Deler av vitenskapelige artikler Deler av medisinske poster Deler av juridiske saker

Det er imidlertid ingen metoder som tillater riktig tolkning av konseptuell grafikk, som tekstutvindling kan være en grunnleggende del for behandlingen av denne typen informasjon og gi den best mulig mening i henhold til parametrene som blir brukt. bruker for tekst gruvedrift.

KONKLUSJONER

Som det kan sees, er data mining et veldig viktig verktøy for å kunne tolke instruksjonene til et selskap, med hensyn til historiske data innhentet over tid, vil denne typen gruvedrift kunne oppdage trender som eksisterer om et problem relatert til organisasjon eller kan gi deg en form for fordel med kunnskapen om spesiell eksklusiv informasjon som er oppdaget gjennom bruk av data mining-syklusen, for sin del gir text mining nesten det samme som data mining, men knyttet til oppdagelse av ny kunnskap med utgangspunkt i et stort sett med tekster.

REFERANSER

Ángeles Larrieta, MI, & Santillán Gómez, AM (2001). Databehandling: konsept, egenskaper, struktur og applikasjoner. (1999). Untangling Tet Data Mining Proc. of ACL ´99: The 37th Annual Metting of the Association for Computational Linguistics. Maryland: University of Maryland. Martínez Luna, GL (oktober 2011). Databehandling: Hvordan finne en nål i en høstbakke. (UANL, Red.) Ingenierías, XIV (53), 63. Hentet 23. mars 2016 Mitra, S., & Acharya, T. (2003). Databehandling: multimedia, myk databehandling og bioinformatikk. John Wiley & Sons.Montes y Gómez, M. (2011). Text Mining: En ny beregningsutfordring. México, DF: Instituto Politécnico Nacional, Riquelme, JC, Ruíz, R., & Gilbert, K. (2006). Data mining: konsepter og trender. Kunstig intelligens, 10 (29).

TAKK

Jeg vil takke på en veldig spesiell måte emnet Fundamentals of Administrative Engineering of the Master in Administrative Engineering som jeg studerer ved Technological Institute of Orizaba, men hovedsakelig til min professor Dr. Fernando Aguirre y Hernandez for å oppmuntre ønsket til å undersøke og lese om forskjellige interessante temaer.

Last ned originalfilen