Data- og informasjonsutvinning

Enkel definisjon av gruvedrift:

Prosessen eller virksomheten med å grave i miner for mineraler, metaller, smykker, etc.

Data Mining: Hva er Data Mining?

Oversikt

Generelt er data mining (noen ganger kalt data eller kunnskapsfunn) prosessen med å analysere data fra forskjellige perspektiver og oppsummere til nyttig informasjon, informasjon som kan brukes til å øke inntektene, redusere kostnadene eller begge deler.. Databehandling programvare er et av en serie analyseverktøy for dataanalyse. Det gjør det mulig for brukere å analysere data fra mange forskjellige dimensjoner eller vinkler, kategorisere dem og oppsummere de identifiserte sammenhengene. Teknisk er data mining prosessen med å finne korrelasjoner mellom mønstre eller felt i store relasjonsdatabaser.

Kontinuerlig innovasjon

Selv om data mining er et relativt nytt begrep, er det ikke teknologi. Bedrifter har brukt kraftige datamaskiner for å sile gjennom mengder skandata for supermarkeder og analysere markedsundersøkelsesrapporter i årevis. Fortsatt innovasjoner innen datakraft, disklagring og statistisk programvare øker imidlertid analysens nøyaktighet dramatisk og reduserer kostnadene.

Eksempel

For eksempel bruker en supermarkedskjede i Midwest Orakles programvare for gruvedrift av data for å analysere lokale shoppingmønstre. De fant ut at når menn kjøpte bleier på torsdager og lørdager, hadde de også en tendens til å kjøpe øl. En mer detaljert analyse viste at disse kundene typisk handlet ukentlig på lørdager. På torsdager har de imidlertid bare kjøpt noen få varer. Forhandleren konkluderte med at den skulle kjøpe ølet for å ha det tilgjengelig neste helg. Supermarkedskjeden kan bruke denne nyoppdagede informasjonen på flere måter for å øke inntektene. For eksempel kunne de flytte ølskjermen nærmere bleieskjermen. OG,De kunne sørge for at ølet og bleiene selges full pris på torsdager.

Grunnleggende om data mining

Teknikk for data mining er resultatet av en lang prosess med forskning og produktutvikling. Denne utviklingen begynte da forretningsdata først ble lagret på datamaskiner, fortsatte med forbedringer i datatilgang, og mer nylig skapte teknologier som lar brukere navigere gjennom dataene sine i sanntid. Data mining tar denne evolusjonsprosessen utover tilgang til retrospektive og navigasjonsdata for å levere fremtidsrettet og proaktiv informasjon. Data mining er klar til bruk i næringslivet, ettersom den er avhengig av tre teknologier som allerede er modne nok:

Massiv datainnsamling Datamaskiner med flere kraftige prosessorer Data mining algoritmer

Forretningsdatabaser vokser med enestående hastighet. En fersk META-gruppeundersøkelse av datalagringsprosjekter fant at 19% av de spurte er utenfor 50 gigabyte-nivået, mens 59% regner med å være der. I noen bransjer, som detaljhandel, kan disse tallene være mye høyere. Behovet for støtte for forbedring av beregningsmotorer kan dekkes på en kostnadseffektiv måte med datateknologi med flere prosessorer i parallell. Data mining algoritmer inneholder teknikker som har eksistert i minst 10 år, men som nylig er implementert som modne, pålitelige og forståelige verktøy som langt overgår eldre statistiske metoder.

I utviklingen fra forretningsdata til forretningsinformasjon har hvert nye trinn bygd på det forrige. For eksempel er dynamisk datatilgang avgjørende for gjennomgang i datavigasjonsapplikasjoner, og muligheten til å lagre store databaser er avgjørende for data mining.

Data, informasjon og kunnskap

Data

Data er fakta, tall eller tekst som kan behandles av en datamaskin. I dag samler organisasjoner store mengder data i forskjellige formater og forskjellige databaser i vekst. Dette inkluderer:

Drifts- eller transaksjonsdata, for eksempel salg, kostnader, varebeholdning, lønn og regnskap Ikke-operasjonelle data, for eksempel bransjesalg, prognosedata og makroøkonomiske data Metadata, data om data i ja, for eksempel logisk databaseoppsett eller definisjoner av dataordbøker

informasjon

Mønstrene, assosiasjonene eller forholdene mellom alle disse dataene kan gi informasjon. Analyse av datapunktet for detaljhandelstransaksjoner kan for eksempel gi informasjon om hvilke produkter som selger og når.

Kunnskap

Informasjon kan konverteres til kunnskap om historiske mønstre og fremtidige trender. For eksempel kan sammendragsinformasjon om salg av supermarkeder analyseres i lys av salgsfremmende tiltak for å gi innsikt i kjøpeatferd hos forbrukere. Derfor kan en produsent eller forhandler bestemme hvilke varer som er mest utsatt for salgsfremmende innsats.

Datavarehus

Spektakulære fremskritt innen datafangst, prosessorkraft, dataoverføring og lagringsfunksjoner gjør det mulig for selskaper å integrere sine forskjellige databaser i datalagringsenheter. Datalagring er definert som en sentralisert prosess for datahåndtering og gjenfinning. Datavarehus, som data mining, er et relativt nytt begrep, selv om konseptet i seg selv har eksistert i mange år. Datavarehus representerer en ideell visjon om å opprettholde et sentralt lager for alle organisasjonens data. Sentralisering av data er nødvendig for å maksimere brukertilgang og analyse. Spektakulære fremskritt innen teknologi gjør denne visjonen til virkelighet for mange selskaper. OG,Like dramatiske fremskritt innen dataanalyseprogramvare gjør det mulig for brukere å få tilgang til denne informasjonen fritt. Programvare for dataanalyse er det som støtter data mining.

Hva kan data mining gjøre?

Data mining brukes primært av selskaper med sterkt forbrukerfokus (detaljhandel, finans, kommunikasjon og markedsføring). Det gjør disse selskapene i stand til å bestemme forholdet mellom "interne" faktorer som pris, produktposisjonering eller personalkompetanse, og "eksterne" faktorer, for eksempel økonomiske indikatorer, konkurranse og kundedemografi. Og det gjør at de kan bestemme påvirkningen på salg, kundetilfredshet og bedriftens fortjeneste. Til slutt lar det dem "bore ned" til sammendragsinformasjonen for å se detaljerte transaksjonsdata.

Med data mining kan en forhandler bruke kundenes kjøp POS-poster for å sende ut spesifikke kampanjer basert på en persons kjøpshistorikk. Ved å utvinne kommentarer eller garantikortdemografier, kunne forhandleren utvikle produkter og kampanjer for å appellere til spesifikke kundesegmenter.

For eksempel er Blockbuster Entertainment mining den historiske videoutleiedatabasen som de individuelt vil anbefale til kunder på ferien. American Express kan foreslå produkter til kortholderne basert på analysen av de månedlige utgiftene.

WalMart er en pioner innen massiv data mining for å transformere leverandørforholdene. WalMart fanger salgs-transaksjoner fra mer enn 2900 butikker i 6 land og strømmer kontinuerlig disse dataene til de enorme 7,5 terabytene Teradata-datalagring. WalMart lar mer enn 3500 leverandører få tilgang til data om produktene sine og utføre dataanalyse. Disse leverandørene bruker disse dataene for å identifisere kundens kjøpsmønstre på butikkens visningsnivå. De bruker denne informasjonen til å administrere lokalt lagerbeholdning og identifisere nye markedsføringsmuligheter. I 1995 behandlet WalMart-team mer enn 1 million komplekse datasøknader.

National Basketball Association (NBA) utforsker en applikasjon for data mining som kan brukes i forbindelse med bildeopptak av basketballspill. Avansert nettleserprogramvare analyserer spillerbevegelser for å hjelpe trenere med å orkestrere spill og strategier. For eksempel en analyse av play-by-play arket fra spillet mellom New York Knicks og Cleveland Cavaliers 6. januar 1995, er at da Mark Price spilte vaktposisjon, forsøkte John Williams fire skudd på hopp og gjorde hver og en. Ikke bare finner Advanced dette mønsteret, men det blir forklart at det er interessant fordi det skiller seg betydelig fra 49,30% gjennomsnittlig skyteprosent for Cavaliers i løpet av det spillet.

Ved å bruke NBAs universelle klokke, kan en trener automatisk bruke videoklipp som viser hvert av skuddene som Williams forsøkte, uten å gå igjennom flere timer med video. Disse klippene viser et meget vellykket pick-and-roll-spill der Price avvæpner Knicks forsvar og deretter finner Williams for et åpent skuddhopp.

Hvordan fungerer gruvedrift?

Mens storskala informasjonsteknologi har utviklet seg, analysesystemer og transaksjoner skilles ut, gir data mining en kobling mellom de to. Databehandling programvare analyserer forhold og mønstre i lagrede transaksjonsdata basert på spørsmål fra udefinerte brukere. Det er flere typer analyseprogramvare som er tilgjengelig: statistikk, maskinlæring og nevrale nettverk. Generelt søkes hvilken som helst av de fire typer forhold:

Klasser: Lagrede data brukes til å lokalisere data i forhåndsbestemte grupper. For eksempel kan en restaurantkjede trekke ut kundekjøpsdata for å avgjøre når kunder besøker og hva de vanligvis bestiller. Denne informasjonen kan brukes til å øke trafikken, for å ha tilbud om dagen.

Grupper: Dataelementer grupperes i henhold til logiske forhold eller forbrukerpreferanser. For eksempel kan data trekkes ut for å identifisere markedssegmenter eller forbrukeraffiniteter.

Foreninger: Data kan trekkes ut for å identifisere assosiasjoner. Eksempel på ølbleie er et eksempel på assosiativ gruvedrift.

Sekvensielle mønstre: Data er hentet fra å foregripe trender og atferdsmønstre. For eksempel kan en utendørsutstyrsforhandler forutsi sannsynligheten for at en ryggsekk blir kjøpt basert på forbrukerens kjøp av soveposer og tursko.

Databehandling består av fem hovedelementer:

Pakk ut og transformer data fra godstransaksjoner til datalagringssystemet Lagre og administrer data i et flerdimensjonalt databasesystem Gi tilgang til data, forretningsanalytikere og fagfolk innen informasjonsteknologi. Analyser dataene med en programvare Presentere dataene i et nyttig format, for eksempel en graf eller en tabell.

Ulike nivåer av analyse er tilgjengelige:

Kunstige nevrale nettverk: ikke-lineære prediktive modeller som lærer gjennom trening og ligner biologiske nevrale nettverk i struktur. Genetiske algoritmer: optimaliseringsteknikker som bruker prosesser som genetisk kombinasjon, mutasjon og naturlig seleksjon i en design basert på begrepene naturlig utvikling Beslutningstrær: trelignende strukturer som representerer sett med beslutninger. Disse beslutningene genererer regler for klassifisering av et datasett. Spesifikke beslutnings tre-metoder inkluderer klassifisering og regresjonstrær (CART) og automatisk Chi-square Detection Interaction (CHAID). CART og CHAID er beslutningstreeteknikker som brukes for klassifisering av et datasett.De gir et sett med regler som kan brukes på et nytt (uklassifisert) datasett for å forutsi hvilke poster som vil ha et gitt resultat. CART-segmenter er et datasett ved å opprette en 2-skivebane, mens CHAID-segmenter bruker chi-square-tester for å lage flere skiverbaner. CART krever vanligvis mindre dataforberedelse enn CHAID. Nærmeste nabometode: En teknikk som klassifiserer hver post i et datasett basert på en kombinasjon av k-klassene til kortet / kortene som ligner mest på det i et sett med historiske data (hvor k 1). Det kalles noen ganger k-nærmeste naboteknikk Regelinduksjon: Utdrag av nyttige regler fra dataene basert på statistisk betydning. Datavisualisering:Den visuelle tolkningen av komplekse relasjoner i flerdimensjonale data. Grafiske verktøy brukes til å illustrere dataforhold.

Hvilken teknologisk infrastruktur kreves?

I dag er data mining applikasjoner tilgjengelige i alle størrelsessystemer for mainframe, client / server og PC plattformer. Prisene for systemer varierer fra flere tusen dollar for de minste applikasjonene til 1 million dollar per terabyte for de største. Bruksområder i hele bedriften varierer vanligvis i størrelse fra 10 gigabyte til mer enn 11 terabyte. NCR har kapasitet til å levere applikasjoner på mer enn 100 terabyte. Det er to kritiske teknologiske faktorer:

Databasestørrelse: jo mer data blir behandlet og vedlikeholdt, jo kraftigere er systemet som kreves. Kompleksiteten i spørringen: jo mer komplekse spørsmålene og jo større antall spørsmål som behandles, jo kraftigere er det det nødvendige systemet.

Relasjonell databaselagring og styringsteknologi er egnet for mange applikasjoner for data mining for mindre enn 50 gigabyte. Imidlertid må denne infrastrukturen forbedres betydelig for å støtte de største applikasjonene. Noen leverandører har lagt til omfattende indekseringsmuligheter for å forbedre spørsmålets ytelse. Andre bruker nye maskinvarearkitekturer, for eksempel massivt parallelle prosessorer (MPP) for å oppnå forbedringer i størrelsesorden i spørringstiden. For eksempel kobler NCRs MPP-systemer hundrevis av hurtighastighets Pentium-prosessorer for å oppnå ytelsesnivåer høyere enn de største superdatamaskinene.

Tekst gruvedrift

Tekstbryting er et nytt fremvoksende felt som prøver å trekke ut meningsfull informasjon fra språkets naturlige tekst. Det kan bredt karakteriseres som prosessen med å analysere tekst for å trekke ut informasjon som er nyttig for spesielle formål. Sammenlignet med den type data som er lagret i databaser, er tekst strukturert, amorf og vanskelig å håndtere algoritmisk. I moderne kultur er imidlertid teksten det vanligste kjøretøyet for den formelle utvekslingen av informasjon. Tekstgruvedriftens felt omhandler generelt tekster hvis funksjon er kommunikasjon av fakta, informasjon eller meninger, og motivasjonen for å prøve å hente ut informasjon fra denne teksten automatisk er overbevisende, selv om suksessen bare er delvis.

Uttrykket "tekstbryting" brukes vanligvis for å referere til ethvert system som analyserer store mengder tekst og naturlig språk og oppdager leksikalske eller språklige bruksmønstre i et forsøk på å trekke ut sannsynlig nyttig informasjon.

Tekst gruvedrift og data mining

Akkurat som data mining kan beskrives bredt som å finne mønstre i dine data, handler tekst mining om å søke mønstre i tekst. Imidlertid maskerer den overfladiske likheten mellom de to virkelige forskjeller. Databehandling kan karakteriseres mer som utvinning av implisitte, tidligere ukjente og potensielt nyttige data. Informasjon er implisitt i inndata: den er skjult, ukjent og kan nesten ikke hentes ut uten å ty til automatisert data mining-teknikker. Med tekstbryting er imidlertid informasjonen som trekkes ut tydelig og presist i teksten. Det er ikke skjult i det hele tatt, de fleste forfattere sørger for at de uttrykker seg tydelig og entydig og,Fra et menneskelig synspunkt er den eneste betydningen den "hittil ukjente" er at menneskelige ressursbegrensninger gjør det umulig for folk å lese teksten selv. Problemet er selvfølgelig at informasjonen ikke er formulert på en måte som er mulig for automatisk behandling. Text mining prøver å bringe tekst i en form som er egnet for konsum av datamaskiner direkte, uten behov for en menneskelig mellommann.Text mining prøver å bringe tekst i en form som er egnet for konsum av datamaskiner direkte, uten behov for en menneskelig mellommann.Text mining prøver å bringe tekst i en form som er egnet for konsum av datamaskiner direkte, uten behov for en menneskelig mellommann.

Selv om det er en klar forskjell filosofisk, fra en datamaskin synsvinkel er problemene ganske like. Tekst er like ugjennomsiktig som rå data når det gjelder å trekke ut mest detaljene.

Et annet krav som er felles for både data- og tekstutvinning er at informasjonen som trekkes ut må være "potensielt nyttig." På en måte betyr dette handlingsdyktig - i stand til å gi et grunnlag for handlinger som skal utføres automatisk. Når det gjelder data mining, kan denne forestillingen komme til uttrykk på en relativt domeneuavhengig måte: handlingsrike mønstre er de som gjør at ikke-trivielle spådommer kan gjøres om nye data fra samme kilde. Ytelse kan måles ved å telle suksesser og feil, statistiske teknikker kan brukes for å sammenligne forskjellige data mining metoder på samme problem, og så videre. Men,I mange tekstgruvedriftssituasjoner er det mye vanskeligere å karakterisere hva "handlingsbart" betyr på en måte som er uavhengig av det aktuelle domenet. Dette gjør det vanskelig å finne rettferdige og objektive mål for å lykkes.

I mange data mining-applikasjoner blir "potensielt nyttige" gitt en annen tolkning: nøkkelen til suksess er at informasjonen som er hentet ut må være forståelig, da den er med på å forklare dataene. Dette er nødvendig når resultatet er beregnet til konsum enn på automatisk basis. Dette kriteriet er mindre anvendelig for tekstbryting fordi, i motsetning til data mining, er selve innspillet forståelig. Tekstbryting med forståelig utdata tilsvarer oppsummerende fremtredende trekk ved en stor tekstdel, som er et underfelt i seg selv: sammendragstekst.

Tekstbryting og naturlig språkbehandling

Tekstbryting ser ut til å omfatte helheten av automatisk naturlig språkbehandling og muligens mye mer, i tillegg til for eksempel analyse av koblingsstrukturer som bibliografiske referanser i akademisk litteratur og hyperkoblinger i nettlitteratur, begge nyttige informasjonskilder som ligger utenfor det tradisjonelle domenet for naturlig språkbehandling. Men faktisk avviser de fleste tekstgruvedrift bevisst de dypere og mer kognitive aspektene ved klassisk bearbeiding av naturlige språk til fordel for mer overfladiske teknikker som ligner på dem som brukes i praktisk innhenting av informasjon.

Årsaken blir best forstått i sammenheng med den historiske utviklingen av emnet naturlige språkprosesseringsressurser. Røttene til feltet lå i maskinoversettelsesprosjekter på slutten av 1940-tallet og begynnelsen av 1950-tallet, hvis hobbyister antok at strategier basert på ord-for-ord-oversettelse ville gi verdige og nyttige grove oversettelser som lett kunne forbedres til noe mer nøyaktig., ved bruk av teknikker basert på primær parsing. Men det eneste resultatet av disse høyprofilerte, sterkt finansierte prosjektene var den klare realiseringen av naturlig språk, selv på høyden av analfabeter er det et utrolig sofistikert medium som ikke bukker under for forenklede teknikker.Det avhenger i grunnen av hva vi tenker på som "sunn fornuft" kunnskap, som til tross for sin natur årsak, er usedvanlig vanskelig å kode og bruke algoritmisk hver dag.

Som et resultat av disse pinlige og høyt publiserte feilene, fjernet forskerne "leketøyverdenen", spesielt "blokkverdenen" av geometriske objekter, former, farger og stabling (operasjoner hvis semantikk er tydelig og eksplisitt, mulig å kode). Men etter hvert ble det vellykket, Toy Worlds, selv om det først var imponerende, oversatte ikke til suksessen til realistiske tekststykker. Leketeknikkene i verden håndterer kunstig konstruerte setninger av det vi kan kalle "Dick and Jane" -sorten etter den velkjente serien med barnefortellinger med samme navn. Men de mislykkes elendig når de blir møtt med den virkelige teksten, enten den er møysommelig konstruert og redigert eller produsert i sanntidsbegrensninger (for eksempel tilfeldig samtale).

I mellomtiden måtte forskere på andre områder ganske enkelt håndtere den faktiske teksten, med alle dens rare, idiosynkrasier og feil. Komprimeringsordninger, for eksempel, skal fungere godt med alle dokumenter, uansett innhold, og unngå katastrofal svikt, selv når avvikende filer (som for eksempel helt tilfeldige input eller binære filer) skandaløst behandles. Systemer for informasjonsinnhenting må indeksere dokumenter av alle slag og la dem bli lokalisert effektivt uansett fag eller språklig korrekthet. Nøkkelen til tekstoppsummeringsalgoritmer og ekstraksjon er at de må gjøre en anstendig jobb på en hvilken som helst tekstfil. Arbeidssystemer og praksis på disse områdene er separate temaer,siden de fleste er språkuavhengige. De opererer ved å behandle innspillene som om det var data, ikke språk.

Tekstbryting er en konsekvens av denne "ekte tekst" tankegangen. Hvis du aksepterer at det sannsynligvis ikke er mye, hva kan gjøres med ubegrenset innspill, kan evnen til å behandle store mengder tekst kompensere for relativt enkle teknikker?

Det er interessant at data mining også utviklet seg fra en historie med vanskelige forhold mellom fagdisipliner, i dette tilfellet maskinlæring, forankret i eksperimentell informatikk, med spesielle metoder for evaluering og statistikk godt fundert teoretisk, men basert på til en tradisjon med testing av eksplisitte uttalte hypoteser i stedet for å søke etter ny informasjon. Tidlige maskinlæringsforskere visste eller brydde seg lite om statistikk; tidlige strukturerte statistiske hypotese forskere forble uvitende om parallelt arbeid i maskinlæring. Resultatet var at lignende teknikker (for eksempel å bygge beslutningstrær og nærmeste nabo) dukket opp parallelt fra de to fagområdene,og først senere gjorde de en balansert tilnærming.

Sentiment gruvedrift

Datamaskiner kan være flinke til å jobbe med tall, men kan de knuse følelser?

Fremveksten av blogger og sosiale nettverk har generert et marked rundt personlig mening: meninger, rangeringer, anbefalinger og andre uttrykksformer i nettverket. For dataforskere åpner dette raskt voksende fjellet med data et pirrende vindu i den kollektive bevisstheten til Internett-brukere.

Et voksende felt kjent som sentimentanalyse tar form rundt en av de uutforskede grensene i databehandlingsverdenen: å oversette vagariene med menneskelig følelse til harde data.

Teorien om "legemliggjort kognisjon" antyder at en rekke mentale aktiviteter gjenspeiles i tilstander i kroppen, for eksempel holdninger, armbevegelser og ansiktsuttrykk. En studie undersøker i hvilken grad datamaskinbrukernes profiler - deres kjønn, følelser og emosjonelle opplevelser - kan evalueres ut fra datamaskinens markører.

I ett eksperiment så deltakerne (N = 372) tre filmklipp i to minutter hver, vurderte følelsene sine etterpå og utførte enkle oppfatte oppgaver, tre ganger, sporet programmet vårt banen til deltakernes markør hvert 20. millisekund. I hvilken grad funksjoner som ble trukket ut fra markørstien kunne avsløre deltakernes profiler ble undersøkt. Resultatene indikerte at et lite antall banevariabler var nyttige for å identifisere hvilken film deltakerne så på, hvordan de følte seg mens de så filmen og kjønn. Det antydes at markørbevegelsene gir omfattende informasjon for gruvedrift av en dynamisk brukerprofil.

Dette er mer enn en interessant programmeringsøvelse. For mange selskaper har online opinion blitt en slags virtuell valuta som kan lage eller ødelegge et produkt på markedet.

Likevel sliter mange virksomheter med å gjøre seg kjent med boksen eller klagen og gratulasjonene som nå dreier seg om deres online produkter. Som verktøy for følelsesanalyse som begynner å ta form, kan de ikke bare hjelpe selskaper med å forbedre resultatene på bunnlinjen, men også transformere online informasjonssøkopplevelsen over tid.

Flere nye følelsesanalyseselskaper prøver å dra nytte av den økende interessen til selskaper for det som sies på nettet.

"Sosiale medier pleide å være dette prosjektet for 25 år gamle konsulenter," sa Margaret Francis, visepresident for produkt ved Explorer Labs i San Francisco. Nå, sa han, er toppledere "anerkjenner det som en utrolig rik blodmarkedsintelligens."

Scout Labs, som støttes av venturekapitalfirmaet startet av CNet-grunnlegger Halsey Minor, har nylig introdusert en abonnementstjeneste som lar klienter overvåke blogger, nyhetsartikler, nettfora og sosiale mediesider for trender for meninger om produkter, tjenester eller emner i nyhetene.

I begynnelsen av mai brukte ticketing StubHub Explorer Labs 'overvåkningsverktøy for å identifisere en plutselig pigg i negativ bloggsentiment etter at regn forsinket et Sox Yankees-Red-spill.

Den offisielle stadion fortalte feilaktig hundrevis av tilhengere at spillet var kansellert og StubHub nektet fansens forespørsler om refusjon, og hevdet at spillet faktisk hadde blitt spilt. Men etter å ha oppdaget ølproblemer på nettet, tilbød selskapet rabatter og kreditter til berørte fans. Han evaluerer for tiden sin politikk for dårlig vær.

"Dette er en kanari i en kullgruve for oss," sier John Whelan, direktør for kundeservice for StubHub.

Yonkers-baserte Jodange tilbyr en tjeneste for online utgivere som gjør dem i stand til å innlemme meningsdata fra mer enn 450 000 kilder, inkludert mainstream nyhetskilder, blogger og Twitter.

Basert på forskning fra Claire Cardie, en tidligere professor i informatikk i Cornell, og Jan Wiebe ved University of Pittsburgh, bruker tjenesten en sofistikert algoritme som ikke bare vurderer følelser om bestemte emner, men også identifiserer de mest meningsfulle meningshaverne. innflytelsesrik.

Jodange, hvis tidlige investorer inkluderer National Science Foundation, jobber for tiden med en ny algoritme som kan bruke sentimentdata for å forutsi fremtidig utvikling, for eksempel å forutse virkningen av avisredaksjoner på selskapets aksjekurs.

På samme måte introduserte Financial Times nylig Newssift, et eksperimentelt program som sporer følelser om forretningsemner i nyhetene, sammen med en spesialisert søkemotor som lar brukere organisere spørsmålene sine etter emne, organisasjon, sted, person og fag.

Ved å bruke Newssift avslører et fersk Wal-Mart-søk at følelsen av hva selskapet driver med er positivt i et litt bedre forhold mellom to og en. Når søket er foredlet med det foreslåtte uttrykket "Force and the Union", er forholdet mellom positive og negative følelser imidlertid nærmere en til en.

Disse verktøyene kan hjelpe selskaper med å finne effekten av spesifikke spørsmål på kundenes oppfatning, og hjelpe dem å svare med passende markedsførings- og PR-strategier.

For tilfeldige netizens dukker det opp enklere inkarnasjoner av følelsesanalyse i form av lette verktøy som Tweetfeel, Twendz og Twitrratr. Disse nettstedene lar brukerne ta pulsen til Twitter-brukere om bestemte emner.

Et raskt søk på Tweetfeel avslører for eksempel at 77 prosent av Twitter-brukere liker filmen "Julie & Julia." Det samme søket på Twitrratr avslører imidlertid et par feilbranner. Nettstedet tildeler en negativ vurdering til en tweet som leste "Julie og Julia var virkelig herlige." Den samme meldingen endte med "vi alle føler oss veldig sultne etter dette" - og systemet tok ordet "sulten" for å indikere en negativ følelse.

Mens de mer avanserte algoritmene som brukes av letelaboratorier, bruker Jodange og Newssift avanserte analyser for å unngå slike fallgruver, fungerer ingen av disse tjenestene perfekt. "Algoritmen vår er omtrent 70 til 80 prosent nøyaktig," sa Francis, og la til at brukerne hans kan klassifisere unøyaktige resultater, slik at systemet lærer av sine feil.

Å oversette det glatte menneskelige språket til binære verdier vil imidlertid alltid være en ufullkommen vitenskap. "Følelser er veldig forskjellige fra konvensjonelle fakta," sa Seth Grimes, grunnleggeren av forstads-konsulentfirmaet Maryland Plana Alta, og pekte på de mange kulturelle faktorene og språklige nyansene som gjør det vanskelig å konvertere en streng med skrevet tekst i en enkel følelse for eller imot. "Sinner, det er et godt ord når du bruker det på sjokoladekake," sa han. Den enkleste algoritmens jobb er å skanne etter nøkkelord for å klassifisere et utsagn som positivt eller negativt, basert på en enkel binær analyse ("kjærlighet" er bra, "hat" er dårlig). Imidlertid klarer ikke denne tilnærmingen å fange opp finessene som bringer menneskets språk liv: ironi,sarkasme, slang og andre formspråk. Pålitelig følelsesanalyse krever analyse av mange gråtoner i språkvitenskapen.

"Det handler om tillit som kan komme til uttrykk på subtile måter," sa Bo Pang, en Yahoo-forsker som co-skrev "Opinion Mining and Sentiment Analyse," en av de første fagbøkene om sentimentanalyse.

For å komme frem til den sanne hensikten med en uttalelse, utviklet Pang programvare som analyserer flere forskjellige filtre, inkludert polaritet (er utsagnet positivt eller negativt), intensitet (hva er graden av følelser som kommer til uttrykk?), Og subjektivitet (den delvise eller uformelle formen er kilden).

For eksempel indikerer overvekt av adjektiver en høy grad av subjektivitet, mens verbale og substantivutsagn har en tendens mot et mer nøytralt synspunkt.

Når følelsesanalysealgoritmer blir mer sofistikerte, bør de begynne å gi mer nøyaktige resultater som kan peke veien til mer sofistikerte filtreringsmekanismer. De kan bli en del av å bruke nettet hver dag.

"Jeg ser følelsesanalyse bli en standardfunksjon i søkemotorer," sa Grimes, og antydet at disse typer algoritmer kan begynne å påvirke både generelle nettsøkformål og mer spesialiserte søk i områder som netthandel, reisereservasjoner og filmanmeldelser.

Pang ser for seg en søkemotor som spesifiserer resultatene for brukere i detalj basert på tillit. For eksempel kan det påvirke rekkefølgen av søkeresultater for visse typer spørsmål, for eksempel "det beste hotellet i San Antonio."

Når søkemotorene begynner å innlemme flere og flere meningsdata i resultatene, kan skillet mellom fakta og mening begynne å uskarpe til det punktet, som David Byrne en gang sa, »alle fakta kommer med synspunkter. »

Konfliktive følelser rundt gruvevirksomheten og manipulering av følelser

I den sjarmerende nye animasjonsfilmen, "Inside Out", blir den tatt inne i hodet til Riley, en 11 år gammel jente, for å møte karakterene som representerer fem av de seks følelsene som psykologer har karakterisert som universelle.: glede, tristhet, frykt, sinne og avsky. (Den sjette følelsen: overraskelse, ble utelatt, kanskje fordi filmprodusenter, som de fleste forretningsfolk, hater overraskelser.) Uten å røpe noen spoilere, er det nok til å si det, i Riley, som i hodene. Av de fleste ekte jenter på hennes alder, presenterer Joy noen bilder fra hodet til tristhet, sinne, frykt og de andre, mindre søte medlemmene av følelseskretsen.

I denne filmen og i filmer som "Avatar" og "Toy Story" ble animatørene informert og inspirert av det banebrytende arbeidet til psykolog Paul Ekman med å kartlegge små endringer i ansiktsuttrykk. All den informasjonen om handlingene som skal tas i betraktning i filmen ble gitt basert på gruvedrift av folks atferd og følelser. Men filmskapere er ikke de eneste profesjonelle som henvender seg til Ekman for inspirasjon og veiledning. CIA, TSA og andre sikkerhetsbevisste organisasjoner benytter ansiktskoding for å utrydde løgner og ondsinnede mennesker. Og annonsører, som er ivrige etter å komme inn i forbrukernes hode og forme beslutningene våre før vi selv er klar over å ta dem,De ser gullpanorering i kommersialiseringen av funksjonelle magnetiske resonansavbildningsmaskiner og i kameradeteksjonen av våre små smil, grimaser og øyebevegelser. De prøver å teste hvordan annonser får oss til å føle oss, mikrosekund etter mikrosekund, for å sikre at emosjonelle barrierer for deres budskap blir minimert og gleden eller andre følelsesmessige insentiver det genererer maksimeres.

Alle beslutningene som foretakene tar i dag, er basert på en stor database som de har fylt ut ved å observere den enkelte, grunnen til at de tilbyr visse typer produkter er gitt av det enkle det gir disse selskapene. sentiment gruvedrift.

Internett er en stadig viktigere del av livene våre. Internett-brukere deler informasjon og meninger på sosiale medienettverk der de lett uttrykker sine følelser, vurderinger, personlige følelser. Teknologi og gruvedriftsteknikker gjør det mulig for oss å utforske all denne informasjonen og oppdage hvilke typer meninger, påstander eller påstander forfatterne fremsetter.

Oppsummert tjener gruvedrift i datainnsamlingsområdet til å bestemme hvilken type informasjon brukerne ser etter, forenkle bruken av store mengder informasjon, tekster, klassifisere egenskaper, kjenne preferansene til selskapets kunder. Alt dette med det mål at den interesserte er enig. Generelt samler selskaper all denne typen informasjon for å vite hvilke produkter eller tjenester de skal presentere for kunden, hvordan de vil reagere, og hva de vil være interessert.

På den annen side har klassifiseringen av informasjon kommet til å gi stor hjelp til de menneskene som håndterer store datamengder, takket være stadig raskere systemer i behandlingen av nevnte data.

referanser:

Praktisk gruvedrift, maskinlæring og tekniske verktøy med Java-implementeringer (2000). Ian H. Witten, Eibe Frank. Redaksjonell Morgan Kaufmann Perception basert på data mining og beslutningstaking i økonomi og finans (2007). Ildar Batyrshin, Leonid Sheremetov, Lofti A. Zadeh. Redaksjonell illustrert Neural correlations beslutninger og handlinger, aktuell mening i nevrobiologi (2010). B. De vil veie.

Last ned originalfilen