Gagnafræðin, bestu vinnubrögð við gagnafræðin, munurinn á AI, ML og DL og tæknistakkanum!

Hvað er gagnafræði?

Gagnafræði er þverfagleg blanda af gögnum ályktunum, þróun reiknirita og tækni til að leysa greinandi flókin vandamál.

Í kjarna eru gögn. Troves af hráum upplýsingum, streymt inn og geymt í gagnageymslum fyrirtækisins. Margt að læra með því að ná því. Háþróaður möguleiki sem við getum byggt upp með það. Gagnafræðin snúast að lokum um að nota þessi gögn á skapandi hátt til að afla viðskiptaverðmæta.

Frá gagnageymslu til að finna gagna innsýn er aðeins mögulegt eftir megindlegri gagnagreiningu til að hjálpa við að stýra stefnumótandi viðskiptaákvörðun til að finna viðskipti gildi. Að finna gagnaafurð úr gagna innsýn með því að nota Reikniritalausnir í framleiðslu.

Bestu gagnanámsaðferðirnar:

Að skilja notkunarmálið og viðskiptamarkmiðið:

Það er mikilvægasta skrefið fyrir öll Data Science verkefni, þ.e.a.s. að skilgreina viðskiptamarkmiðið sem þarf að ná út frá gagnavísindum. Það þarf skýran skilning á viðskiptum og hver er væntanleg niðurstaða nýja verkefnisins. Það hjálpar gagnavísindamanni að undirbúa sig fyrir mögulegar áskoranir og fara fram með réttar aðferðir og aðföng sem þarf til að öðlast innsýn eins og krafist er frá viðskiptalegum tilgangi.

Þekkja gögnin:

Um það bil (60–70)% af tíma Data Science verkefnisins er varið í undirbúning og hreinsun gagna. Gögn koma í ýmsum myndum í stórum dráttum flokkuð sem skipulögð, ómótað og hálfskipulögð. Við verðum að bera kennsl á gögnin sem skipta máli eða greina frávikin sem eru til staðar í gögnum og skilja hvort gögnin eru næg til að gera gagnlega innsýn í það viðskiptamarkmið sem krafist er.

Brain Storming:

Flest vel heppnaða Data Science verkefnið á sameiginlegt þ.e.a.s. samvinnu meðal liðsmanna. Teymi samanstendur af fólki sem kemur frá ýmsum bakgrunni sem hefur staðið frammi fyrir ýmsum og að mestu leyti einstökum áskorunum, hvort sem um er að ræða líkanagerð eða undirbúning / hreinsun gagna eða lénsþætti einstaklings. Það er alltaf gagnlegt að láta heila stormastund fara fram meðal liðsmannsins til að komast að lausn.

Gögn eru gildi:

Stilltu væntingar um niðurstöðurnar, þ.e.a.s. hafðu alla meðvituð um að niðurstöðurnar eru byggðar á gögnum. Það getur verið andstætt væntingum um viðskiptamarkmið en það er alltaf gott að halda hagsmunaaðilum fyrirtækisins meðvituð um innsýn / niðurstöður og það getur opnað frekar meiri möguleika en gert er ráð fyrir innsýn frá viðskiptamönnum.

Finndu rétt verkfæri:

Ef það er mjög reiknilegt verkefni eins og að veita innsýn frá mynd-, myndbands- eða hljóðgögnum þarf hágæða kerfi með GPU og eftir því hvaða hraði gögnin eru búin til hefur það einnig áhrif á að setja rétt verkfæri.

Innsýn í skýrslugerð ásamt aðgerðum:

Eftir að hafa fundið frábæra innsýn úr klöppuðum gögnum, er gildi allra innsæna minna þar til og nema því sé breytt í sjónsköpun á viðskiptavirði. Betri myndsköpun á viðskiptavirði, betri er aðgerðaáætlunin fyrir fólk í lok viðskipta, sem getur sérsniðið rekstur sinn út frá Gögnum sem eru sjón og vanir viðskiptaþörf viðskiptavinarins sem þeir eru að reyna að laða að. Innsýn er hrátt kolefni sem breytist í fágaðan demant eftir myndrænni tækni.

Staðfestu og staðfesta með reglulegu millibili:

Líkan er þróað yfir sett af gögnum við mismunandi breytur en gögn ýmis yfir tíma. Ef við notum sömu líkan yfir ný gögn sem eru tekin eftir tímabil eru möguleikar á því að líkanið geti hrunið hvað varðar innsýn sem það notaði til að veita. Það er alltaf mælt með því að fylgja prófunarstefnu til að prófa líkanið yfir ný gögn og staðfesta / staðfesta niðurstöðurnar með reglulegu millibili og breyta líkaninu ef árangur líkansins versnar.

Munurinn á AI, ML og DL:

Hvernig AI byrjaði?

Alan Turing var stærðfræðingur, dulmálsfræðingur sem túlkaði Enigma vélina á WW2, Logician, heimspekingur, Cambridge náungi (22 ára) og öfgafullur langhlaupari. Hann lagði einnig grunninn að tölvu og gervigreind nútímans.

Starf hans gegnsýrði víðtækari þekkingu almennings á sjötta áratugnum. Þetta leiddi af sér hugmyndina um „Almennt AI“: geta tölvur haft sömu einkenni mannlegrar greindar, þ.mt rökhugsun, samskipti og hugsun eins og við? Svarið var hljómandi „nei“ (að minnsta kosti ekki ennþá).

Þess vegna urðum við að einbeita okkur að „Þröngri AI“ - tækni sem getur sinnt sérstökum verkefnum eins og að spila skák, mæla með næsta Netflix sjónvarpsþætti og bera kennsl á ruslpóst. Öll þessi sýna hluta af upplýsingaöflun manna. En hvernig vinna þau? Þetta er vélanám.

AI þarf ML:

Á háu stigi þýðir ML almennt reiknirit eða gerðir af því

· Gögn: fáðu mikið af (hreinsuðum) gögnum, með mönnum skilgreindum eiginleikum (t.d. „aldur“, „hæð“, „FICO stig“, „er þetta tölvupóst ruslpóstur?“ Osfrv.)

· Þjálfun: notaðu gögnin til að „stilla“ hlutfallslegt mikilvægi hvers eiginleika.

· Ályktun: spá fyrir um eitthvað í nýjum gögnum.

Dæmi um þetta er að spá fyrir um ruslpóst: Google Gmail safnar gríðarlegu magni af gögnum um hvað er ruslpóstur og hvað ekki (þetta er kallað „merkt gögn“). Reikniritið auðkennir síðan sameiginlega eiginleika ruslpósts en ekki ruslpósts. Reikniritið keyrir síðan á ómerktum gögnum (þ.e.a.s. nýjum tölvupósti) til að spá fyrir um hvort það sé ruslpóstur eða ekki.

ML krefst mikils afskipta af mönnum, svo sem að segja ruslpóstsíunni handvirkt hvað eigi að leita í ruslpósti samanborið við ruslpóstskeyti (t.d. leita að orðunum „Western Union“ / leita að krækjum á grunsamlegar vefsíður osfrv.). Það er heldur ekki mjög nákvæmt á myndum.

ML <= {NLP, DL}:

Djúpt nám (sem felur í sér endurteknar tauganet, uppbyggingar tauganet og fleira) er tegund af Machine Learning nálgun. Það er framlenging Neural Networks. Djúpt nám er notað nokkuð mikið til sjónrænt flokkunar (t.d. að greina myndir af flugvélum frá myndum af hundum). Einnig er hægt að nota Deep Learning fyrir NLP verkefni. Hins vegar er mikilvægt að hafa í huga að Deep Learning reiknirit fjalla ekki eingöngu um texta.

ML og NLP hafa nokkra skörun þar sem vélinám er oft notað við NLP verkefni. LDA (Latent Dirichlet Úthlutun sem er Topic Modeling Reiknirit) er eitt slíkt dæmi um vottun án eftirlits.

Hins vegar hefur NLP sterkan málvísindaþátt (sem ekki er sýndur í myndinni), sem krefst skilnings á því hvernig við notum tungumál. Listin að skilja tungumál felur í sér skilning á húmor, kaldhæðni, undirmeðvitund hlutdrægni í texta o.fl. Þegar við getum skilið þetta er leið til að vera kaldhæðinn (já rétt!) Getum við umritað það í vélanámsalgrím til að uppgötva sjálfkrafa svipað mynstur fyrir okkur tölfræðilega.

Til að draga saman, til að gera hvaða NLP, þarftu að skilja tungumál. Tungumál er mismunandi fyrir mismunandi tegundir (rannsóknargreinar, blogg, twitter hafa mismunandi ritstíla), svo það er sterkur þáttur í því að skoða gögnin þín handvirkt til að fá það sem það er að reyna að segja þér og hvernig þú maður myndi greina það. Þegar þú hefur áttað þig á því hvað þú ert að gera sem mannlegt rökhugsunarkerfi (hunsa hassmerki, nota broskallað andlit til að gefa til kynna viðhorf) geturðu notað viðeigandi ML nálgun til að gera sjálfvirkan það ferli og kvarða það.

Tækni og tæki:

Notkun vélakennslu á fjölbreytt svið tölvunarfræði nýtur vaxandi vinsælda, ekki aðeins vegna ódýrs og öflugs vélbúnaðar, heldur einnig vegna aukins framboðs á ókeypis og opnum hugbúnaði, sem gerir kleift að útfæra vélanám á auðveldan hátt. Sérfræðingar og vísindamenn í vélanámi, sem eru hluti af teymi hugbúnaðarverkfræðinga, byggja stöðugt háþróaðar vörur og samþætta greindar reiknirit við lokaafurðina til að gera hugbúnaðinn virkari áreiðanlegri, fljótt og án vandræða.
 Það er mikið úrval af opnum uppspretta vélar til að læra vélar á markaðnum, sem gera vélfræðinámi verkfræðinga kleift að smíða, innleiða og viðhalda vélanámskerfi, búa til ný verkefni og búa til ný áhrifamikil vélanámskerfi.

Við skulum kíkja á nokkur af bestu rammar fyrir opinn hugbúnað fyrir vélar.

Apache neisti Mlib:

Þetta er bókasafn vélafræðinga, sem aðal markmiðið er að gera hagnýt vélanám stigstærð og auðvelt. Það samanstendur af algengum reikniritum og tólum, þar með talið flokkun, aðhvarfi, þyrping, síun í samvinnu, minnkun á víddarstigum sem og frumstæðum fyrir hagræðingu á lægri stigum og API-gildi fyrir hærra stig.

Talið er að Neisti MLlib sé dreifður vélarfræðilegur rammi ofan á Neistakjarna sem aðallega vegna dreifðs minni byggðar neistaflugsbyggingar er næstum níu sinnum eins hröð og diskbundin útfærsla notuð af Apache Mahout.

TensorFlow:

TensorFlow er opinn hugbúnaðarbókasafn fyrir vélinám sem þróað er af Google Brain Team fyrir ýmis konar skilnings- og málskilningsverkefni og til að stunda háþróaðar rannsóknir á vélanámi og djúpt taugakerfi. Það er önnur kynslóð vélarkennslukerfis Google Brain og getur keyrt á mörgum örgjörvum og örgjörvum. TensorFlow er sent á ýmsar vörur frá Google eins og talgreining, Gmail, Google myndir og jafnvel leit.

Accord.NET

Accord.NET er .NET opinn uppspretta vélanámsrammi fyrir vísindaleg tölvunarfræði, og samanstendur af mörgum bókasöfnum fyrir fjölbreytt forrit eins og tölfræðilega gagnavinnslu, mynsturviðurkenningu, línulega algebru, gervin taugakerfi, mynd- og merkjavinnslu osfrv.

Amazon vélanám (AML):

Amazon Machine Learning (AML) er vélanámsþjónusta fyrir forritara. Það hefur mörg sjónrænt verkfæri og töframenn til að búa til háþróað og greindur líkan í vélanámi án þess að þurfa að læra flókin ML reiknirit og tækni. Með AML er hægt að fá spár um forrit með einföldum API án þess að nota sérsniðinn kóða fyrir spáframleiðslu eða flókna innviði.

Keras:

Keras er opinn taugakerfisbókasafn skrifað í Python. Það er fær um að keyra ofan á TensorFlow, Microsoft hugrænu tólasætið, Theano eða MXNet. Keras inniheldur fjölda útfærslna af algengum byggingarreitum taugakerfisins svo sem lögum, markmiðum, virkjunaraðgerðum, fínstillingu og fjölda tækja til að auðvelda að vinna með mynd- og textagögn.

Það eru mörg önnur slík bókasöfn bæði fyrir vélnám og djúpt nám, það fer eftir notkunartilfellinu hverja á að velja.

Nám gagnavísinda:

Það eru fjölmargar heimildir til að læra Data Science en fremsti krafan er að læra forritunarmál til að hrinda í framkvæmd gögnum um notkun vísinda.

Forritunarmál: Python, R, Java, SAS, MATLAB osfrv

Fyrir byrjendur:

Mjög mælt með námskeiði til að byrja vélanám er Udemy, Coursera, Edx o.s.frv.

Þar sem ég hef tekið námskeið úr öllum þessum áttum, þá mæli ég með eftirfarandi með minni reynslu þ.e.a.s ef einhver hefur bara áhuga á vélanámi án áhuga á stærðfræðibraut, getur tekið námskeiðin frá udemy “Vélnám AZ ™: Hands-On Python & R í gagnavísindum “, útskýrir það Python-erfðaskrá fyrir alla grunnþjálfunar reiknirit vélar ásamt grunnþreifingu á öllum reikniritunum.

Ef einhver hefur áhuga á að þekkja stærðfræðihugtökin að baki reikniritunum, þá myndi ég mjög mæla með námskeiðinu „Introduction to Machine Learning“ frá Coursera. Vegna þess að höfundurinn „Andrew Ng“ hefur lagt mikla vinnu í að skýra stærðfræðina á bak við reikniritið.

Fyrir framan vísindamann:

Með tilliti til hugbúnaðar um nám í vélavinnslu / djúpt nám er hægt að fylgja kennslubókum og námskeiðum til að læra kjarnavélanám og djúpt nám sem getið er hér að neðan,

Deep Learning námskeið frá Coursera er að byrja á Deep Learning og á námskeiðinu er einnig fjallað um verkefni sem eru eingöngu raunveruleg tilvik í notkun. Ef frambjóðandinn getur lokið þessu námskeiði og öllum tilvikum án mikillar aðstoðar utanaðkomandi aðila, þá mun hann / hún geta sinnt flestum verkefnum í Deep Learning.

Og það eru mörg námskeið byggð á sérstöku efni í Udemy í mörgum tilvikum.

Mikil lestur er nauðsynleg til að ná góðum tökum á Data Science Pratices og finna tenglana sem vísar til sömu:

Fyrir tölfræði í vélanámi - https://web.stanford.edu/~hastie/Papers/ESLII.pdf

Fyrir djúpt nám - https://github.com/janishar/mit-deep-learning-book-pdf

Coursera - https://www.coursera.org/

Udemy - https://www.udemy.com/

Oxford - https://github.com/oxford-cs-deepnlp-2017/ fyrirlestrar

Analytics Vidhya - https://www.analyticsvidhya.com/

MachineLearningMaster - https://machinelearningmastery.com/

Athugasemd:

Innihaldið er tekið úr ýmsum bloggfærslum og Wikipedia-greinum, fáar eru teknar úr gömlu bloggfærslunni minni. Það er sameinað hér, til að fá heildaryfirlit yfir gagnafræðin.