Què és la ciència de dades? Una guia per a principiants de ciència de dades



La ciència de dades és el futur de la intel·ligència artificial. Esbrineu què és Data Science, com pot afegir valor al vostre negoci i les seves diverses fases del cicle de vida.

A mesura que el món entrava a l’era del big data, la necessitat del seu emmagatzematge també creixia. Va ser el principal desafiament i preocupació de les indústries empresarials fins al 2010. L'enfocament principal va ser la creació d'un marc i solucions per emmagatzemar dades. Ara, quan Hadoop i altres frameworks han resolt amb èxit el problema de l’emmagatzematge, el focus s’ha centrat en el processament d’aquestes dades. Data Science és la salsa secreta aquí. Totes les idees que veieu a les pel·lícules de ciència ficció de Hollywood es poden convertir en realitat en Data Science. La ciència de dades és el futur de la intel·ligència artificial. Per tant, és molt important entendre què és Data Science i com pot afegir valor al vostre negoci.

Ja ha sortit la Guia professional d’Edureka 2019! Rols laborals més importants, camins d'aprenentatge precisos, perspectives del sector i molt més a la guia. descarregar ara.

En aquest bloc, tractaré els temes següents.





Al final d’aquest bloc, podreu entendre què és Data Science i el seu paper a l’hora d’extreure informació significativa dels complexos i grans conjunts de dades que ens envolten.Per obtenir coneixements en profunditat sobre ciència de dades, podeu inscriure-us per viure per Edureka amb assistència les 24 hores del dia, els 7 dies de la setmana i accés permanent.

Què és la ciència de dades?

Data Science és una barreja de diverses eines, algorismes i principis d’aprenentatge automàtic amb l’objectiu de descobrir patrons ocults de les dades en brut. Però, en què es diferencia això del que han estat fent els estadístics durant anys?



La resposta rau en la diferència entre explicar i predir.

Data Analyst v / s Data Science - Edureka

Com podeu veure a la imatge anterior, un analista de dadessol explicar el que passa mitjançant el processament de l’historial de les dades. D'altra banda, Data Scientist no només fa l'anàlisi exploratòria per descobrir-ne informació, sinó que també utilitza diversos algoritmes avançats d'aprenentatge automàtic per identificar l'aparició d'un esdeveniment concret en el futur. Un científic de dades observarà les dades des de molts angles, de vegades angles desconeguts anteriorment.



Per tant, la ciència de dades s’utilitza principalment per prendre decisions i prediccions fent ús de l’anàlisi predictiu causal, l’anàlisi prescriptiva (predictiu més la ciència de la decisió) i l’aprenentatge automàtic.

  • Anàlisi causal predictiva: Si voleu un model que pugui predir les possibilitats d’un esdeveniment concret en el futur, haureu d’aplicar una anàlisi causal predictiva. Per exemple, si proporcioneu diners a crèdit, la probabilitat que els clients facin pagaments futurs de crèdit a temps us preocupa. Aquí podeu crear un model que pugui realitzar anàlisis predictives sobre l'historial de pagaments del client per predir si els pagaments futurs seran puntuals o no.
  • Anàlisi prescriptiva: Si voleu un model que tingui la intel·ligència de prendre les seves pròpies decisions i la capacitat de modificar-lo amb paràmetres dinàmics, segur que necessiteu una anàlisi prescriptiva. Aquest camp relativament nou consisteix a proporcionar consells. En altres termes, no només prediu, sinó que suggereix una sèrie d'accions prescrites i resultats associats.
    El millor exemple per a això és el cotxe amb conducció automàtica de Google que també havia comentat anteriorment. Les dades recollides pels vehicles es poden utilitzar per entrenar cotxes amb conducció automàtica. Podeu executar algoritmes sobre aquestes dades per proporcionar-los intel·ligència. Això permetrà que el vostre cotxe prengui decisions com ara girar, quin camí prendre,quan disminuir o accelerar la velocitat.
  • Aprenentatge automàtic per fer prediccions - Si teniu dades transaccionals d'una empresa financera i necessiteu construir un model per determinar la tendència futura, els algorismes d'aprenentatge automàtic són la millor opció. Això cau sota el paradigma de l’aprenentatge supervisat. Es diu supervisat perquè ja teniu les dades en funció de les quals podeu entrenar les vostres màquines. Per exemple, es pot formar un model de detecció de fraus mitjançant un registre històric de compres fraudulentes.
  • Aprenentatge automàtic per al descobriment de patrons - Si no teniu els paràmetres en funció dels quals podeu fer prediccions, haureu de conèixer els patrons ocults del conjunt de dades per poder fer prediccions significatives. Això no és res més que el model sense supervisió, ja que no teniu cap etiqueta predefinida per agrupar-la. L’algorisme més comú que s’utilitza per al descobriment de patrons és el clúster.
    Suposem que treballeu en una companyia de telefonia i que heu d’establir una xarxa posant torres en una regió. A continuació, podeu utilitzar la tècnica de clusterització per trobar les ubicacions de les torres que asseguraran que tots els usuaris rebin una intensitat de senyal òptima.

Vegem com la proporció d’enfocaments descrits anteriorment difereix tant per a l’anàlisi de dades com per a la ciència de dades. Com podeu veure a la imatge següent, Anàlisi de dadesinclou una anàlisi descriptiva i una predicció fins a cert punt. D’altra banda, Data Science tracta més sobre l’anàlisi predictiu causal i l’aprenentatge automàtic.

Data Science Analytics - Edureka

Ara que ja sabeu què és exactament Data Science, esbrineu ara el motiu pel qual era necessari en primer lloc.

Per què Data Science?

  • Tradicionalment, les dades que teníem eren majoritàriament estructurades i de mida reduïda, que es podien analitzar mitjançant eines senzilles de BI.A diferència de les dades del fitxersistemes tradicionals que s’estructuraven majoritàriament, avui la majoria de les dades no estan estructurades o estan semiestructurades. Vegem les tendències de les dades de la imatge que es mostra a continuació, que demostren que per al 2020 més del 80% de les dades no estaran estructurades.
    Flux de dades no estructurades - Edureka
    Aquestes dades es generen a partir de diferents fonts, com ara registres financers, fitxers de text, formularis multimèdia, sensors i instruments. Les eines simples de BI no són capaces de processar aquest enorme volum i varietat de dades. Per això, necessitem eines i algorismes d’anàlisi més complexos i avançats per processar, analitzar i treure’n idees significatives.

Aquesta no és l'única raó per la qual Data Science s'ha popularitzat. Aprofundim i veurem com s’utilitza Data Science en diversos dominis.

  • Què tal si pogueu entendre els requisits precisos dels vostres clients a partir de les dades existents, com ara l'historial de navegació anterior, l'historial de compres, l'edat i els ingressos del client. Sens dubte, també teníeu totes aquestes dades abans, però ara, amb la gran quantitat i varietat de dades, podeu formar models de manera més eficaç i recomanar el producte als vostres clients amb més precisió. No seria increïble, ja que aportarà més negoci a la vostra organització?
  • Prenem un escenari diferent per entendre el paper de Data Science a presa de decisions.Què tal si el teu cotxe tingués la intel·ligència per portar-te a casa? Els cotxes autònoms recopilen dades en directe de sensors, inclosos radars, càmeres i làsers, per crear un mapa del seu entorn. Basant-se en aquestes dades, pren decisions com quan accelerar, quan accelerar, quan superar, on fer un torn, fent ús d’algoritmes d’aprenentatge automàtic avançats.
  • Vegem com es pot utilitzar Data Science en anàlisis predictives. Prenem com a exemple la predicció del temps. Les dades de vaixells, avions, radars, satèl·lits es poden recopilar i analitzar per construir models. Aquests models no només prediran el temps, sinó que també ajudaran a predir l'aparició de calamitats naturals. T’ajudarà a prendre les mesures adequades per endavant i a salvar moltes vides precioses.

Fem una ullada a la infografia següent per veure tots els dominis en què Data Science crea la seva impressió.

Casos d’ús de la ciència de dades - Edureka

Qui és un científic de dades?

Hi ha diverses definicions disponibles a Data Scientists. En paraules simples, un científic de dades és aquell que practica l'art de la ciència de dades.El terme 'Data Scientist' ha estatencunyat després de considerar el fet que un científic de dades extreu molta informació dels camps i les aplicacions científiques, ja siguin estadístiques o matemàtiques.

Què fa un científic de dades?

Els científics de dades són aquells que resolen problemes de dades complexos amb la seva forta experiència en determinades disciplines científiques. Treballen amb diversos elements relacionats amb matemàtiques, estadístiques, informàtica, etc. (encara que potser no siguin experts en tots aquests camps).Utilitzen les últimes tecnologies per trobar solucions i arribar a conclusions que són crucials per al creixement i el desenvolupament d’una organització. Els científics de dades presenten les dades en una forma molt més útil en comparació amb les dades brutes que tenen a la seva disposició tant de formes estructurades com no estructurades.

Per obtenir més informació sobre un científic de dades, podeu consultar aquest article a

Avançant, ara podem parlar de BI. Estic segur que també heu sentit a parlar de Business Intelligence (BI). Sovint es confon Data Science amb BI. Vaig a afirmar alguns concisos i clarscontrastos entre els dos que us ajudaran a comprendre millor. Fem una ullada.

Business Intelligence (BI) vs. Data Science

  • Business Intelligence (BI) analitza bàsicament les dades anteriors per trobar reconsideració i informació per descriure les tendències empresarials. Aquí BI us permet prendre dades de fonts externes i internes, preparar-les, executar-hi consultes i crear taulers per respondre a preguntes com araanàlisi trimestral dels ingressoso problemes empresarials. BI pot avaluar l’impacte de certs esdeveniments en un futur proper.
  • La ciència de dades és un enfocament més futurista, una manera exploratòria centrada en analitzar les dades actuals o passades i predir els resultats futurs amb l’objectiu de prendre decisions informades. Respon a les preguntes obertes sobre 'què' i 'com' es produeixen els esdeveniments.

Vegem algunes funcions contrastades.

Característiques Intel·ligència empresarial (BI) Ciències de les dades
Fonts de dadesEstructurat
(Normalment SQL, sovint Data Warehouse)
Tant estructurat com no estructurat

diferència entre c c ++ i java

(registres, dades del núvol, SQL, NoSQL, text)

AproximacióEstadística i visualitzacióEstadístiques, aprenentatge automàtic, anàlisi de gràfics, programació neurolingüística (PNL)
EnfocamentPassat i presentPresent i futur
EinesPentaho, Microsoft BI,QlikView, RRapidMiner, BigML, Weka, R

Això es tractava del que és Data Science, ara entenem el cicle de vida de Data Science.

Un error comú en els projectes de ciència de dades és precipitar-se a la recopilació i anàlisi de dades, sense entendre els requisits ni tan sols emmarcar correctament el problema empresarial. Per tant, és molt important que seguiu totes les fases al llarg del cicle de vida de Data Science per garantir el bon funcionament del projecte.

Cicle de vida de la ciència de dades

Aquí teniu una breu visió general de les principals fases del cicle de vida de la ciència de dades:

Cicle de vida de la ciència de dades - Edureka


Descobriment de la ciència de dades - EdurekaFase 1: descobriment:
Abans de començar el projecte, és important entendre les diverses especificacions, requisits, prioritats i pressupost requerit. Heu de tenir la capacitat de fer les preguntes adequades.Aquí, avalueu si teniu els recursos necessaris presents en termes de persones, tecnologia, temps i dades per donar suport al projecte.En aquesta fase, també cal emmarcar el problema empresarial i formular hipòtesis inicials (IH) per provar-les.

Preparació de dades de ciències de dades - Edureka

Fase 2: preparació de dades: En aquesta fase, necessiteu una caixa de proves analítica en què pugueu realitzar anàlisis durant tota la durada del projecte. Cal explorar, preprocessar i condicionar les dades abans del modelatge. A més, realitzareu ETLT (extracció, transformació, càrrega i transformació) per obtenir dades al sandbox. Vegem a continuació el flux d’anàlisi estadística.

Cicle de vida de la ciència de dades
Podeu utilitzar R per a la neteja, transformació i visualització de dades. Això us ajudarà a detectar els valors atípics i establir una relació entre les variables.Un cop netejades i preparades les dades, és hora de fer exploracionsanalíticasobre ell. Vegem com podeu aconseguir-ho.

Fase 3: planificació de models: Planificació de models de ciència de dades - Edureka Aquí determinarà els mètodes i tècniques per dibuixar les relacions entre variables.Aquestes relacions establiran la base dels algoritmes que implementareu a la següent fase.Aplicareu Exploratory Data Analytics (EDA) mitjançant diverses fórmules estadístiques i eines de visualització.

Vegem diverses eines de planificació de models.

Eines de planificació de models a Data Science - Edureka

  1. R té un conjunt complet de capacitats de modelatge i proporciona un bon entorn per construir models interpretatius.
  2. Serveis d’anàlisi SQL pot realitzar anàlisis a la base de dades mitjançant funcions comunes de mineria de dades i models predictius bàsics.
  3. SAS / ACCÉS es pot utilitzar per accedir a dades d’Hadoop i s’utilitza per crear diagrames de flux de models repetibles i reutilitzables.

Tot i que hi ha moltes eines presents al mercat, però R és l’eina més utilitzada.

Ara que ja teniu informació sobre la naturalesa de les vostres dades i heu decidit els algorismes que s’utilitzaran. A la següent etapa, ho faràsaplicarl'algorisme i construir un model.

Construcció de models de ciència de dades - EdurekaFase 4: construcció de models: En aquesta fase, desenvolupareu conjunts de dades amb finalitats de formació i proves. Aquí yhaureu de considerar si les vostres eines existents seran suficients per executar els models o necessitarà un entorn més robust (com el processament ràpid i paral·lel). Analitzareu diverses tècniques d'aprenentatge com la classificació, l'associació i l'agrupació per construir el model.

Podeu aconseguir models mitjançant les següents eines.

Eines de construcció de models a Data Science

Fase 5: funcionament: Data Science operationalize - Edureka En aquesta fase, lliureu informes finals, reunions informatives, codi i documents tècnics.A més, de vegades també s’implementa un projecte pilot en un entorn de producció en temps real. Això us proporcionarà una imatge clara del rendiment i altres restriccions relacionades a petita escala abans del desplegament complet.


Comunicació en ciència de dades - EdurekaFase 6: comuniqueu els resultats:
Ara és important avaluar si heu aconseguit el vostre objectiu que teníeu previst en la primera fase. Per tant, en l’última fase, identifiqueu totes les conclusions clau, les comuniqueu als grups d’interès i determinarà si els resultatsdel projecte són un èxit o un fracàs basat en els criteris desenvolupats a la fase 1.

Ara faré un estudi de cas per explicar-vos les diverses fases descrites anteriorment.

Cas pràctic: prevenció de la diabetis

Què passa si poguem predir l’aparició de diabetis i prendre les mesures adequades per prevenir-la?
En aquest cas d’ús, predirem l’aparició de diabetis que fa ús de tot el cicle de vida que hem comentat anteriorment. Anem a través dels diversos passos.

Pas 1:

  • Primer,recopilarem les dades en funció de la història clínicadel pacient tal com es va comentar a la fase 1. Podeu consultar les dades de mostra a continuació.

Dades de mostra de Data Science: Edureka

  • Com podeu veure, tenim els diversos atributs que s’esmenten a continuació.

Atributs:

  1. npreg: nombre de vegades embarassades
  2. glucosa - Concentració de glucosa en plasma
  3. bp - Pressió arterial
  4. pell: gruix de la pell del tríceps
  5. bmi - Índex de massa corporal
  6. ped - Funció genealògica de la diabetis
  7. edat - Edat
  8. ingressos - Ingressos

Pas 2:

  • Ara, un cop tenim les dades, hem de netejar-les i preparar-les per analitzar-les.
  • Aquestes dades tenen moltes incoherències, com ara valors que falten, columnes en blanc, valors bruscos i un format de dades incorrecte que cal netejar.
  • Aquí hem organitzat les dades en una sola taula amb diferents atributs, cosa que fa que sembli més estructurada.
  • Vegem les dades de mostra següents.

Dades inconsistents de Data Science - Edureka

c ++ ordenar una matriu

Aquestes dades tenen moltes incoherències.

  1. A la columna npreg , S'escriu 'un'paraules,mentre que hauria de tenir la forma numèrica com 1.
  2. A la columna bp un dels valors és el 6600, que és impossible (almenys per als humans) ja que bp no pot pujar a un valor tan enorme.
  3. Com podeu veure el Ingressos La columna està en blanc i tampoc no té sentit predir la diabetis. Per tant, és redundant tenir-lo aquí i s’hauria de treure de la taula.
  • Per tant, netejarem i pre-processarem aquestes dades eliminant els valors atípics, omplint els valors nuls i normalitzant el tipus de dades. Si ho recordeu, aquesta és la nostra segona fase, que és el preprocessament de dades.
  • Finalment, obtenim les dades netes que es mostren a continuació, que es poden utilitzar per a l'anàlisi.

Dades consistents en ciències de les dades: Edureka

com utilitzar fitxers a Java

Pas 3:

Ara fem una anàlisi tal com es va comentar anteriorment a la fase 3.

  • En primer lloc, carregarem les dades al sandbox analític i hi aplicarem diverses funcions estadístiques. Per exemple, R té funcions com descriu cosa que ens proporciona el nombre de valors que falten i de valors únics. També podem utilitzar la funció de resum que ens proporcionarà informació estadística, com ara valors mitjans, medians, intervals, mínims i màxims.
  • A continuació, utilitzem tècniques de visualització com histogrames, gràfics lineals, gràfics de caixes per fer-nos una bona idea de la distribució de dades.

Visualització de ciències de dades - Edureka

Pas 4:

Ara, basant-nos en les idees derivades del pas anterior, el millor ajust per a aquest tipus de problemes és l'arbre de decisions. A veure com?

  • Per tant, ja tenim els principals atributs per analitzar com npreg, bmi , etc., de manera que farem servirtècnica d’aprenentatge supervisat per construir unmodel aquí.
  • A més, hem utilitzat especialment l'arbre de decisions perquè té en compte tots els atributs d'una sola vegada, com els que tenen unrelació lineal, així com aquelles que tenen una relació no lineal. En el nostre cas, tenim una relació lineal entre npreg i edat, mentre que la relació no lineal entre npreg i ped .
  • Els models d’arbres de decisió també són molt robustos, ja que podem utilitzar la combinació d’atributs per fer diversos arbres i, finalment, implementar-ne un amb la màxima eficiència.

Fem una ullada al nostre arbre de decisions.

Conjunt de dades de l

Aquí, el paràmetre més important és el nivell de glucosa, per tant, és el nostre node arrel. Ara, el node actual i el seu valor determinen el següent paràmetre important que cal prendre. Continua fins que obtinguem el resultat en termes de pos o bé neg . Pos significa que la tendència a tenir diabetis és positiva i negativa, la tendència a tenir diabetis és negativa.

Si voleu obtenir més informació sobre la implementació de l'arbre de decisions, consulteu aquest bloc

Pas 5:

En aquesta fase, realitzarem un petit projecte pilot per comprovar si els nostres resultats són adequats. També buscarem restriccions de rendiment si n'hi ha. Si els resultats no són precisos, hem de replanificar i reconstruir el model.

Pas 6:

Un cop executat el projecte amb èxit, compartirem la sortida per al desplegament complet.

Ser científic de dades és més fàcil de dir que de fer. Per tant, vegem què necessiteu per ser científic de dades.Un científic de dades requereix bàsicament habilitatsde tres grans àrees, tal com es mostra a continuació.

Habilitats en ciències de les dades - Edureka

Com podeu veure a la imatge anterior, heu d'adquirir diverses habilitats i habilitats suaus. Cal ser bo en això estadístiques i matemàtiques per analitzar i visualitzar dades. No cal dir, Aprenentatge automàtic constitueix el cor de la ciència de dades i requereix que sigui bo en això. A més, cal tenir una comprensió sòlida del domini treballeu per entendre els problemes empresarials amb claredat. La vostra tasca no s’acaba aquí. Hauríeu de ser capaç d'implementar diversos algoritmes que requereixin un bon funcionament codificació habilitats. Finalment, un cop hàgiu pres determinades decisions clau, és important que les feu arribar als grups d'interès. Molt bo comunicació definitivament afegirà punts brownie a les vostres habilitats.

Us insto a veure aquest vídeo tutorial de Data Science que explica què és Data Science i tot el que hem comentat al bloc. Endavant, gaudiu del vídeo i digueu-me què en penseu.

Què és la ciència de dades? Curs de ciència de dades - Tutorial de ciència de dades per a principiants | Edureka

Aquest vídeo del curs Edureka Data Science us proporcionarà la necessitat de ciències de dades, què és ciència de dades, casos d’ús de ciències de dades per a empreses, BI vs ciència de dades, eines d’anàlisi de dades, cicle de vida de ciències de dades juntament amb una demostració

Al final, no estarà malament dir que el futur pertany als Data Scientists. Es preveu que a finals de l'any 2018, es necessitarà al voltant d'un milió de científics de dades. Cada vegada hi ha més dades que proporcionaran oportunitats per prendre decisions empresarials clau. Aviat canviarà la nostra manera de veure el món que ens envolta de dades. Per tant, un científic de dades hauria de ser altament qualificat i motivat per resoldre els problemes més complexos.

Espero que us hagi agradat llegir el meu bloc i entendre què és Data Science.Consulteu el nostre aquí, ve amb formació en directe dirigida per un instructor i experiència en projectes reals.