Tutorial de ciència de dades: apreneu la ciència de dades des de zero.



Aquest tutorial de ciència de dades és ideal per a aquells que busquen un canvi al domini de ciències de dades. Inclou tots els elements bàsics de ciència de dades amb una trajectòria professional.

Voleu començar la vostra carrera com a científic de dades, però no sabeu per on començar? Esteu al lloc correcte! Hola nois, benvinguts a aquest impressionant bloc de tutoria de ciències de dades, que us donarà un començament en el món de la ciència de dades. Per obtenir coneixements en profunditat sobre ciència de dades, podeu inscriure-us per viure per Edureka amb assistència les 24 hores del dia, els 7 dies de la setmana i accés permanent. Vegem què aprendrem avui:

    1. Per què Data Science?
    2. Què és la ciència de dades?
    3. Qui és un científic de dades?
    4. Tendències laborals
    5. Com es pot resoldre un problema a Data Science?
    6. Components de la ciència de dades
    7. Funcions laborals del científic de dades





Per què Data Science?

S'ha dit que Data Scientist és el 'Treball més sexy del segle XXI'. Per què? Perquè durant els darrers anys, les empreses han anat emmagatzemant les seves dades. I això, fet per totes i cadascuna de les empreses, ha provocat de sobte una explosió de dades. Les dades s’han convertit en l’actualitat més abundant.

Però, què faràs amb aquestes dades? Anem a entendre-ho mitjançant un exemple:



Per exemple, teniu una empresa que fabrica telèfons mòbils. Vau llançar el vostre primer producte i es va convertir en un gran èxit. Totes les tecnologies tenen vida, oi? Per tant, ara és hora d’arribar amb alguna cosa nova. Però no sabeu què s’ha d’innovar per satisfer les expectatives dels usuaris, que esperen amb impaciència la vostra pròxima versió?

A la vostra empresa, a algú se li acudeix la idea d’utilitzar els comentaris generats per l’usuari i escollir coses que creiem que esperen els usuaris en la pròxima versió.

A Data Science, apliqueu diverses tècniques de mineria de dades, com ara anàlisi de sentiments, etc., i obteniu els resultats desitjats.



No només és això, sinó que podeu prendre millors decisions, podeu reduir els vostres costos de producció sortint de maneres eficients i oferir als vostres clients el que realment volen.

Amb això, hi ha innombrables avantatges que pot generar Data Science i, per tant, ha estat absolutament necessari que la vostra empresa tingui un equip de Data Science.Requisits com aquests portaven a la 'ciència de dades' com a tema avui en dia i, per tant, estem escrivint aquest bloc sobre Tutorial de ciència de dades. :)

Tutorial de ciència de dades: què és la ciència de dades?

El terme Ciència de dades ha sorgit recentment amb l’evolució de les estadístiques matemàtiques i l’anàlisi de dades. El viatge ha estat increïble, avui ho hem aconseguit molt en el camp de la ciència de dades.

En els propers anys, podrem predir el futur tal com afirmen investigadors del MIT. Ja han assolit una fita en la predicció del futur, amb la seva impressionant investigació. Ara poden predir què passarà a la propera escena d’una pel·lícula, amb la seva màquina. Com? Bé, pot ser que sigui una mica complicat entendre’l a partir d’ara, però no us preocupeu al final d’aquest bloc, també hi tindreu una resposta.

En tornar, parlàvem de ciència de dades, també es coneix com a ciència basada en dades, que fa ús de mètodes, processos i sistemes científics per extreure coneixements o idees de dades en diverses formes, és a dir, estructurades o no estructurades.

Quins són aquests mètodes i processos, és el que parlarem avui en aquest tutorial de ciència de dades.

Per seguir endavant, qui fa tot aquest assalt cerebral o qui practica la ciència de dades? A Científic de dades .

Qui és un científic de dades?

Com podeu veure a la imatge, un científic de dades és el mestre de tots els oficis. Hauria de ser competent en matemàtiques, hauria d’estar en el camp dels negocis i també hauria de tenir grans coneixements en informàtica. Espantat? No ho siguis. Tot i que cal ser bo en tots aquests camps, però encara que no ho sigui, no està sol. No hi ha cap 'científic de dades complet'. Si parlem de treballar en un entorn corporatiu, el treball es distribueix entre equips, on cada equip té la seva pròpia experiència. Però el cas és que haureu de dominar almenys un d’aquests camps. A més, fins i tot si aquestes habilitats són noves per a vosaltres, calma! Pot trigar temps, però aquestes habilitats es poden desenvolupar i creieu-me que valdria la pena el temps que invertireu. Per què? Bé, vegem les tendències laborals.

aprendre ssis pas a pas

Tendències laborals del científic de dades

Bé, el gràfic ho diu tot, no només hi ha moltes oportunitats de feina per a un científic de dades, sinó que les feines també estan ben remunerades. I no, el nostre bloc no cobrirà les xifres salarials, vaja google!

Bé, ara ho sabem, l'aprenentatge de la ciència de dades té sentit, no només perquè és molt útil, sinó que també hi teniu una gran carrera en un futur proper.

Comencem ara el nostre viatge en l’aprenentatge de la ciència de dades i comencem,

Com es pot resoldre un problema a Data Science?

Així doncs, ara discutim com s’ha d’abordar un problema i resoldre’l amb la ciència de dades. Els problemes en ciència de dades es resolen mitjançant algorismes. Però, el més important a jutjar és quin algorisme s’ha d’utilitzar i quan s’ha d’utilitzar?

Bàsicament, hi ha cinc tipus de problemes que podeu afrontar en ciència de dades.

Abordem cadascuna d’aquestes preguntes i els algorismes associats una per una:

És A o B?

Amb aquesta pregunta, ens referim a problemes que tenen una resposta categòrica, ja que en problemes que tenen una solució fixa, la resposta podria ser un sí o un no, 1 o 0, interessats, potser o no interessats.

Per exemple:

P. Què en tindreu, te o cafè?

Aquí no es pot dir que voldria una coc. Atès que la pregunta només ofereix te o cafè i, per tant, només podeu respondre a un d'aquests.

Quan només tenim dos tipus de respostes, és a dir, sí o no, 1 o 0, s’anomena Classificació de classe 2. Amb més de dues opcions, s’anomena Classificació Multi Class.

Concloent, sempre que us trobeu amb preguntes, la resposta a les quals és categòrica, a Data Science resoldreu aquests problemes mitjançant algoritmes de classificació.

El següent problema d’aquest tutorial de ciència de dades, que us podeu trobar, potser alguna cosa així,

És estrany?

Preguntes com aquestes tracten de patrons i es poden resoldre mitjançant algoritmes de detecció d’anomalies.

Per exemple:

Proveu d'associar el problema 'és estrany?' a aquest diagrama,

Què és estrany en el patró anterior? El noi vermell, oi?

Sempre que es produeix un trencament del patró, l'algoritme marca aquest esdeveniment en concret per revisar-lo. Les empreses de targetes de crèdit han implementat una aplicació real d’aquest algoritme en què qualsevol transacció inusual realitzada per un usuari es marca per revisar-la. Per tant, implementar seguretat i reduir l’esforç humà en vigilància.

Vegem el següent problema d’aquest tutorial de ciència de dades, no us espanteu, tracta de les matemàtiques.

Quant o quants?

Als que no us agraden les matemàtiques, us alleugerireu! Els algoritmes de regressió ja són aquí.

Per tant, sempre que hi hagi un problema que pugui demanar xifres o valors numèrics, el resolem mitjançant algorismes de regressió.

Per exemple:

Quina serà la temperatura per demà?

Com que esperem un valor numèric en la resposta a aquest problema, el resoldrem mitjançant algorismes de regressió.

Seguint aquest tutorial de ciència de dades, anem a parlar del següent algorisme,

Com s’organitza això?

Suposem que teniu algunes dades, que ara no teniu ni idea de com donar sentit a aquestes dades. D’aquí la pregunta, com s’organitza això?

Bé, podeu resoldre-ho mitjançant algoritmes de clusterització. Com resolen aquests problemes? Vegem:

Els algoritmes de clusterització agrupen les dades en termes de característiques que són habituals. Per exemple, al diagrama anterior, els punts s’organitzen en funció dels colors. De la mateixa manera, ja siguin dades, els algoritmes de clusterització intenten comprendre el que és comú entre ells i, per tant, els 'agrupa' junts.

El següent i últim tipus de problema d’aquest tutorial de ciència de dades que podeu trobar és:

Què he de fer després?

Sempre que us trobeu amb un problema en què l’ordinador ha de prendre una decisió en funció de la formació que l’heu impartit, es tracta d’algorismes de reforç.

Per exemple:

El vostre sistema de control de temperatura, quan ha de decidir si ha de baixar la temperatura de l'habitació o augmentar-la.

Com funcionen aquests algorismes?

Aquests algoritmes es basen en la psicologia humana. Ens agrada ser apreciats oi? Els ordinadors implementen aquests algoritmes i esperen ser apreciats quan s’entrenen. Com? A veure.

En lloc d’ensenyar què ha de fer a l’ordinador, deixeu-lo decidir què ha de fer i, al final d’aquesta acció, doneu un comentari positiu o negatiu. Per tant, en lloc de definir què és correcte i què està malament al vostre sistema, deixeu que el sistema 'decideixi' què ha de fer i, al final, doneu comentaris.

És com entrenar el teu gos. No pots controlar el que fa el teu gos, oi? Però el podeu renyar quan fa malament. De la mateixa manera, potser donant-li cops a l'esquena quan faci allò que s'espera.

Apliquem aquesta comprensió a l’exemple anterior, imaginem que esteu entrenant el sistema de control de temperatura, de manera que sempre que no. de persones a l'habitació augmenta, el sistema ha d'actuar. Baixeu la temperatura o bé augmenteu-la. Com que el nostre sistema no entén res, pren una decisió aleatòria, suposem que augmenta la temperatura. Per tant, doneu comentaris negatius. Amb això, l'ordinador entén cada vegada que augmenta el nombre de persones a l'habitació i mai augmenta la temperatura.

De la mateixa manera, per a altres accions, heu de donar comentaris.Amb cada retroalimentació, el vostre sistema aprèn i, per tant, es fa més precís en la seva pròxima decisió, aquest tipus d’aprenentatge s’anomena Aprenentatge de reforç.

Ara, els algoritmes que hem après més amunt en aquest tutorial de ciència de dades impliquen una 'pràctica d'aprenentatge' comuna. Estem fent que la màquina aprengui, oi?

Què és l'aprenentatge automàtic?

És un tipus d’Intel·ligència Artificial que fa que els ordinadors siguin capaços d’aprendre sols, és a dir, sense que es programin explícitament. Amb l’aprenentatge automàtic, les màquines poden actualitzar el seu propi codi sempre que es troben amb una nova situació.

Concloent en aquest tutorial de ciència de dades, ara sabem que la ciència de dades està recolzada per l’aprenentatge automàtic i els seus algoritmes per a la seva anàlisi. Com fem l'anàlisi, on ho fem. Data Science també té alguns components que ens ajuden a abordar totes aquestes qüestions.

Abans, deixeu-me respondre com el MIT pot predir el futur, perquè crec que ara podríeu relacionar-ho. Per tant, els investigadors del MIT van formar el seu model amb pel·lícules i els ordinadors van aprendre com responen els humans o com actuen abans de fer una acció.

Per exemple, quan esteu a punt de donar la mà a algú, traieu la mà de la butxaca o potser us recolzeu en la persona. Bàsicament, hi ha una 'acció prèvia' associada a cada cosa que fem. L'equip amb l'ajut de pel·lícules es va formar sobre aquestes 'accions prèvies'. I observant cada vegada més pel·lícules, els seus ordinadors van poder predir quina podria ser la propera acció del personatge.

Fàcil, no? Deixeu-me fer-vos una pregunta més en aquest tutorial de ciència de dades. Quin algorisme d'aprenentatge automàtic han d'haver implementat en això?

Components de la ciència de dades

1. Conjunts de dades

Què analitzareu? Dades, oi? Necessiteu moltes dades que es puguin analitzar, aquestes dades s’envien als vostres algorismes o eines d’anàlisi. Obteniu aquestes dades de diverses investigacions realitzades en el passat.

2. R Studio

R és un entorn de programari i llenguatge de programació de codi obert per a computació estadística i gràfics que compta amb el suport de la fundació R. El llenguatge R s'utilitza en un IDE anomenat R Studio.

Per què s’utilitza?

  • Llenguatge estadístic i de programació
    • A part d’utilitzar-se com a llenguatge estadístic, també es pot utilitzar com a llenguatge de programació amb finalitats analítiques.
  • Visualització i anàlisi de dades
    • A més de ser una de les eines d’anàlisi més dominants, R també és una de les eines més populars utilitzades per a la visualització de dades.
  • Senzill i fàcil d'aprendre
    • R és un programa senzill i fàcil d’aprendre, llegir i escriure

  • Lliure i de codi obert
    • R és un exemple de programari FLOSS (Free / Libre i Open Source) que significa que es pot distribuir lliurement còpies d’aquest programari, llegir-ne el codi font, modificar-lo, etc.

R Studio va ser suficient per fer anàlisis, fins que els nostres conjunts de dades es van convertir en enormes, alhora que no es van estructurar al mateix temps. Aquest tipus de dades s’anomenava Big Data.

3. Big Data

Big data és el terme per a una col·lecció de conjunts de dades tan grans i complexos que es fa difícil processar mitjançant eines de gestió de bases de dades o aplicacions tradicionals de processament de dades.

Ara, per domesticar aquestes dades, vam haver de trobar una eina, perquè cap programari tradicional podia gestionar aquest tipus de dades i, per tant, vam crear Hadoop.

4. Hadoop

Hadoop és un marc que ens ajuda botiga i procés grans conjunts de dades de forma paral·lela i de distribució.

Centrem-nos en la part de la botiga i processament d’Hadoop.

diferència entre mutable i immutable

Botiga

La part d'emmagatzematge a Hadoop és gestionada per HDFS, és a dir, el sistema de fitxers distribuïts per Hadoop. Proporciona alta disponibilitat en un ecosistema distribuït. La forma en què funciona és així, divideix la informació entrant en trossos i la distribueix a diferents nodes d’un clúster, cosa que permet l’emmagatzematge distribuït.

Procés

MapReduce és el cor del processament d’Hadoop. Els algoritmes fan dues tasques importants: mapear i reduir. Els mapers divideixen la tasca en tasques més petites que es processen paral·lelament. Un cop, tots els mapers fan la seva part de treball, agrupen els seus resultats i, després, el procés Redueix redueix aquests resultats a un valor més senzill. Per obtenir més informació a Hadoop, podeu consultar el nostre .

Si fem servir Hadoop com a emmagatzematge a Data Science, es fa difícil processar l'entrada amb R Studio, a causa de la seva incapacitat per funcionar bé en entorns distribuïts, de manera que tenim Spark R.

5. Spark R

Es tracta d’un paquet R que proporciona una manera lleugera d’utilitzar Apache Spark amb R. Per què l’utilitzarà per sobre de les aplicacions R tradicionals? Perquè proporciona una implementació de marc de dades distribuïda que admet operacions com la selecció, el filtratge, l'agregació, etc., però en conjunts de dades grans.

Preneu un respir ara! Ja hem acabat amb la part tècnica d’aquest tutorial de ciència de dades. Vegem-ho des de la vostra perspectiva laboral. Crec que ja hauríeu buscat els salaris per a un científic de dades, però, tot i així, anem a discutir les funcions que teniu disponibles com a científic de dades.

Funcions laborals del científic de dades

Alguns dels títols de treball destacats de Data Scientist són:

  • Científic de dades
  • Enginyer de dades
  • Arquitecte de dades
  • Administrador de dades
  • Analista de dades
  • Analista de negoci
  • Gestor de dades / analítiques
  • Director d’intel·ligència empresarial

El gràfic de Payscale.com d’aquest tutorial de ciència de dades que es mostra a continuació mostra el salari mitjà de Data Scientist per habilitats als EUA i a l’Índia.

És hora de perfeccionar-se en ciència de dades i anàlisi de dades grans per aprofitar les oportunitats professionals de ciència de dades que us apareixen. Això ens porta al final del bloc de tutoria de Data Science. Espero que aquest bloc us hagi estat informatiu i de valor afegit. Ara és el moment d’entrar al món de la ciència de dades i convertir-se en un científic de dades amb èxit.

Edureka compta amb un programa especialment curat que us ajuda a adquirir experiència en algorismes d’aprenentatge automàtic com ara K-Means Clustering, Decision Trees, Random Forest, Naive Bayes. També aprendreu els conceptes d’Estadístiques, sèries temporals, mineria de text i una introducció a l’aprenentatge profund. Ben aviat començaran les noves lots d’aquest curs !!

Tens alguna pregunta al Tutorial de ciència de dades? Esmenta’l a la secció de comentaris i et respondrem.