Importància de la ciència de dades amb Cassandra



Cassandra és una base de dades de codi obert per gestionar grans quantitats de dades en molts servidors, de manera que la demanda dels científics de dades amb coneixements de cassandra és elevada.

'

La ràpida expansió de dades digitals a través d’ordinadors, mòbils, vídeo, xarxes socials, sensors digitals, etc., combinada amb grans avenços en la potència de processament de baix cost, aplicacions de bases de dades de codi obert i amplada de banda més àmplia, ha suscitat un gran interès a tot el món empresarial a tot el món. camp emergent de la ciència del Big Data i analítica.





Les dades massives en grans volums no estructurats són massa grans per ser gestionades i analitzades mitjançant mètodes tradicionals. La gran quantitat i velocitat de les dades actuals fa que capturar, filtrar, emmagatzemar i analitzar sigui un veritable repte. Per solucionar-ho, es desenvolupen regularment nous productes que requereixen noves habilitats i experiència. Hi ha una necessitat creixent d’individus que puguin integrar noves infraestructures, plataformes i processos a l’organització, així com aquells que puguin construir noves analítiques i algorismes capaços de crear una intel·ligència enorme de gran valor empresarial. Per obtenir més informació, llegiu la nostra publicació del bloc a

Rellevància de la ciència de dades en diferents indústries:

Data Science & Analytics té aplicacions en tots els sectors:



  • comerç electrònic - Motors de personalització i recomanació que augmenten les vendes.
  • Publicitat - Enviament d’anuncis en temps real molt orientat als consumidors.
  • Mitjans de comunicació i entreteniment - Desenvolupament de contingut personalitzat que maximitza la interacció dels usuaris.
  • social Media - Augment de la 'viscositat' del lloc, creixement de l'usuari, capacitat per fer un seguiment de les tendències ràpides basades en els sentiments dels consumidors.
  • Serveis financers –Pràctiques de préstecs optimitzades que minimitzen el risc i el frau.
  • Farmacèutica / Bioinformàtica - Millora del descobriment de fàrmacs, tractaments més eficaços de malalties amenaçadores, millores en enginyeria genètica.
  • Atenció sanitària - Millor puntuació dels riscos per a la salut de pacients mèdics, així com previsió i prevenció precoç de malalties.
  • Potència / energia - Intel·ligència de xarxa intel·ligent, eficiència d’ús, estalvi d’energia i reducció del temps d’aturada.
  • Seguretat de la informació - S'ha millorat enormement la detecció de robatoris i la supervisió d'informació i actius valuosos de l'empresa.

Habilitats clau dels professionals de la ciència de dades:

El domini de la ciència de dades requereix professionals que:

  • Comprèn l’anàlisi de dades i la ciència de la decisió
  • Tenen un bon coneixement de les TI
  • Tenir una forta visió empresarial
  • Posseir la capacitat de comunicar-se eficaçment amb els responsables de la presa de decisions

Llegeix més: Competències bàsiques necessàries per ser científic de dades.

Tecnologies comunes associades a la pràctica de la ciència de dades:

Tecnologies associades a la ciència de dades



  • Bases de dades

Oracle, SQL Server, Teradata

Cassandra, Hadoop, MapReduce, HBase

és hadoop difícil d'aprendre

Aster, Greenplum, Netezza

  • Idiomes

Ajax, C ++, CSS, HTML5, Java, JavaScript, Perl, Python, Scala

Hive, Pig, Lucene, Mahout, Solr

és java basat en c
  • Estadístiques i previsions

Angoss, MATLAB, R, SAS, SPSS

ARCH, GARCH, SVAR, VAR, VEC, GAUSS

  • Visualització de dades

QlikView, Spotfire, Tableau, yWorks, R

  • BI i informes

BusinessObjects, Cognos, MicroStrategy

Què és Cassandra?

  • Apache Cassandra és un sistema de gestió de bases de dades distribuïdes de codi obert dissenyat per gestionar grans quantitats de dades en molts servidors de productes bàsics.
  • Cassandra proporciona una alta disponibilitat sense cap punt de fallada.
  • Cassandra ofereix un sòlid suport per a clústers que abasten diversos centres de dades, amb una replicació asíncrona sense mestre que permet operacions de baixa latència per a tots els clients.

Per obtenir més informació, llegiu la nostra publicació al bloc a .

Com fa Data Science l’ús de Cassandra?

Cassandra és & shy & timy una base de dades distribuïda per a serveis de baixa latència i alt rendiment que gestionen càrregues de treball en temps real que inclouen centenars d'actualitzacions per segon i desenes de milers de lectures per segon.

Cassandra Cas d'ús: PROS:

PROS és una empresa de programari de Big Data amb analítiques preceptives al seu programari que facilita als seus clients analitzar les seves dades i obtenir informació i orientacions per optimitzar la seva gestió de preus, vendes i ingressos.

Disposen d’un servei en temps real que calcula la disponibilitat de les companyies aèries, tenint en compte dinàmicament les dades de control d’ingressos i els nivells d’inventari que poden canviar centenars de vegades per segon.

Aquest servei es consulta diversos milers de vegades per segon, cosa que es tradueix en desenes de milers de cerques de dades. La seva capa d'emmagatzematge de fons per a aquest servei és Cassandra.

Per a la seva solució en temps real, PROS es va adonar de la necessitat de:

diff entre hashmap i hashtable
  • Una memòria cau distribuïda molt disponible.
  • Fàcilment escalable.
  • Amb una arquitectura sense mestre.
  • Amb una rèplica de dades gairebé en temps real, fins i tot entre centres de dades.
  • Això permet gestionar les lectures i escriptures en temps real.

PROS va avaluar Cassandra contra Oracle Berkeley DB, Oracle Coherence, Terracotta, Voldemort i Redis. Apache Cassandra va encapçalar la llista amb força facilitat.

PROS i Cassandra

  • PROS utilitza Cassandra com a base de dades distribuïda per a serveis de baixa latència i alt rendiment que gestionen càrregues de treball en temps real que inclouen centenars d’actualitzacions per segon i desenes de milers de lectures per segon.
  • Per exemple, tenen un servei en temps real que calcula la disponibilitat de les línies aèries de manera dinàmica tenint en compte les dades de control d’ingressos i els nivells d’inventari que poden canviar centenars de vegades per segon. Aquest servei es consulta diversos milers de vegades per segon, cosa que es tradueix en desenes de milers de cerques de dades. La seva capa d'emmagatzematge de fons per a aquest servei és Cassandra. Algunes de les seves ofertes SaaS utilitzen Cassandra com a botiga de backend per gestionar una combinació de càrregues de treball per lots basades en temps real i Hadoop.
  • Parlant d’Hadoop i Cassandra, treuen les dades de Cassandra i les posen a Hadoop i executen lots i anàlisis sobre això, i després tornen a Cassandra. Això s’aconsegueix mitjançant la integració de Cassandra Hadoop.
  • Les feines Hadoop extreuen dades de Cassandra, apliquen transformacions o anàlisis específiques de feines i empenyen les dades cap a Cassandra. No fan servir l'edició Enterprise Datastax (Cassandra Maintainer oficial) per a aquesta integració, només la instal·lació de codi obert Hadoop amb Cassandra.

Modelització de dades amb Cassandra:

Quan voleu substituir un magatzem de valor-clau per alguna cosa més capaç de replicar i distribuir dades en temps real, les investigacions sobre Dynamo, el teorema CAP i el model de coherència eventual mostren que Cassandra s’adapta força bé a aquest model. A mesura que s’aprèn més sobre les capacitats de modelatge de dades, anem progressivament cap a la descomposició de les dades.

Si un prové d’una base de dades relacional amb una forta semàntica d’ACID, s’ha de prendre el temps per entendre el model de coherència eventual.

Comprendre molt bé l’arquitectura de Cassandra i què fa sota el capó. Amb Cassandra 2.0 obtindreu transaccions i activadors lleugers, però no són els mateixos que les transaccions de base de dades tradicionals que es poden conèixer. Per exemple, no hi ha restriccions de claus externes disponibles: s’ha de gestionar amb la pròpia aplicació. És imprescindible entendre els casos d’ús i els patrons d’accés a les dades abans de modelar les dades amb Cassandra i llegir tota la documentació disponible.

Conclusió:

Apache Cassandra evoluciona ràpidament i estem aprenent i comprenent les seves capacitats, sobretot pel que fa al modelatge de dades. Ho veiem com una base de dades distribuïda NoSQL que podem triar per als nostres serveis i solucions de Big Data.

Edureka proporciona una completa per a aquells que desitgin convertir-se en un científic de dades. El curs cobreix una àmplia gamma de tècniques d’aprenentatge automàtic, Hadoop, R i abast de l’estudi complet de ciència de dades. Edureka també proporciona això us ajuda a dominar les bases de dades NoSQL. Aquest curs està dissenyat per proporcionar coneixements i habilitats per convertir-se en un expert Cassandra amb èxit.