Oggetto e File di scalabilità dei Sistemi di Riempimento Hadoop Archiviazione VoidBIG Dati

(sergeymansurov/Shutterstock)

La rapida crescita dei dati e la mutevole natura dei dati applicazioni è una sfida stabilito concetti architettonici per come memorizzare grandi quantità di dati. Dove una volta le organizzazioni possono avere guardato a grande on-premise dati laghi di centralizzare petabyte di dati strutturati, che ora stanno pensando di file di scalabilità e oggetto sistemi di storage che danno loro una maggiore flessibilità per memorizzare i dati in modo che maglie con il emerging multi-cloud e ibridi paradigma.

Dal Hadoop hype scoppio della bolla, le imprese hanno cercato altri modi di memorizzare le gocce di semi-strutturati e non strutturati di dati che rappresentano la maggior parte del grande diluvio di dati. Le aziende vogliono utilizzare questi dati per una serie di casi d’uso, non ultimo dei quali è la formazione di apprendimento automatico di modelli per automatizzare il processo decisionale.

Mentre i rapporti di Hadoop la morte prematura, l’idea che Hadoop Distributed File System (HDFS) cluster store la maggior parte dell’impresa dei dati chiaramente non è prossima. Hadoop, come ogni overhyped tecnologia che è venuto prima di esso, ha visto la sua impennata stock contrassegnati giù come le persone, ha rivalutato le sue capacità. Cloudera, il sole Hadoop distributore a questo punto, è stato girevole di distanza da Hadoop per un po’, e ora le sue attrazioni per consentire ai clienti di memorizzare ed elaborare i dati in un ibrido modo.

Alla luce di questa tecnologia shake nel grande spazio per i dati, la quantità di moto, chiaramente, è la costruzione di alternative, di metodi di deposito. In particolare, oggetto sistemi di storage stanno guadagnando terreno capannone da Hadoop.

Amazon S3 è diventato il protocollo standard per l’accesso ai dati nel cloud e on prem.

Basato su Cloud object storage systems sono i veri vincitori di oggi, particolarmente AWS‘s S3, che è diventato uno standard de facto interfaccia per la generazione di oggi di sistemi a oggetti. Tutte le società di software di vendita di oggetti di sistemi di archiviazione e la maggior parte dei fornitori di cloud pubblici – con l’eccezione di Microsoft Azure e la sua ADSL store — sport compatibile S3 API per la loro archivi di oggetto.

Nonostante la rapida crescita di cloud pubblici, le imprese sono ancora reticenti a mettere tutte le uova in cloud cestini. Questo presenta un dilemma, dal momento che S3 non eseguire nei locali.

Che emergenti ibrido mandato ha contribuito ad alimentare la crescita di terze parti di oggetti di negozi, tra cui l’open source, come le opzioni di Red Hat‘s Ceph Swift da SwiftStack e OpenStack, e Minio Oggetto di Archiviazione, così come proprietarie, come le opzioni di Scality‘s Ring, Cloudian HyperStore, Dell, EMC‘s Isilon, e Nutanix Oggetti.

Senza teorico superiore limite di archiviazione, archivi di oggetto sono essenzialmente massiccia key-value store, in grado di memorizzare petabyte o exabyte in un unico spazio dei nomi globale, e consentono ai dati di essere ricordato con un semplice tasto. Come HDFS, oggetto sistemi di storage vengono di solito eseguiti su cluster di processori X86 nodi, e la funzione di correzione di errore di routine per ridurre la possibilità di perdita di dati.

Oggetto archivi di excel a memorizzare enormi quantità di dati non strutturati, come video e immagini. Aziende di media e intrattenimento, la sorveglianza, l’assistenza sanitaria, e il petrolio e il gas sono grandi utenti ” oggetto sistemi di storage, grazie alla capacità di immagazzinare enormi quantità di dati.

Mentre la scalabilità ed elasticità sono grandi vantaggi di archivi di oggetto, prestazioni di I/O e la località di dati sono svantaggi. Con il più grande cluster di clienti, potrebbe essere necessario attendere pochi secondi per il loro file per essere restituito. Per questo motivo, oggetto negozi sono spesso utilizzati per il backup e archiviazione, ma non per servire caldo di dati.

2018 Magic Quadrant for Distributed File system e Object Storage (Fonte: Gartner)

Oltre ad oggetto negozi, stiamo vedendo anche l’emergere di una nuova generazione di file system distribuiti, nonché le modifiche di quelli esistenti, di Lucentezza. Molti di questi nuovi sistemi di file distribuiti anche esporre un S3 API e condividere le funzionalità di archivi di oggetto, ma che guardano più tradizionali come sistemi di file quando le coperture sono sbucciato indietro.

In questa categoria, ci sono prodotti come Qumulo‘s file system distribuito, Elastfile Cloud File System (ECFS), WekaIO‘s Matrix, e Hedvig‘s Distribuita Piattaforma di Storage, tra gli altri. In molti casi, questi fornitori sono destinate alla clientela con carichi di lavoro che richiedono un accesso più veloce.

Con più sofisticato dati nella cache e dati-tiering funzionalità, questi file system distribuiti in grado di consegnare la speedy file I/O richiesto dai moderni di dati e applicazioni emergenti macchina di apprendimento e AI casi di utilizzo. Essi, inoltre, sono progettati per giocare bene con i contenitori, come Mobile contenitore e orchestrazione paradigmi come Kubernetes, per non parlare di montaggio in fornitori hyperconverged infrastrutture.

Questo piccolo collo del software-defined storage legno è in rapida crescita. Nella sua 2018 Magic Quadrant for Distributed File system e l’Archiviazione di Oggetti, Gartner previsto che l ‘ 80% dei dati aziendali saranno memorizzati in storage scale-out impianti entro il 2022. Che è due volte la quantità di dati che le aziende sono memorizzati nel file system distribuiti e object storage systems nel 2018, quando il 40% delle imprese è stata memorizzata in sistemi di questo tipo.

Chiaramente, siamo nel bel mezzo di un periodo di rapida evoluzione e spazio di archiviazione. In molti casi, le linee tra gli archivi di oggetto sono i file system distribuiti stanno diventando sempre più sfocata. E molti di questi fornitori di astenersi da tali etichette interamente e chiamare quello che fanno “i dati di tessuto.”

In ogni caso, sono tutti cercando di offrire funzionalità simili, che è quello di dare ai clienti la libertà di memorizzare petabyte di dati, nel luogo di loro scelta (on-premise, cloud, o un ibrido di entrambi), e per servire di dati attraverso una varietà di interfacce, tra l’S3 e Swift Api, ma anche attraverso blocchi di basso livello di storage e di livello più elevato standard di NFS e SMB interfacce.

Dove HDFS potrebbe avere sembrava l’unica opzione in città per molti big data uso dei casi, le imprese devono ora affrontare una pletora di grandi opzioni di memorizzazione dati. Mentre ci sono leader nello spazio non c’è capofila il ritmo da seguire per tutti (a meno che non si contano AWS S3 come nuovo standard di protocollo).

Come la proliferazione di silos di dati, stiamo assistendo a un proliferare di archiviazione di dati standard. Che un po ‘ eleva il rischio per le imprese che cercano di evitare di investire in tecnologie che non durerà, e li costringe a fare i loro compiti a casa, per trovare il giusto software-defined storage system per il proprio compito.

Voci Correlate:

Colpire il Pulsante di Reset sul Hadoop

Mike Olson su Animali dello Zoo, gli Archivi di Oggetto, e il Futuro di Cloudera

IBM Sfide Amazon S3 con Cloud Object Store

social experiment by Livio Acerbo #greengroundit #live https://www.datanami.com/2019/07/17/object-and-scale-out-file-systems-fill-hadoop-storage-void/