Mesai Saatlerinde
Büyük Veri Altyapısı Eğitimi
Unix işletim sistemleri ve BASH komut satırı arayüzü (CLI) ile aşinalık olduğu varsayılır.
Katılımcılar,terminalden komutları çalıştırmada, çıktıyı yakalayıp yeniden yönlendirmede ve program günlüklerini ve çıktılarını analiz etmede tecrübeli olmalıdır.
Öğrenciler gi5 sürüm kontrol sistemini kullanacak ve add, commit, push, pull, remote ve submodule komutları konusunda bilgi sahibi olmalıdır.
Ders örnekleri Java ve Python ile yazılmıştır. Öğrenciler, her iki programlama dilinin temel sözdizimini ve program yapısını anlayabilmelidir.
Büyük Veri Altyapısı eğitim kursu, geliştiricilere, veri bilimcilere ve DevOps uzmanlarına Büyük Veri hizmetlerinde nasıl gezineceklerini ve bunları nasıl anlayacaklarını öğretir. Katılımcılar Kapsayıcılar (Docker), Hadoop Dağıtılmış Dosya Sistemi (HDFS), Apache Spark, Doğal Dil İşleme (NLP) uygulamaları, Cassandra, Kubernetes ve daha fazlasını nasıl kullanacaklarını öğrenirler.
“Büyük Veri” yi ve ondan içgörü elde etmeye çalışırken ortaya çıkabilecek zorlukları açıklayın: Hacim, hız, çeşitlilik, değişkenlik ve karmaşıklık.
Verilerle geniş ölçekte çalışmak için yaygın olarak kullanılan açık kaynaklı sistemleri tanıtın: Cassandra, Elasticsearch, Hadoop / HDFS, Spark ve Kafka.
Büyük veri ekosisteminin her bir üyesinin genel bakışını ve ele alınması amaçlanan sorunların örneklerini sağlayın.
Kafka'yı derinlemesine inceleyin ve veri akışlarını yönetmek için ardışık düzenler oluşturmak için nasıl kullanılabileceğini görün.
İlişkisel veritabanlarında, Cassandra, Elasticsearch ve Hadoop / HDFS'de depolanan farklı veri türlerini analiz etmek için nasıl kullanılabileceğini göstermek için Spark'a derinlemesine dalın.
BaşlangıçKursta kullanılacak araçları tanıtınPython ve AnacondaJüpiter
Veri ve Büyük VeriVerilerin Zorlukları: 5VCBüyük Veri nedir?Kurtarılacak Teknoloji: Büyük veri kümeleriyle çalışmayı kolaylaştırmaSanallaştırmaEverything as a Service (EaaS): Karmaşık hesaplama araçlarını yönetmek için stratejilerDağıtılmış Depolama ve HesaplamaBir Büyük Veri Çözümünün Özellikleri
Mesos ve DC / OS: İşletim Platformu Modern Veri MerkeziMimariYapılandırma ve yönetimUygulama ve hizmet dağıtımı
Ağ iletişimi, yük dengeleme ve uygulama izolasyonuKafkaGerekçe ve rol: Kafka hangi sorunu çözer?Mimari ve temel bileşenlerDC / OS içinde servis kurulumuAPI: Tüketiciler ve ÜreticilerPython ve Java istemci kitaplıklarıKafka Connect: Yapılandırılmış verileri taşımak ve bunlarla çalışmak için araçlar
Hadoop Dağıtılmış Dosya Depolama (HDFS)HDFS nedir ve Hadoop dünyasına nasıl uymaktadır?HDFS API ve daha sonra analiz için veri almaya yönelik araçlarPython ve Java istemci kitaplıkları
Apache Spark: Büyük Ölçekli Veri İşleme için Genel MotorSpark nedir?Pratikte nasıl kullanılır?Mimari ve bileşenlerEkosistem: Çekirdek, SQL, Makine Öğrenimi (MLlib), GrafikDC / OS içinde servis kurulumuAPI ve ortamYapılandırılmış verilerin analiziSpark, akış veri kümelerini analiz etmek için nasıl kullanılabilir?
ElasticSearch: Aramaya Karşı DepolamaBüyük Veri içinde aramanın rolü nedir? Bir arama motoru ne gibi fayda sağlar?Mimari ve veri depolamaElasticsearch'ün bir analiz platformu olarak kullanılmasını sağlayan nedir: toplama ve belirtmeDC / OS içinde servis kurulumuAnahtar API'lerDoğal Dil İşleme platformu olarak RolüES verilerini keşfetmek için bir görselleştirme platformu olarak Kibana'nın kullanılması
Cassandra: Ölçekte Yapılandırılmamış Veri DepolamaCassandra'nın Amacı: Hangi sorunları çözüyor?Mimari ve bileşenlerAPI ve entegrasyonDC / OS'de servis kurulumuPython ve Java istemcisi
KubernetesDevOps nedir?DevOps uygulamaları Büyük Veri ile nasıl ilişkilidir?Kubernetes DC / OS içinde hangi rolü oynar ve özel yazılımın yönetimini nasıl kolaylaştırabilir?Mimari ve bileşenlerDC / OS'de servis kurulumuVeri hizmetlerini Kubernetes'e dağıtmak için iş akışlarını gösterinKafka bağlantı uygulamalarını bir pod olarak paketleyin ve dağıtınApache Spark Streaming uygulamalarını bir pod olarak paketleyin ve dağıtın