Yeni Çağ Sorgu Motoru Apache Drill'in Ayrıntılı İncelemesi

Bu Apache Drill öğreticisi, Apache Drill sorgu motoru, Hadoop ile kullanım, Büyük Veri ve Apache Spark ile kullanmaya başlamak için ihtiyacınız olan tüm bilgileri size verir.



Apache Drill, sektörün ilk şemasız SQL Motorudur. Matkap, dünyanın ilk sorgu motoru değil, ancak esneklik ve hız arasındaki ince dengeyi sağlayan ilk kişidir. Drill, BI / Analytics ortamlarının gerektirdiği etkileşimli hızlarda binlerce düğüme ölçeklenecek ve petabaytlarca veriyi sorgulayacak şekilde tasarlanmıştır.



Hive, HBase, MongoDB, dosya sistemi, RDBMS gibi çeşitli veri kaynakları ile entegre olabilir. Ayrıca, Avro, CSV, TSV, PSV, Parquet, Hadoop Sequence dosyaları ve diğerleri gibi girdi formatları Drill'de kolaylıkla kullanılabilir.

Neden Apache Drill?

Apache Drill'in en büyük avantajı, herhangi bir veriyi sorgularken şemayı anında keşfedebilmesidir. Dahası, daha iyi analitik için Tableau, Qlikview, MicroStrategy gibi BI araçlarınızla çalışabilir.



Apache Drill'in değerini özetleyen bir endüstri analistinden bir alıntı:

'Drill sadece SQL-on-Hadoop'tan ibaret değil. Hemen ve formalite olmaksızın hemen hemen her şey üzerine SQL ile ilgili. '

- Andrew Burst, Gigaom Research, Ocak 2015



Drillbit, kümedeki her düğümde çalışan Apache Drill arka plan programıdır. Kümedeki tüm iletişim ve ana küme üyeliği için ZooKeeper'ı kullanır. Müşteriden gelen talepleri kabul etmekten, sorguları işlemekten ve sonuçları müşteriye iade etmekten sorumludur. Müşteriden talebi alan matkap bitine 'ustabaşı' denir. Yürütme planını oluşturur, yürütme parçaları kümede çalışan diğer matkap uçlarına gönderilir.

Drillbits-Apache-Drill

Bir başka avantaj da, matkabın kurulumunun ve kurulumunun oldukça basit olmasıdır. Apache Drill'in nasıl kurulacağını öğrenelim.

İlk adım, tatbikat paketini indirmektir.

double'dan int java'ya nasıl dönüştürülür

Komut: wget https://archive.apache.org/dist/drill/drill-1.5.0/apache-drill-1.5.0.tar.gz

Komut: tar -xvf apache-drill-1.5.0.tar.gz

Komut: ls

Ardından, .bashrc dosyasındaki ortam değişkenlerini ayarlayın.

Komut: sudo gedit .bashrc

dışa aktar DRILL_HOME = / home / edureka / apache-drill-1.5.0

dışa aktarma PATH = $ PATH: /home/edureka/apache-drill-1.5.0/bin

Bu komut değişiklikleri güncelleyecektir:

Komut: kaynak .bashrc

Şimdi conf dizinine gidin ve drill-override.conf dosyasını küme kimliği ve zookeeper host & port ile düzenleyin, onu yerel bir kümede çalıştıracağız.

Komut: cd apache-matkap-1.5.0

Komut: sudo gedit conf / drill-override.conf

Varsayılan olarak, DRILL_MAX_DIRECT_MEMORY, drill-env.sh içinde 8 GB olacaktır ve sahip olduğumuz belleğe göre saklamamız gerekir.

Komut: sudo gedit conf / drill-env.sh

Detayı yalnızca tek bir düğümde kurmak için, yerel olarak çalışacağı gömülü modu kullanabilirsiniz. Bu komutu çalıştırdığınızda otomatik olarak matkap servisini başlatacaktır.

Komut: ./bin/drill-embedded

Kurulumu kontrol etmek için basit bir sorgu çalıştırabilirsiniz.

Komut: sys.options WHERE type = 'SYSTEM' arasından * seçin ve 'security%' gibi bir ad seçin

Apache Drill'in web konsolunu kontrol etmek için web tarayıcısında localhost: 8047'ye gitmemiz gerekiyor.

Sorgunuzu Sorgu sekmesinden de çalıştırabilirsiniz.

Detayı dağıtılmış modda çalıştırmak için, küme kimliğini düzenlemeniz ve aşağıdaki gibi drill-override.conf dosyasına ZooKeeper bilgilerini eklemeniz gerekir.

Ardından her düğümde ZooKeeper hizmetini başlatmamız gerekiyor. Bundan sonra bu komutla her düğümde Drillbit hizmetini başlatmanız gerekir.

bir dizi php nasıl yazdırılır

Komut: ./bin/drillbit.sh start

Komut: jps

Şimdi, matkap kabuğunu başlatmak için aşağıdaki komutu kullanıyoruz.

Artık sorgularımızı dağıtılmış modda cluster üzerinde yürütebiliriz.

Bu, iki bölümden oluşan Apache Drill blog dizisindeki ilk blog gönderisidir. Serinin ikinci blogu yakında geliyor.

Bizim için bir sorunuz mu var? Onlardan yorum bölümünde bahsedin, size geri döneceğiz.

İlgili Mesajlar:

Apache Drill Bölüm 2'de Detaya Gitme

Apache Spark Vs Hadoop MapReduce