Big Data with Hadoop

12_196Bagi sebagian besar researcher supercomputer baik HA maupun HPC (lihat tulisan saya di supercomputer dg native GNU/ Linux https://tifosilinux.wordpress.com/category/artikel-hary/) pasti akan lebih tertarik kepada yang sifatnya pendistribusian, parallel maupun batch process pada komputer skala besar.

Cloudera Apache Hadoop tentu menjadi sebuah pilihan menarik bagi para Big Data Enthusiasm. Karena metode pendistribusian file system  (HDFS) yang telah digunakan yahoo dan ditawarkan apache ini sangat luar biasa. Secara awam, kita akan lebih mudah mengerti dengan penjelasan bergambar berikut, silahkan download di sini  komik-hadoop (sebelumnya terimakasih kepada mahasiswa-mahasiswa ITB atas ke-ikhlasan nya membagi informasi lewat situs http://develop.itb.ac.id:3000/projects/habibie_faried ).

Satu konsep yang tidak boleh kita lupakan mengenai hadoop ini adalah adanya namenode dan datanode (silahkan download dan simak dokumen ‘bergambar’ tersebut).

Melalui bantuan package cloudera-cdh-4.0.x86_64.rpm dan semua dependensi nya, kita sudah bisa memahami hadoop dalam sebuah virtual machine. Ada 2 berkas yang mewakili pengaturan lokasi system perihal dimana hadoop berjalan dan path dari namenode serta datanode, yakni core-site.xml dan hdfs-site.xml,  jangan lupa juga pengaturan environment java pada linux kita karena hadoop ini menggunakan service dari java.

Secara teknis, setelah masuk dengan mode user hdfs (su – hdfs) dan melakukan formatting dengan parameter ~$ hadoop namenode -format , kita sudah dapat ‘menghidupkan’ hadoop, tentunya setelah penyesuaian dalam 2 file diatas yang sebelumnya saya sebutkan. Selanjutnya kita bisa menerapkan berbagai fitur (membagi quota misalnya, membaca report dll). Jangan lupa set owner ke hdfs:hadoop dan modification ke 755.
core-site-xmlhdfs-site-xml
mounthadoop_screen_fsck
Berikutnya bahkan kita bisa melakukan integrasi hadoop dengan layanan ftp secara anonymous, rsync,  wordcount mapreduce, belum lagi masalah penggunaan jobtracker. 

Jika tampilan hitam putih diatas kurang familiar bagi kita, cobalah mengakses url http://<ip_hadoop&gt;:5007/ lewat browser, semua informasi mengenai node yang dead, live, under-replicated, dsb akan jelas terlihat. Sekali lagi ingat, hal diatas hanyalah pada single-node saja (tidak ada replika datanode) dan akan berbeda perlakuannya jika kita menerapkan metode multi-node.

Selamat Berkreasi dan Mencoba.
Salam -Hary-

Catatan ftp :
Disini kita menggunakan paket vsftpd :
– yum install vsftpd
– config file /etc/vsftpd/vsftpd.conf . Edit beberapa option berikut :
anonymous_enable=NO # Disini tidak kita setting anonymous
local_enable=YES
write_enable=YES
– Jika menggunakan CentOS 6, allowed port 21 dan service ftp di : /etc/sysconfig/iptables-config
IPTABLES_MODULES=”nf_conntrack_ftp”
– Jika menggunakan CentOS 5 :
IPTABLES_MODULES=”ip_conntrack_ftp”
– Jika ingin merubah default directory ftp, tambahkan : local_root=/<your_path_directory>/
– Buat user untuk ftp nya dan buat agar user tersebut ‘hanya’ dapat memanfaatkan layanan ftp tanpa bisa SSH
useradd eagames && passwd eagames
usermod -s /sbin/nologin eagames
– Buka browser dengan ftp://<Your_Address>

Advertisements

One response to “Big Data with Hadoop

  1. Pingback: WordPress Upload/ Install theme or Plugins Issue | TifosiLinux

Tinggalkan pesan atau komentar

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s