
Pernahkah Anda merasa kewalahan dengan data yang terus membengkak dan sistem yang lambat saat mengelolanya? Di era Big Data ini, pengelolaan data dalam skala besar memang menjadi tantangan tersendiri. Untungnya, ada solusi tangguh yang bisa membantu Anda, yaitu Apache Hadoop.
Hadoop adalah framework sumber terbuka yang dirancang untuk menyimpan dan memproses data dalam jumlah sangat besar secara terdistribusi di seluruh klaster komputer, menggunakan model pemrograman sederhana. Ini berarti Anda bisa memecah tugas komputasi raksasa menjadi bagian-bagian kecil dan menyelesaikannya secara paralel, jauh lebih cepat dan efisien. Jika Anda siap untuk terjun ke dunia Big Data dan mulai menguasai Hadoop di server Ubuntu Linux Anda, mari kita mulai panduan instalasi lengkap ini.
Persiapan Awal di Ubuntu Server
Sebelum kita melangkah lebih jauh, ada beberapa persiapan penting yang harus kita lakukan pada server Ubuntu Anda. Ini akan memastikan proses instalasi Hadoop berjalan lancar tanpa hambatan.
Update Sistem dan Instalasi Java
Langkah pertama yang krusial adalah memastikan sistem Ubuntu Anda selalu diperbarui dan menginstal Java Development Kit (JDK) yang diperlukan oleh Hadoop. Hadoop ditulis dalam Java, jadi ini adalah prasyarat mutlak.
- Buka terminal dan jalankan perintah berikut untuk memperbarui paket sistem:
sudo apt update && sudo apt upgrade -ysudo apt install openjdk-8-jdk -yjava -versionAnda akan melihat output yang menunjukkan versi Java 1.8.x. Ini menandakan Java sudah terinstal dengan benar.
Konfigurasi SSH Tanpa Password
Hadoop menggunakan SSH untuk mengelola node-node dalam klaster. Untuk mempermudah komunikasi antar node (dan juga antara NameNode dan DataNode pada instalasi pseudo-distributed seperti yang akan kita lakukan), kita perlu mengonfigurasi SSH agar tidak memerlukan password.
Berikut langkah-langkahnya:
ssh-keygen -t rsa -P "" -f ~/.ssh/id_rsaPerintah di atas akan membuat pasangan kunci publik/privat. Parameter -P "" berarti tanpa passphrase. Selanjutnya, tambahkan kunci publik ke authorized_keys:
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keysPastikan hak akses pada file authorized_keys sudah benar:
chmod 0600 ~/.ssh/authorized_keysUntuk menguji apakah SSH tanpa password berfungsi, coba koneksi ke localhost:
ssh localhostJika Anda tidak diminta password, berarti konfigurasi Anda berhasil.
Mengunduh dan Menginstal Hadoop
Setelah persiapan sistem selesai, sekarang saatnya mendapatkan file instalasi Hadoop itu sendiri.
Pilih Versi dan Unduh Hadoop
Kunjungi situs resmi Apache Hadoop untuk melihat versi stabil terbaru. Untuk panduan ini, kita akan menggunakan Hadoop 3.3.6 (Anda bisa menggantinya dengan versi terbaru yang stabil). Unduh file TAR.GZ-nya:
wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gzSetelah selesai diunduh, ekstrak file tersebut ke lokasi yang mudah diakses, misalnya /usr/local/hadoop:
tar -xvf hadoop-3.3.6.tar.gzsudo mv hadoop-3.3.6 /usr/local/hadoopPastikan Anda mengganti hadoop-3.3.6 dengan nama folder hasil ekstraksi yang sesuai dengan versi yang Anda unduh.
Konfigurasi Lingkungan Hadoop
Ini adalah bagian krusial di mana kita akan mengatur variabel lingkungan dan file konfigurasi Hadoop agar dapat berjalan dengan baik di sistem Anda.
Mengatur Variabel Lingkungan
Kita perlu memberi tahu sistem lokasi instalasi Java dan Hadoop. Tambahkan variabel ini ke file ~/.bashrc Anda:
nano ~/.bashrcTambahkan baris-baris berikut di akhir file:
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"Simpan dan tutup file (Ctrl+O, Enter, Ctrl+X). Kemudian, aktifkan perubahan dengan:
source ~/.bashrcMengedit File Konfigurasi Hadoop
Sekarang, kita akan mengedit beberapa file konfigurasi utama Hadoop yang terletak di /usr/local/hadoop/etc/hadoop/.
hadoop-env.sh: SetelJAVA_HOMEdi sini.core-site.xml: Konfigurasi properti inti Hadoop.hdfs-site.xml: Konfigurasi HDFS (Hadoop Distributed File System).mapred-site.xml: Konfigurasi MapReduce.yarn-site.xml: Konfigurasi YARN (Yet Another Resource Negotiator).
nano /usr/local/hadoop/etc/hadoop/hadoop-env.shCari baris yang diawali dengan export JAVA_HOME= dan ubah menjadi:
export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64nano /usr/local/hadoop/etc/hadoop/core-site.xmlTambahkan konfigurasi berikut di antara tag <configuration>:
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>nano /usr/local/hadoop/etc/hadoop/hdfs-site.xmlTambahkan konfigurasi berikut di antara tag <configuration>. Buat direktori namenode dan datanode terlebih dahulu:
sudo mkdir -p /usr/local/hadoop/hadoop_data/hdfs/namenode
sudo mkdir -p /usr/local/hadoop/hadoop_data/hdfs/datanode
sudo chown -R $USER:$USER /usr/local/hadoop/hadoop_dataLalu, tambahkan:
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///usr/local/hadoop/hadoop_data/hdfs/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///usr/local/hadoop/hadoop_data/hdfs/datanode</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>Nilai dfs.replication diset ke 1 karena ini adalah instalasi pseudo-distributed.
File ini biasanya berupa template. Salin dulu:
cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xmlLalu edit:
nano /usr/local/hadoop/etc/hadoop/mapred-site.xmlTambahkan konfigurasi berikut di antara tag <configuration>:
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>nano /usr/local/hadoop/etc/hadoop/yarn-site.xmlTambahkan konfigurasi berikut di antara tag <configuration>:
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>"Diperkirakan bahwa volume data global akan mencapai lebih dari 180 zettabyte pada tahun 2025, menjadikan teknologi seperti Hadoop semakin vital dalam mengelola lautan informasi ini."
Format HDFS dan Menjalankan Hadoop
Setelah semua konfigurasi selesai, kita perlu memformat NameNode HDFS. Penting: Lakukan ini hanya sekali pada instalasi pertama, karena akan menghapus semua data di HDFS jika Anda melakukannya lagi!
hdfs namenode -formatSekarang, saatnya menjalankan semua daemon Hadoop. Kita bisa menggunakan skrip yang disediakan Hadoop:
start-dfs.sh
start-yarn.shUntuk memverifikasi apakah semua daemon sudah berjalan, gunakan perintah jps (Java Virtual Machine Process Status Tool):
jpsAnda seharusnya melihat proses seperti NameNode, DataNode, SecondaryNameNode, ResourceManager, dan NodeManager. Jika semua terlihat, selamat! Hadoop Anda sudah berhasil terinstal dan berjalan.
Menginstal Hadoop memang membutuhkan beberapa langkah teknis, tetapi hasil akhirnya sepadan dengan usaha yang Anda curahkan. Dengan Hadoop, Anda kini memiliki fondasi yang kokoh untuk menjelajahi dan menganalisis set data yang sangat besar, membuka pintu ke wawasan baru dan solusi inovatif. Jangan ragu untuk bereksperimen dengan perintah HDFS dasar atau mencoba menjalankan contoh MapReduce pertama Anda.
Apakah Anda menemui kesulitan selama proses instalasi? Atau mungkin Anda punya tips dan trik tambahan yang ingin dibagikan kepada pembaca lain? Jangan sungkan untuk berbagi pengalaman atau pertanyaan Anda di kolom komentar di bawah ini. Kami selalu senang mendengar cerita sukses Anda dan membantu jika ada kendala!