Langkah Instalasi Hadoop di Ubuntu Linux Server (Panduan Lengkap)

Pernahkah Anda merasa kewalahan dengan data yang terus membengkak dan sistem yang lambat saat mengelolanya? Di era Big Data ini, pengelolaan data dalam skala besar memang menjadi tantangan tersendiri. Untungnya, ada solusi tangguh yang bisa membantu Anda, yaitu Apache Hadoop.

Hadoop adalah framework sumber terbuka yang dirancang untuk menyimpan dan memproses data dalam jumlah sangat besar secara terdistribusi di seluruh klaster komputer, menggunakan model pemrograman sederhana. Ini berarti Anda bisa memecah tugas komputasi raksasa menjadi bagian-bagian kecil dan menyelesaikannya secara paralel, jauh lebih cepat dan efisien. Jika Anda siap untuk terjun ke dunia Big Data dan mulai menguasai Hadoop di server Ubuntu Linux Anda, mari kita mulai panduan instalasi lengkap ini.

Persiapan Awal di Ubuntu Server

Sebelum kita melangkah lebih jauh, ada beberapa persiapan penting yang harus kita lakukan pada server Ubuntu Anda. Ini akan memastikan proses instalasi Hadoop berjalan lancar tanpa hambatan.

Update Sistem dan Instalasi Java

Langkah pertama yang krusial adalah memastikan sistem Ubuntu Anda selalu diperbarui dan menginstal Java Development Kit (JDK) yang diperlukan oleh Hadoop. Hadoop ditulis dalam Java, jadi ini adalah prasyarat mutlak.

Buka terminal dan jalankan perintah berikut untuk memperbarui paket sistem:

sudo apt update && sudo apt upgrade -y

Setelah sistem diperbarui, instal OpenJDK, versi Java yang direkomendasikan untuk Hadoop. Kita akan menggunakan OpenJDK 8:

sudo apt install openjdk-8-jdk -y

Verifikasi instalasi Java dengan memeriksa versinya:

java -version

Anda akan melihat output yang menunjukkan versi Java 1.8.x. Ini menandakan Java sudah terinstal dengan benar.

Konfigurasi SSH Tanpa Password

Hadoop menggunakan SSH untuk mengelola node-node dalam klaster. Untuk mempermudah komunikasi antar node (dan juga antara NameNode dan DataNode pada instalasi pseudo-distributed seperti yang akan kita lakukan), kita perlu mengonfigurasi SSH agar tidak memerlukan password.

Berikut langkah-langkahnya:

ssh-keygen -t rsa -P "" -f ~/.ssh/id_rsa

Perintah di atas akan membuat pasangan kunci publik/privat. Parameter -P "" berarti tanpa passphrase. Selanjutnya, tambahkan kunci publik ke authorized_keys:

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

Pastikan hak akses pada file authorized_keys sudah benar:

chmod 0600 ~/.ssh/authorized_keys

Untuk menguji apakah SSH tanpa password berfungsi, coba koneksi ke localhost:

ssh localhost

Jika Anda tidak diminta password, berarti konfigurasi Anda berhasil.

Mengunduh dan Menginstal Hadoop

Setelah persiapan sistem selesai, sekarang saatnya mendapatkan file instalasi Hadoop itu sendiri.

Pilih Versi dan Unduh Hadoop

Kunjungi situs resmi Apache Hadoop untuk melihat versi stabil terbaru. Untuk panduan ini, kita akan menggunakan Hadoop 3.3.6 (Anda bisa menggantinya dengan versi terbaru yang stabil). Unduh file TAR.GZ-nya:

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz

Setelah selesai diunduh, ekstrak file tersebut ke lokasi yang mudah diakses, misalnya /usr/local/hadoop:

tar -xvf hadoop-3.3.6.tar.gz

sudo mv hadoop-3.3.6 /usr/local/hadoop

Pastikan Anda mengganti hadoop-3.3.6 dengan nama folder hasil ekstraksi yang sesuai dengan versi yang Anda unduh.

Konfigurasi Lingkungan Hadoop

Ini adalah bagian krusial di mana kita akan mengatur variabel lingkungan dan file konfigurasi Hadoop agar dapat berjalan dengan baik di sistem Anda.

Mengatur Variabel Lingkungan

Kita perlu memberi tahu sistem lokasi instalasi Java dan Hadoop. Tambahkan variabel ini ke file ~/.bashrc Anda:

nano ~/.bashrc

Tambahkan baris-baris berikut di akhir file:

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

Simpan dan tutup file (Ctrl+O, Enter, Ctrl+X). Kemudian, aktifkan perubahan dengan:

source ~/.bashrc

Mengedit File Konfigurasi Hadoop

Sekarang, kita akan mengedit beberapa file konfigurasi utama Hadoop yang terletak di /usr/local/hadoop/etc/hadoop/.

hadoop-env.sh: Setel JAVA_HOME di sini.

nano /usr/local/hadoop/etc/hadoop/hadoop-env.sh

Cari baris yang diawali dengan export JAVA_HOME= dan ubah menjadi:

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

core-site.xml: Konfigurasi properti inti Hadoop.

nano /usr/local/hadoop/etc/hadoop/core-site.xml

Tambahkan konfigurasi berikut di antara tag <configuration>:

<property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
</property>

hdfs-site.xml: Konfigurasi HDFS (Hadoop Distributed File System).

nano /usr/local/hadoop/etc/hadoop/hdfs-site.xml

Tambahkan konfigurasi berikut di antara tag <configuration>. Buat direktori namenode dan datanode terlebih dahulu:

sudo mkdir -p /usr/local/hadoop/hadoop_data/hdfs/namenode
sudo mkdir -p /usr/local/hadoop/hadoop_data/hdfs/datanode
sudo chown -R $USER:$USER /usr/local/hadoop/hadoop_data

Lalu, tambahkan:

<property>
    <name>dfs.namenode.name.dir</name>
    <value>file:///usr/local/hadoop/hadoop_data/hdfs/namenode</value>
</property>
<property>
    <name>dfs.datanode.data.dir</name>
    <value>file:///usr/local/hadoop/hadoop_data/hdfs/datanode</value>
</property>
<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>

Nilai dfs.replication diset ke 1 karena ini adalah instalasi pseudo-distributed.

mapred-site.xml: Konfigurasi MapReduce.

File ini biasanya berupa template. Salin dulu:

cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xml

Lalu edit:

nano /usr/local/hadoop/etc/hadoop/mapred-site.xml

Tambahkan konfigurasi berikut di antara tag <configuration>:

<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>

yarn-site.xml: Konfigurasi YARN (Yet Another Resource Negotiator).

nano /usr/local/hadoop/etc/hadoop/yarn-site.xml

Tambahkan konfigurasi berikut di antara tag <configuration>:

<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>
<property>
    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>localhost</value>
</property>

"Diperkirakan bahwa volume data global akan mencapai lebih dari 180 zettabyte pada tahun 2025, menjadikan teknologi seperti Hadoop semakin vital dalam mengelola lautan informasi ini."

Format HDFS dan Menjalankan Hadoop

Setelah semua konfigurasi selesai, kita perlu memformat NameNode HDFS. Penting: Lakukan ini hanya sekali pada instalasi pertama, karena akan menghapus semua data di HDFS jika Anda melakukannya lagi!

hdfs namenode -format

Sekarang, saatnya menjalankan semua daemon Hadoop. Kita bisa menggunakan skrip yang disediakan Hadoop:

start-dfs.sh
start-yarn.sh

Untuk memverifikasi apakah semua daemon sudah berjalan, gunakan perintah jps (Java Virtual Machine Process Status Tool):

jps

Anda seharusnya melihat proses seperti NameNode, DataNode, SecondaryNameNode, ResourceManager, dan NodeManager. Jika semua terlihat, selamat! Hadoop Anda sudah berhasil terinstal dan berjalan.

Menginstal Hadoop memang membutuhkan beberapa langkah teknis, tetapi hasil akhirnya sepadan dengan usaha yang Anda curahkan. Dengan Hadoop, Anda kini memiliki fondasi yang kokoh untuk menjelajahi dan menganalisis set data yang sangat besar, membuka pintu ke wawasan baru dan solusi inovatif. Jangan ragu untuk bereksperimen dengan perintah HDFS dasar atau mencoba menjalankan contoh MapReduce pertama Anda.

Apakah Anda menemui kesulitan selama proses instalasi? Atau mungkin Anda punya tips dan trik tambahan yang ingin dibagikan kepada pembaca lain? Jangan sungkan untuk berbagi pengalaman atau pertanyaan Anda di kolom komentar di bawah ini. Kami selalu senang mendengar cerita sukses Anda dan membantu jika ada kendala!

Nuryahya

Langkah Instalasi Hadoop di Ubuntu Linux Server (Panduan Lengkap)

Persiapan Awal di Ubuntu Server

Update Sistem dan Instalasi Java

Konfigurasi SSH Tanpa Password

Mengunduh dan Menginstal Hadoop

Pilih Versi dan Unduh Hadoop

Konfigurasi Lingkungan Hadoop

Mengatur Variabel Lingkungan

Mengedit File Konfigurasi Hadoop

Format HDFS dan Menjalankan Hadoop

Posting Komentar

Panduan Instalasi Orthanc Server dengan MySQL di Linux Mint

Memodifikasi Fitur Scan Barcode untuk Validasi Surat di Sistem Informasi Manajemen Rumah Sakit (SIMRS) Khanza

Sistem Antrian Pasien Mandiri dengan Validasi Biometrik dan Integrasi MJKn

How to Install Cyberpanel on Ubuntu 22.04 Complete

Pendaftaran Pasien Menggunakan Mobile JKN Bagian Admin di SIMRS Khanza