仕事やプライベートで調べたことのメモ書きなど(@札幌)

仕事やプライベートで調べたこと、興味ある事のメモ書きです。2016年4月から札幌で働いてます。※このブログは個人によるもので、団体を代表するものではありません。

Windows上のVirtualboxに、Hadoopをインストしてみる(on CentOS7 (on VirtualBox-vagrant (on Windows 10)))

Hadoopというものにちょっとだけ触れてみたく、以下の記事が一番簡単そうだったので試してみました。
環境は、Windows 10上にvagrantvirtualboxを入れて、その上で動作しているCentOS7の環境となります。
garbagetown.hatenablog.com

まず、手順に従いvagrantfileを修正してVMのメモリを1GBに変更

  config.vm.provider "virtualbox" do |vb|
  #   # Display the VirtualBox GUI when booting the machine
  #   vb.gui = true
  #
  #   # Customize the amount of memory on the VM:
     vb.memory = "1024"
  end

次にAnsibleのインストールは以下のサイトに従いました。
thinkit.co.jp
ルートに変更後、以下を実行しました。

yum install epel-release
yum install ansible

その後/etc/ansible/hostsには、vagrantで設定した192.168.33.10ものを記述します。

次に以下の ansible-galaxy コマンドを使って playbook をダウンロードします。これはインストするhadoopのやつの指定ですね、きっと。

sudo ansible-galaxy install garbagetown.cdh5_yarn_pseudo

元の手順に従い、main.ymlファイルを作成しますが、以下のように変更しました。

- hosts: 192.168.33.10
  connection: local

  roles:
    - garbagetown.cdh5_yarn_pseudo

  vars:
    - java_version: 8

実行時にはrootで実行するようにします。

sudo ansible-playbook main.yml

そうすると、なんだかインストールできたみたいです!

サンプルの実行はもとのサイトを参考にお願いします。

[vagrant@localhost ~]$ hadoop fs -cat output23/part-r-00000
1       dfs.safemode.min.datanodes
1       dfs.safemode.extension
1       dfs.replication
1       dfs.namenode.name.dir
1       dfs.namenode.checkpoint.dir
1       dfs.domain.socket.path
1       dfs.datanode.hdfs
1       dfs.datanode.data.dir
1       dfs.client.read.shortcircuit
1       dfs.client.file

なんだかよくわからないけどできたみたい。

マシンが複数あっても同じ感じでできるのだろうか・・・・。次はSparkにチャレンジだ!