HadoopのMapperとReducerを作ってみる - 仕事やプライベートで調べたことのメモ書きなど（＠札幌）

前回のエントリーでは、Windows上のVirtualBoxにHadoopを入れて、grepを実行してみるところまでやりました。
takumats.hatenablog.com

でも、お気づきのように、何も「やった感」がありません。
やはりHello,World的なものでもよいおのでMapperとReducerを書いてみたいと思います。

といってもHadoopの素人です。今回は以下に従ってみました。
linux.wwing.net

まずサンプルファイルを作ります

ローカルにテキストファイルfile01、file02という名前で作成した後、それをhadoop fsにコピーします。

[vagrant@localhost ~]$ cat file01
Hello World Bye World
[vagrant@localhost ~]$ cat file02
Hello Hadoop Goodbye Hadoop
[vagrant@localhost ~]$ hadoop fs -put file0* input
[vagrant@localhost ~]$ hadoop fs -ls input/file0*
-rw-r--r--   1 vagrant supergroup         22 2016-09-16 14:54 input/file01
-rw-r--r--   1 vagrant supergroup         28 2016-09-16 14:54 input/file02
[vagrant@localhost ~]$ hadoop fs -cat input/file01
Hello World Bye World
[vagrant@localhost ~]$ hadoop fs -cat input/file02
Hello Hadoop Goodbye Hadoop

あとは、参考にしたページにあるよう、MapperとRerducerと実行モジュールを用意するだけでした。

なるほど！

ちなみにjavaファイルはちゃんと名前空間指定のディレクトリ構造に配置しましたよ。