仕事やプライベートで調べたことのメモ書きなど(@札幌)

仕事やプライベートで調べたこと、興味ある事のメモ書きです。2016年4月から札幌で働いてます。※このブログは個人によるもので、団体を代表するものではありません。

HadoopのMapperとReducerを作ってみる

前回のエントリーでは、Windows上のVirtualBoxHadoopを入れて、grepを実行してみるところまでやりました。
takumats.hatenablog.com

でも、お気づきのように、何も「やった感」がありません。
やはりHello,World的なものでもよいおのでMapperとReducerを書いてみたいと思います。

といってもHadoopの素人です。今回は以下に従ってみました。
linux.wwing.net

  • まずサンプルファイルを作ります

ローカルにテキストファイルfile01、file02という名前で作成した後、それをhadoop fsにコピーします。

[vagrant@localhost ~]$ cat file01
Hello World Bye World
[vagrant@localhost ~]$ cat file02
Hello Hadoop Goodbye Hadoop
[vagrant@localhost ~]$ hadoop fs -put file0* input
[vagrant@localhost ~]$ hadoop fs -ls input/file0*
-rw-r--r--   1 vagrant supergroup         22 2016-09-16 14:54 input/file01
-rw-r--r--   1 vagrant supergroup         28 2016-09-16 14:54 input/file02
[vagrant@localhost ~]$ hadoop fs -cat input/file01
Hello World Bye World
[vagrant@localhost ~]$ hadoop fs -cat input/file02
Hello Hadoop Goodbye Hadoop
  • あとは、参考にしたページにあるよう、MapperとRerducerと実行モジュールを用意するだけでした。

なるほど!

ちなみにjavaファイルはちゃんと名前空間指定のディレクトリ構造に配置しましたよ。