仕事やプライベートで調べたことのメモ書きなど(@札幌)

仕事やプライベートで調べたこと、興味ある事のメモ書きです。2016年4月から札幌で働いてます。※このブログは個人によるもので、団体を代表するものではありません。

Sapporo Tech Bar #8開催 (@2017/3/10 札幌)

早くも今年3回目。なんだか、すごくすごく時間が過ぎるのが早いです!

今回はApache Parquetと時系列データ関連。

www.db-tech-showcase.com

時系列データ関連

機械学習と異常検知

機械学習というと画像認識とかチェスとか碁とか、そちらばかりが目につきますが、異常検知の分野もホットなトピックである模様。
qiita.com

時系列データベース

大量に入ってくるデータを効率よく処理するデータベース。今ホットなトピック。
Open Source | InfluxData
docs.influxdata.com
code.facebook.com
OpenTSDB - A Distributed, Scalable Monitoring System
prometheus.io
4月に開催予定のPercona Liveでも時系列にもフォーカス。
www.percona.com

Apache Parquet

玉川さんのApache Parquet
Apache Parquet

Apache Parquet is a columnar storage format available to any project in the Hadoop ecosystem, regardless of the choice of data processing framework, data model or programming language.

どうやら、ファイルのフォーマットのようなイメージ。DBMSのようなサービスを必要とせず、ファイルを直接データベースとして扱える。しかもカラム型。
もともとはHDFS上に構築されるものだったが、HDFSなしでも動くようになった、らしい。

ちなみに前回の講演にあった、Arrowは以下のように記載されており、メモリ上のフォーマット。これを共通化することで、各テクノロジーとのデータ互換を共通化しようというものになる。

Apache Arrow
Powering Columnar In-Memory Analytics

Apache Arrow Homepage

余談ですが、講演された玉川さんは、なんと、コンサドーレVSセレッソを観覧するために札幌を訪れていた、とのこと!
www.consadole-sapporo.jp
講演ありがとうございました!