仕事やプライベートで調べたことのメモ書きなど(@札幌)

仕事やプライベートで調べたこと、興味ある事のメモ書きです。2016年4月から札幌で働いてます。※このブログは個人によるもので、団体を代表するものではありません。

「Neo4jユーザー勉強会#10」に行ってきた (2017/3/16@渋谷)

東京への出張に合わせて、偶然以下の勉強会を発見したので参加してきました。
jp-neo4j-usersgroup.connpass.com
ちなみにグラフ型データベースは全くの初心者。

セッション

HAクラスタ―とCausal Cluster(大規模分散クラスタ―)の比較

個人的には、李さんの、王国に例えたクラスタの話、なかなか面白かったです。
Neo4jでは、HAプロキシーを通常は使うとのこと。
シングルマスタ。

HAクラスタと、Causalクラスタの2パターンある。HAクラスタの方が少し限界ある。
oss.infoscience.co.jp
neo4j.com
通常は小規模はHAクラスタ、大規模はCausalクラスタといった使い分けだが、
小規模でもCausalクラスタを考えてもよい。

Neo4jを用いたカフェ巡りの傾向分析

オールアバウトの鈴木さん。CafeSnapというアプリの開発に関わっている。
ユーザーがカフェを登録できるようにしたら、ユーザー数が増えた。
カフェのレコメンド機能を載せたい、ということで。
allabout-tech.hatenablog.com
LTでしたが、なかなか面白かったです。

じゃんけん大会

グッズをもらえるじゃんけん大会がありました。なかなか面白い試みです。

やったー、シールをゲット!!!
早速PCに貼りました。

Neo4j 簡単に使える様なので、ちょっといじってみたいです。

開催場所

そして、開催された場所はココ!
なかなかすごいオフィスでした。
blog.kushii.net
うちのオフィスにもバーがあるんですが、全然負けてる・・・。

以上

Sapporo Tech Bar #8開催 (@2017/3/10 札幌)

早くも今年3回目。なんだか、すごくすごく時間が過ぎるのが早いです!

今回はApache Parquetと時系列データ関連。

www.db-tech-showcase.com

時系列データ関連

機械学習と異常検知

機械学習というと画像認識とかチェスとか碁とか、そちらばかりが目につきますが、異常検知の分野もホットなトピックである模様。
qiita.com

時系列データベース

大量に入ってくるデータを効率よく処理するデータベース。今ホットなトピック。
Open Source | InfluxData
docs.influxdata.com
code.facebook.com
OpenTSDB - A Distributed, Scalable Monitoring System
prometheus.io
4月に開催予定のPercona Liveでも時系列にもフォーカス。
www.percona.com

Apache Parquet

玉川さんのApache Parquet
Apache Parquet

Apache Parquet is a columnar storage format available to any project in the Hadoop ecosystem, regardless of the choice of data processing framework, data model or programming language.

どうやら、ファイルのフォーマットのようなイメージ。DBMSのようなサービスを必要とせず、ファイルを直接データベースとして扱える。しかもカラム型。
もともとはHDFS上に構築されるものだったが、HDFSなしでも動くようになった、らしい。

ちなみに前回の講演にあった、Arrowは以下のように記載されており、メモリ上のフォーマット。これを共通化することで、各テクノロジーとのデータ互換を共通化しようというものになる。

Apache Arrow
Powering Columnar In-Memory Analytics

Apache Arrow Homepage

余談ですが、講演された玉川さんは、なんと、コンサドーレVSセレッソを観覧するために札幌を訪れていた、とのこと!
www.consadole-sapporo.jp
講演ありがとうございました!

「サイバーセキュリティフォーラム北海道2017 ~”全てのモノが繋がる時代” 普及とその安全性を解く~」 に行ってきた(2017/3/8@札幌)

知人の紹介にて以下のセミナー「サイバーセキュリティフォーラム北海道2017」に行ってきました。
www.soumu.go.jp
IoTという言葉が出てきて久しいですが、IoTでデータ量が膨大になるのでそれをどう処理しましょう?、というところだけにとらわれていたのですが、IoT機器が今は狙われているとのこと。セキュリティを考慮するだけの機構がなかったり、いろんな理由がありそう。パスワードがデフォルトのまま放置されているネットワークカメラも探すと多々あるとか。。。
qiita.com
japan.zdnet.com
www.itmedia.co.jp

そして個人的に最も面白かった話は、道警の清川さん。
ランサムウェア感染デモ、とても面白かったです。
以下のようなカスペルスキーが公開している動画もありました!
www.youtube.com
あと、電話サポート詐欺デモ。
blogs.yahoo.co.jp
世の中いろんなこと考えている人がいますね!

みなさんも気を付けましょう!

MySQL最新ソリューションセミナー ~エンタープライズに求めるべき高可用性&セキュリティ~(2017/2/24@新宿)

スマートスタイル社主催のセミナー「MySQL最新ソリューションセミナー ~エンタープライズに求めるべき高可用性&セキュリティ~」に参加しました。
MySQL最新ソリューションセミナー ~エンタープライズに求めるべき高可用性&セキュリティ~開催のお知らせ(2017/2/24開催) | MySQLチューニング/保守サポート/コンサルティングのスマートスタイル

多くの方が参加。
特に、MySQL Group Replicationについての質問が多く、MySQLでHAが課題になっているということが非常に強く感じられました。
ただ、まだ出始めということもあり、実際のマルチマスターで本番として使うにはお勧めしないとのこと。もしマルチマスターが必要な場合は、今だと実績のあるGalera Clusterになるようです。他には、
MySQL Group Replication | MySQL High Availability
galeracluster.com
Oracleの方によると、今は正直Galeraに機能で負けているところもあるが、年内には同等機能までいけるとのことです。

参加された方もいろいろ実験中とのことで、あれどうなるの?みたいな感じで盛り上がってました。
また、Proxyと組み合わせましょうということで、以下があります。
www.proxysql.com
mariadb.com

なお、スマートスタイル社はいずれもサポートしておりますので、ご相談は同社まで。

Sapporo Tech Bar #7開催 (2017/2/10@札幌)

2017年2月のSapporo Tech Barは、雪まつりの中の開催でした。
www.db-tech-showcase.com
今回も多くの方に参加いただき、とても盛り上がる会でした。

数多くの翻訳をしたうえで、さらに普段Pythonを使って分析業務をされているうえでの使いやすいライブラリ、いつも使っているライブラリなど、Pythonによるデータ分析というだけでも多くの情報が氾濫している中、何をどう選んでいくとよいかの参考になったのではないでしょうか?

分散処理というとなかなか手を付けづらいところかもしれませんが、どんどんデータが増えてくると避けては通れない道かもしれません。

そして、注目はApache Arrow!
Apache Arrow Homepage
これはカラムナーデータを異なるアーキテクチャー間でやり取りするためのもののようです。

カラム型でデータを保持している場合、通常はデータがいい感じに圧縮されています。
そのデータを異なるアーキテクチャー間でやり取りする場合、これまでは、一度そこから取り出して、違うところに入れなおす、という手順が必要でした。そこを共通のフォーマットでやり取りできるようになると、データの変換処理が効率的に行えるようになるはずです。
講演に出てきた、Parquet、Pandasなどでのデータのやり取りが非常に楽になるだろうとのことで、注目です。
PyDataのWesさんが中心的に活動されている模様で、今後の展開に目が離せません!

Sapporo Tech Bar #6開催 (2017/1/25@札幌)

今年1発目のSapporo Tech Bar、開催しました!
www.db-tech-showcase.com

今回は地図情報スペシャルということで、MIERUNE, LLC.さんの古川さん、朝日さんにお話しいただいたのですが、超超面白かったです。
www.mierune.co.jp

私自身は今まで地図情報とかとは無縁だったのですが、なんだかとても、地図情報を使った、"なにか"を作りたくなりましたね。やはり地図・位置情報って、ビジュアル面があるので、見てるだけでも面白いし、いいなぁ、いいなぁ、という感じです。
仕事でできたら面白いでしょうね。きっと苦労もあるのでしょうが。

いろいろご紹介てどれも面白かったのですが、最も印象に残ったのはこれ。自分でGoogle Street Viewのようなものを作れるとか・・・。
Crowdsourced Street-level Photos
札幌とか、夏と冬のStreetView登録できると面白いのでは?

あと、スーパーボール中のTwitterのビジュアル化。
Odyssey.js sports template
地図情報に時間的な経過をつけると面白い。

さすれば、みんながツイート(しかも位置情報もつけて・・)してるわけじゃないけど、朝の通勤時間のツイートを可視化してみると、東京にワァーって人が集まってくるような可視化ができるのでしょうかね!面白そう。

あと、来月ですが、札幌でこんなイベントもあるようなのでぜひ。
connpass.com
家族持ちには土曜日はちょっとつらいなぁ・・。

昨年Sapporo Tech Barをスタートし、毎回いろんなテーマで開催してこれています。
今年もなんとか続けられるといいなと思っています。

EC2上のAerospikeでycsbを実行(4) 1台で複数SSDを使ったら速くなる?

単純に考えると、RAIDと同じような構成になりそうなので、速くなりそうな気はします。
が、実際にはそれほどでもありませんでした。

可能性としては、

などが考えられます。(t2.microは1コアしかありません)

一応、状態を確認してみるとい、両方のディスクkは使われているようです。

Device:         rrqm/s   wrqm/s     r/s     w/s   rsec/s   wsec/s avgrq-sz avgqu-sz   await  svctm  %util
xvda              0.00     0.00    0.00    0.00     0.00     0.00     0.00     0.00    0.00   0.00   0.00
xvdg              0.00     0.00    0.00   49.23     0.00 12603.08   256.00     0.36    7.38   7.29  35.90
xvdf              0.00     0.00    0.00   48.72     0.00 12471.79   256.00     0.08    1.56   1.56   7.59

スループットはloadは低下、runは変わらずといったところでしょうか。1回しか計測していないので、たまたまなのか、必然なのかは不明です。

SSD 1台

  • load : Throughput(ops/sec), 8781.173164734808
  • run : Throughput(ops/sec), 3114.096754847738

SSD 2台

  • load : Throughput(ops/sec), 7470.547367005581
  • run : Throughput(ops/sec), 3171.7398547344574

そして、t2.microでも、ストレージをいろいろ追加して実施して、誤って課金されてもいけないので、
計測が終わったら容赦なくインスタンスを削除しまーす。

f:id:takumats:20170117013500p:plain

これで一通りのAerospikeシリーズは終了です!