読者です 読者をやめる 読者になる 読者になる

仕事やプライベートで調べたことのメモ書きなど(@札幌)

仕事やプライベートで調べたこと、興味ある事のメモ書きです。2016年4月から札幌で働いてます。※このブログは個人によるもので、団体を代表するものではありません。

札証成長塾に行ってきた (2017/3/23@札幌)

札幌 仕事

最近札証アンビシャスに上場された、フュージョン株式会社の佐々木社長の話が聞けるということで、
札幌証券取引所主催の札証成長塾というセミナーに参加してきました。
記事詳細 | さっぽろ産業ポータル| 上場とは!「札証成長塾」参加者募集
http://www.sse.or.jp/datafiles/bnr/seityouzyuku2016.pdf
www.fusion.co.jp
www.sse.or.jp

上場企業の社長の生の声を聞ける機会ってなかなかないですよね。話を聞くと、私と同い年!!!

上場時の悩みなど、いろんな面白いことが聞けました。

上場する過程で悩んだことのひとつとして、「社長がやるべきことはなんだろう」というのがあったそうです。
その一つの答えは、「正解じゃないかもしれないけど、いろいろとやる側でなく、応援する側になること。」ではないか、とのこと。
うーーん、深いですね。同い年でも、やはり社長って違うんだなぁー、って思いました。
ちなみに、私の勤務先と会社の規模も同じくらいなので、いろいろ考えさせられますね。

とっても有意義なセミナーでした。
こういう面白い話を、すごーーーーく限られた人だけで聞くのはもったいないと思うのですが。。。。。
この、札証成長塾、もう少しやり方あるんじゃないでしょうか。

「第59回R勉強会@東京(#TokyoR)」に参加 (2017/3/18@東京)

仕事

東京に来たので面白そうな勉強会に行ってみる編。今回は「第59回R勉強会@東京(#TokyoR)」に参加しました。募集からして100名超の
大規模勉強会。参加率は6割-7割くらいか??
atnd.org

初心者セッション

R入門

  • doradoraさん(大城さん)

datumstudio.jp

  • LINE Fukuokaで勤務されている。
  • 非エンジニアの人が入りやすい。
  • 「?」とか「help」を入れると、ヘルプが出てくる。何かあったら実行してみれば。
  • 「r-wakalang」というslackがある。

qiita.com

qiita.com
Coupon Purchase Prediction | Kaggle

データマエショリスト入門

  • y__mattuさん

www.slideshare.net

  • 大学4年生(慶應経済)!
  • スライド内のデータ読み込み速度比較はなかなか面白いな。
  • Rでのテキストファイルの読み込みは主に3種類。標準機能以外に「readr」「data.table」。後の者ほど性能がよい。
  • excelファイルを簡単に読めるパッケージもあるよ。オススメは「redxl」。
  • RStudioを使うと・・・、左上当たりに「Import Dataset」というのがあるので、それ使うのが早い。
  • data.tableはエンコーディングの処理は面倒なので、「readr」がオススメよ。

初心者向けセッション

  • kotatyamtemaさん

www.slideshare.net

自己紹介タイム

今までこういったのに参加したことはなかったので、なかなか面白い試みかもしれない。

  • 学生が結構多い(土曜日だから?)
  • Pythonハラスメント
  • 経済学系が多い
  • 若い人が多い
  • なんか機械学習でやれ、みたいなことを言われてRを始めた人が多い。
  • IT系
  • 広告代理店
  • 金融
  • Stan
  • R歴は10年級も多いが数か月-1年くらいの人が多い
  • 本を書きました(or 翻訳しました)的な人がたくさん!(5人くらい?)

u_riboさん(瓜生さん)

  • Rによるスクレイピング入門、という本を書いた
  • 地理空間データ
  • spというパッケージがある
  • sfというのも出てきた。Simple Feature for R。

yutannihilationさん(湯川さん)

id.fnshr.info

  • apiのauth周りの話

tetsuroito(マネーをフォワードしている)

  • とても面白いお話しでした。

www.bigdatacon.jp

  • スパースモデリング
  • IBM 井手 剛
  • AIはRから仕事を奪うのか?
  • アドホックな分析にはRが使えるけど、業務フローに組み込めない?
  • Retty
  • リブセンス
  • グノシー
  • にっくきExcel
  • Re dash
  • Rがシステム構成図にないのはなぜか?
  • 勉強会で傷をなめあっている
  • Rの立ち位置は「アドホック分析」のためのもの → 人間領域 → AIに奪われない??
  • 分析モデルの改善サイクル

けものフレンズ ロゴジェネレータ

LT

以下など。
www.quandl.com

  • サイボウズ
  • Kaggle master
  • LINE Fukuoka
  • 岩波データサイエンス(shuyo), スパースモデリング, StanとRの読書会, 確率分布のイメージが足りてない
  • 今は「Rと書いた方が売れる」
  • Rの特徴である「factor」とは?

懇親会

所用のためパスしたが、結構参加率高かった模様。

今回行った勉強会の開催場所は・・・

今回の勉強会の場所は以下のサイボウズのオフィスでした。
cybozushiki.cybozu.co.jp
前回のVOYAGEといい、今回の東京出張は素敵なオフィスつながりでなかなか楽しかったです。
前回の記事はこちらです。
takumats.hatenablog.com

「Neo4jユーザー勉強会#10」に行ってきた (2017/3/16@渋谷)

データベース

東京への出張に合わせて、偶然以下の勉強会を発見したので参加してきました。
jp-neo4j-usersgroup.connpass.com
ちなみにグラフ型データベースは全くの初心者。

セッション

HAクラスタ―とCausal Cluster(大規模分散クラスタ―)の比較

個人的には、李さんの、王国に例えたクラスタの話、なかなか面白かったです。
Neo4jでは、HAプロキシーを通常は使うとのこと。
シングルマスタ。

HAクラスタと、Causalクラスタの2パターンある。HAクラスタの方が少し限界ある。
oss.infoscience.co.jp
neo4j.com
通常は小規模はHAクラスタ、大規模はCausalクラスタといった使い分けだが、
小規模でもCausalクラスタを考えてもよい。

Neo4jを用いたカフェ巡りの傾向分析

オールアバウトの鈴木さん。CafeSnapというアプリの開発に関わっている。
ユーザーがカフェを登録できるようにしたら、ユーザー数が増えた。
カフェのレコメンド機能を載せたい、ということで。
allabout-tech.hatenablog.com
LTでしたが、なかなか面白かったです。

じゃんけん大会

グッズをもらえるじゃんけん大会がありました。なかなか面白い試みです。

やったー、シールをゲット!!!
早速PCに貼りました。

Neo4j 簡単に使える様なので、ちょっといじってみたいです。

開催場所

そして、開催された場所はココ!
なかなかすごいオフィスでした。
blog.kushii.net
うちのオフィスにもバーがあるんですが、全然負けてる・・・。

以上

Sapporo Tech Bar #8開催 (@2017/3/10 札幌)

札幌 仕事 データベース

早くも今年3回目。なんだか、すごくすごく時間が過ぎるのが早いです!

今回はApache Parquetと時系列データ関連。

www.db-tech-showcase.com

時系列データ関連

機械学習と異常検知

機械学習というと画像認識とかチェスとか碁とか、そちらばかりが目につきますが、異常検知の分野もホットなトピックである模様。
qiita.com

時系列データベース

大量に入ってくるデータを効率よく処理するデータベース。今ホットなトピック。
Open Source | InfluxData
docs.influxdata.com
code.facebook.com
OpenTSDB - A Distributed, Scalable Monitoring System
prometheus.io
4月に開催予定のPercona Liveでも時系列にもフォーカス。
www.percona.com

Apache Parquet

玉川さんのApache Parquet
Apache Parquet

Apache Parquet is a columnar storage format available to any project in the Hadoop ecosystem, regardless of the choice of data processing framework, data model or programming language.

どうやら、ファイルのフォーマットのようなイメージ。DBMSのようなサービスを必要とせず、ファイルを直接データベースとして扱える。しかもカラム型。
もともとはHDFS上に構築されるものだったが、HDFSなしでも動くようになった、らしい。

ちなみに前回の講演にあった、Arrowは以下のように記載されており、メモリ上のフォーマット。これを共通化することで、各テクノロジーとのデータ互換を共通化しようというものになる。

Apache Arrow
Powering Columnar In-Memory Analytics

Apache Arrow Homepage

余談ですが、講演された玉川さんは、なんと、コンサドーレVSセレッソを観覧するために札幌を訪れていた、とのこと!
www.consadole-sapporo.jp
講演ありがとうございました!

「サイバーセキュリティフォーラム北海道2017 ~”全てのモノが繋がる時代” 普及とその安全性を解く~」 に行ってきた(2017/3/8@札幌)

仕事 札幌

知人の紹介にて以下のセミナー「サイバーセキュリティフォーラム北海道2017」に行ってきました。
www.soumu.go.jp
IoTという言葉が出てきて久しいですが、IoTでデータ量が膨大になるのでそれをどう処理しましょう?、というところだけにとらわれていたのですが、IoT機器が今は狙われているとのこと。セキュリティを考慮するだけの機構がなかったり、いろんな理由がありそう。パスワードがデフォルトのまま放置されているネットワークカメラも探すと多々あるとか。。。
qiita.com
japan.zdnet.com
www.itmedia.co.jp

そして個人的に最も面白かった話は、道警の清川さん。
ランサムウェア感染デモ、とても面白かったです。
以下のようなカスペルスキーが公開している動画もありました!
www.youtube.com
あと、電話サポート詐欺デモ。
blogs.yahoo.co.jp
世の中いろんなこと考えている人がいますね!

みなさんも気を付けましょう!

MySQL最新ソリューションセミナー ~エンタープライズに求めるべき高可用性&セキュリティ~(2017/2/24@新宿)

仕事 データベース

スマートスタイル社主催のセミナー「MySQL最新ソリューションセミナー ~エンタープライズに求めるべき高可用性&セキュリティ~」に参加しました。
MySQL最新ソリューションセミナー ~エンタープライズに求めるべき高可用性&セキュリティ~開催のお知らせ(2017/2/24開催) | MySQLチューニング/保守サポート/コンサルティングのスマートスタイル

多くの方が参加。
特に、MySQL Group Replicationについての質問が多く、MySQLでHAが課題になっているということが非常に強く感じられました。
ただ、まだ出始めということもあり、実際のマルチマスターで本番として使うにはお勧めしないとのこと。もしマルチマスターが必要な場合は、今だと実績のあるGalera Clusterになるようです。他には、
MySQL Group Replication | MySQL High Availability
galeracluster.com
Oracleの方によると、今は正直Galeraに機能で負けているところもあるが、年内には同等機能までいけるとのことです。

参加された方もいろいろ実験中とのことで、あれどうなるの?みたいな感じで盛り上がってました。
また、Proxyと組み合わせましょうということで、以下があります。
www.proxysql.com
mariadb.com

なお、スマートスタイル社はいずれもサポートしておりますので、ご相談は同社まで。

Sapporo Tech Bar #7開催 (2017/2/10@札幌)

札幌 仕事 Python データベース

2017年2月のSapporo Tech Barは、雪まつりの中の開催でした。
www.db-tech-showcase.com
今回も多くの方に参加いただき、とても盛り上がる会でした。

数多くの翻訳をしたうえで、さらに普段Pythonを使って分析業務をされているうえでの使いやすいライブラリ、いつも使っているライブラリなど、Pythonによるデータ分析というだけでも多くの情報が氾濫している中、何をどう選んでいくとよいかの参考になったのではないでしょうか?

分散処理というとなかなか手を付けづらいところかもしれませんが、どんどんデータが増えてくると避けては通れない道かもしれません。

そして、注目はApache Arrow!
Apache Arrow Homepage
これはカラムナーデータを異なるアーキテクチャー間でやり取りするためのもののようです。

カラム型でデータを保持している場合、通常はデータがいい感じに圧縮されています。
そのデータを異なるアーキテクチャー間でやり取りする場合、これまでは、一度そこから取り出して、違うところに入れなおす、という手順が必要でした。そこを共通のフォーマットでやり取りできるようになると、データの変換処理が効率的に行えるようになるはずです。
講演に出てきた、Parquet、Pandasなどでのデータのやり取りが非常に楽になるだろうとのことで、注目です。
PyDataのWesさんが中心的に活動されている模様で、今後の展開に目が離せません!