仕事やプライベートで調べたことのメモ書きなど(@札幌)

仕事やプライベートで調べたこと、興味ある事のメモ書きです。2016年4月から札幌で働いてます。※このブログは個人によるもので、団体を代表するものではありません。

MariaDBをソースからビルドしてみよう(ソース取得編)

とりあえず以下に従って、

mariadb.com
www.mk-mode.com

以下を実行

[vagrant@localhost ~]$ sudo yum-builddep mariadb
[vagrant@localhost ~]$ sudo yum -y install gcc* make cmake ncurses-devel

さぁソースを取得しよう!と思ったら、gitが未インストールだった

vagrant@localhost ~]$ sudo yum -y install git

以下に従って設定
mariadb.com

で、githubからソースを持ってくるようにするために、以下が必要なようです。
qiita.com

これで手順通り、以下で、ソース取得が始まりました!

[vagrant@localhost ~]$ git clone git@github.com:MariaDB/server.git
Cloning into 'server'...
remote: Counting objects: 1081242, done.
remote: Compressing objects: 100% (155/155), done.
Receiving objects:  26% (290026/1081242), 124.93 MiB | 782.00 KiB/s

ナイス!

PRML本を使った機械学習社内勉強会始まる

PRML本を使った機械学習社内勉強会が始まった。この本は機械学習の定番本らしい。
d.hatena.ne.jp

最近、「機械学習を使ったこんなことできまっせ」的な話題は少しマンネリ化してきていたので、ベースから理解できるこういうのはありがたい。
かといって、自分一人でこの本を読んでいくのは、ちょっと勇気がいる。

この勉強会は週1のペースだから、長丁場になりそうではあるが、がんばろう!!

https://www.amazon.co.jp/%E3%83%91%E3%82%BF%E3%83%BC%E3%83%B3%E8%AA%8D%E8%AD%98%E3%81%A8%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92-%E4%B8%8A-C-M-%E3%83%93%E3%82%B7%E3%83%A7%E3%83%83%E3%83%97/dp/4621061224

Vagrant上のCentOSにmariadbを入れてみた

以前Vagrantを試したので、そこに今回はmariadbを入れてみました。
takumats.hatenablog.com

このあたりを参考に。
qiita.com

インストール後についてはこのあたりを参考にしました。
qiita.com

MariaDB [(none)]> \s
--------------
mysql  Ver 15.1 Distrib 10.1.22-MariaDB, for Linux (x86_64) using readline 5.1

Connection id:          8
Current database:
Current user:           root@localhost
SSL:                    Not in use
Current pager:          stdout
Using outfile:          ''
Using delimiter:        ;
Server:                 MariaDB
Server version:         10.1.22-MariaDB MariaDB Server
Protocol version:       10
Connection:             Localhost via UNIX socket
Server characterset:    utf8
Db     characterset:    utf8
Client characterset:    utf8
Conn.  characterset:    utf8
UNIX socket:            /var/lib/mysql/mysql.sock
Uptime:                 1 min 16 sec

Threads: 1  Questions: 21  Slow queries: 0  Opens: 18  Flush tables: 1  Open tables: 12  Queries per second avg: 0.276
--------------

MariaDB [(none)]>

今日はとりあえずここまで!

札証成長塾に行ってきた (2017/3/23@札幌)

最近札証アンビシャスに上場された、フュージョン株式会社の佐々木社長の話が聞けるということで、
札幌証券取引所主催の札証成長塾というセミナーに参加してきました。
記事詳細 | さっぽろ産業ポータル| 上場とは!「札証成長塾」参加者募集
http://www.sse.or.jp/datafiles/bnr/seityouzyuku2016.pdf
www.fusion.co.jp
www.sse.or.jp

上場企業の社長の生の声を聞ける機会ってなかなかないですよね。話を聞くと、私と同い年!!!

上場時の悩みなど、いろんな面白いことが聞けました。

上場する過程で悩んだことのひとつとして、「社長がやるべきことはなんだろう」というのがあったそうです。
その一つの答えは、「正解じゃないかもしれないけど、いろいろとやる側でなく、応援する側になること。」ではないか、とのこと。
うーーん、深いですね。同い年でも、やはり社長って違うんだなぁー、って思いました。
ちなみに、私の勤務先と会社の規模も同じくらいなので、いろいろ考えさせられますね。

とっても有意義なセミナーでした。
こういう面白い話を、すごーーーーく限られた人だけで聞くのはもったいないと思うのですが。。。。。
この、札証成長塾、もう少しやり方あるんじゃないでしょうか。

「第59回R勉強会@東京(#TokyoR)」に参加 (2017/3/18@東京)

東京に来たので面白そうな勉強会に行ってみる編。今回は「第59回R勉強会@東京(#TokyoR)」に参加しました。募集からして100名超の
大規模勉強会。参加率は6割-7割くらいか??
atnd.org

初心者セッション

R入門

  • doradoraさん(大城さん)

datumstudio.jp

  • LINE Fukuokaで勤務されている。
  • 非エンジニアの人が入りやすい。
  • 「?」とか「help」を入れると、ヘルプが出てくる。何かあったら実行してみれば。
  • 「r-wakalang」というslackがある。

qiita.com

qiita.com
Coupon Purchase Prediction | Kaggle

データマエショリスト入門

  • y__mattuさん

www.slideshare.net

  • 大学4年生(慶應経済)!
  • スライド内のデータ読み込み速度比較はなかなか面白いな。
  • Rでのテキストファイルの読み込みは主に3種類。標準機能以外に「readr」「data.table」。後の者ほど性能がよい。
  • excelファイルを簡単に読めるパッケージもあるよ。オススメは「redxl」。
  • RStudioを使うと・・・、左上当たりに「Import Dataset」というのがあるので、それ使うのが早い。
  • data.tableはエンコーディングの処理は面倒なので、「readr」がオススメよ。

初心者向けセッション

  • kotatyamtemaさん

www.slideshare.net

自己紹介タイム

今までこういったのに参加したことはなかったので、なかなか面白い試みかもしれない。

  • 学生が結構多い(土曜日だから?)
  • Pythonハラスメント
  • 経済学系が多い
  • 若い人が多い
  • なんか機械学習でやれ、みたいなことを言われてRを始めた人が多い。
  • IT系
  • 広告代理店
  • 金融
  • Stan
  • R歴は10年級も多いが数か月-1年くらいの人が多い
  • 本を書きました(or 翻訳しました)的な人がたくさん!(5人くらい?)

u_riboさん(瓜生さん)

  • Rによるスクレイピング入門、という本を書いた
  • 地理空間データ
  • spというパッケージがある
  • sfというのも出てきた。Simple Feature for R。

yutannihilationさん(湯川さん)

id.fnshr.info

  • apiのauth周りの話

tetsuroito(マネーをフォワードしている)

  • とても面白いお話しでした。

www.bigdatacon.jp

  • スパースモデリング
  • IBM 井手 剛
  • AIはRから仕事を奪うのか?
  • アドホックな分析にはRが使えるけど、業務フローに組み込めない?
  • Retty
  • リブセンス
  • グノシー
  • にっくきExcel
  • Re dash
  • Rがシステム構成図にないのはなぜか?
  • 勉強会で傷をなめあっている
  • Rの立ち位置は「アドホック分析」のためのもの → 人間領域 → AIに奪われない??
  • 分析モデルの改善サイクル

けものフレンズ ロゴジェネレータ

LT

以下など。
www.quandl.com

  • サイボウズ
  • Kaggle master
  • LINE Fukuoka
  • 岩波データサイエンス(shuyo), スパースモデリング, StanとRの読書会, 確率分布のイメージが足りてない
  • 今は「Rと書いた方が売れる」
  • Rの特徴である「factor」とは?

懇親会

所用のためパスしたが、結構参加率高かった模様。

今回行った勉強会の開催場所は・・・

今回の勉強会の場所は以下のサイボウズのオフィスでした。
cybozushiki.cybozu.co.jp
前回のVOYAGEといい、今回の東京出張は素敵なオフィスつながりでなかなか楽しかったです。
前回の記事はこちらです。
takumats.hatenablog.com

「Neo4jユーザー勉強会#10」に行ってきた (2017/3/16@渋谷)

東京への出張に合わせて、偶然以下の勉強会を発見したので参加してきました。
jp-neo4j-usersgroup.connpass.com
ちなみにグラフ型データベースは全くの初心者。

セッション

HAクラスタ―とCausal Cluster(大規模分散クラスタ―)の比較

個人的には、李さんの、王国に例えたクラスタの話、なかなか面白かったです。
Neo4jでは、HAプロキシーを通常は使うとのこと。
シングルマスタ。

HAクラスタと、Causalクラスタの2パターンある。HAクラスタの方が少し限界ある。
oss.infoscience.co.jp
neo4j.com
通常は小規模はHAクラスタ、大規模はCausalクラスタといった使い分けだが、
小規模でもCausalクラスタを考えてもよい。

Neo4jを用いたカフェ巡りの傾向分析

オールアバウトの鈴木さん。CafeSnapというアプリの開発に関わっている。
ユーザーがカフェを登録できるようにしたら、ユーザー数が増えた。
カフェのレコメンド機能を載せたい、ということで。
allabout-tech.hatenablog.com
LTでしたが、なかなか面白かったです。

じゃんけん大会

グッズをもらえるじゃんけん大会がありました。なかなか面白い試みです。

やったー、シールをゲット!!!
早速PCに貼りました。

Neo4j 簡単に使える様なので、ちょっといじってみたいです。

開催場所

そして、開催された場所はココ!
なかなかすごいオフィスでした。
blog.kushii.net
うちのオフィスにもバーがあるんですが、全然負けてる・・・。

以上

Sapporo Tech Bar #8開催 (@2017/3/10 札幌)

早くも今年3回目。なんだか、すごくすごく時間が過ぎるのが早いです!

今回はApache Parquetと時系列データ関連。

www.db-tech-showcase.com

時系列データ関連

機械学習と異常検知

機械学習というと画像認識とかチェスとか碁とか、そちらばかりが目につきますが、異常検知の分野もホットなトピックである模様。
qiita.com

時系列データベース

大量に入ってくるデータを効率よく処理するデータベース。今ホットなトピック。
Open Source | InfluxData
docs.influxdata.com
code.facebook.com
OpenTSDB - A Distributed, Scalable Monitoring System
prometheus.io
4月に開催予定のPercona Liveでも時系列にもフォーカス。
www.percona.com

Apache Parquet

玉川さんのApache Parquet
Apache Parquet

Apache Parquet is a columnar storage format available to any project in the Hadoop ecosystem, regardless of the choice of data processing framework, data model or programming language.

どうやら、ファイルのフォーマットのようなイメージ。DBMSのようなサービスを必要とせず、ファイルを直接データベースとして扱える。しかもカラム型。
もともとはHDFS上に構築されるものだったが、HDFSなしでも動くようになった、らしい。

ちなみに前回の講演にあった、Arrowは以下のように記載されており、メモリ上のフォーマット。これを共通化することで、各テクノロジーとのデータ互換を共通化しようというものになる。

Apache Arrow
Powering Columnar In-Memory Analytics

Apache Arrow Homepage

余談ですが、講演された玉川さんは、なんと、コンサドーレVSセレッソを観覧するために札幌を訪れていた、とのこと!
www.consadole-sapporo.jp
講演ありがとうございました!