仕事やプライベートで調べたことのメモ書きなど(@札幌)

仕事やプライベートで調べたこと、興味ある事のメモ書きです。2016年4月から札幌で働いてます。※このブログは個人によるもので、団体を代表するものではありません。

LG gram 17のメモリを40GBに♪

2019年に購入したLG gram 17。購入時に16GB増設して24GBにしたんだけれども、32GBの安いメモリを見つけたので40GBにしちゃいました。

購入時に書いた投稿はこちら。
takumats.hatenablog.com

今回、購入したメモリはこれ。
paypaymall.yahoo.co.jp

ポイントバックを考えると13,000円くらいになるので結構お得な感じになってきたかと思います。

ローカルPC(Windows)でdockerなどを動かしたりVisual StudioやSlack, chromeを動かしておくことを考えると、メモリはあるに越したことはありませんね。

Python (pandas) でタブ区切りテキストファイル(tsv)ファイルの読み書き

pandasのタブ区切りテキストファイルファイル(tsvファイル)の読み書き

以下の感じでできるようです。

import pandas as pd

df = pd.read_csv('aaa.tsv', sep='\t', header=None)
print(df)
df.to_csv('bbb.tsv', sep='\t')

読み込みはread_csv/reat_table

read_csvで、sep='\t'を指定するとOK。ヘッダーなければ、header=Noneを指定します。

pandas.pydata.org

read_tableはsepの指定を省略できるものですが、他のオプションは同じのようです。
次に説明する、書き込みでは、to_tableというメソッドはなさそうなので、基本はcsv処理と同じ、という感じで考えればよさそう。

書き込みはto_csv

to_csvで、sep='\t'を指定するとOK。

pandas.pydata.org

Python (pandas) で指定時間間隔でデータを集計する方法

Python (pandas)を使って指定時間間隔のログを集計する方法

やりたかったこと

タイムスタンプ(datetime)列があるcsvデータで、ある時間範囲にある行数をカウントしたい。(5分おき、15分おき、30分おき、1時間おき、など)
pandasのresampleを使うと簡単にできます♪

import pandas as pd
import numpy as np

csv_files = ['1_file.csv', '2_file.csv', '3_file.csv', '4_file.csv']

FILE_HEAD='file_'

for csv_file in csv_files:
	df = pd.read_csv(csv_file, parse_dates=True, index_col='datetime')

	df.resample('5T').count().rename(columns={'val': 'count'})['count'].to_csv(FILE_HEAD + csv_file[0] + '_05m.csv')
	df.resample('15T').count().rename(columns={'val': 'count'})['count'].to_csv(FILE_HEAD + csv_file[0] + '_15m.csv')
	df.resample('30T').count().rename(columns={'val': 'count'})['count'].to_csv(FILE_HEAD + csv_file[0] + '_30m.csv')
	df.resample('60T').count().rename(columns={'val': 'count'})['count'].to_csv(FILE_HEAD + csv_file[0] + '_60m.csv')

Azure FunctionsのTable Storageへのoutバインディングで上書きしようとしたけどできなかった件(Python)

Azure FunctionsからのTables StorageへのoutバインディングPythonでやるには

あまりサンプルが転がってないのですが、以下あたりを参考にすると実現できます。
github.com

Table Storageへのバインディングはデフォルトでは上書きできない

Table StorageはPartitionKeyとRowKeyでユニークになる必要がありますが、Table Storageへのバインディングはデフォルトでは上書きできません。実際、キーが重複するようなメッセージがでて書き込みできません。

一方で以下によるとETagというのを指定すると、上書きできそうです!
stackoverflow.com

でいろいろ試行錯誤して結局できませんでした。他、いろいろ調べると、C#以外の?ETagの使用にはバグがあるみたいです。
github.com

結局はoutバインディングは使わず・・・・。

検討しましたが、上書きするにはbindingだけでは解決できないようです。で、結局TableServiceクラスを使わざるを得ないという結論に至りました。
docs.microsoft.com
ETagが正常に動作するようになるまでの暫定として、削除のみをこのクラスで行い、書き込みはバインディングでさせるという方法もあるのですが、このクラスを使うのだったら insert_or_replace_entity メソッドで一発で上書きできるので、まずはoutバインディングを使わない方向でよさげですね。

Azure FunctionsでQueueTriggerパラメータとバインディングのパラメータを連携させる (Python)

課題設定

やりたかったことは以下のこと。

  • QueueTriggerパラメータで情報を受け取り
  • その情報に応じたTable Storageのレコードを読み取る

そもそもpythonでtable storageの入出力バインドする例がほとんど見当たらなかったので少し試行錯誤しました。以下が参考になりました。
github.com

以下の感じで行けることを確認

  • トリガーで渡されるメッセージがjsonだと、{xxxx}のように書いてやることでそのjsonメッセージを参照し、他のバインディング設定に渡す記述をできる

docs.microsoft.com

function.jsonファイルは以下の感じ

{
  "scriptFile": "__init__.py",
  "bindings": [
    {
      "name": "queuemsg",
      "type": "queueTrigger",
      "direction": "in",
      "queueName": "myqueue",
      "connection": "AzureStorageConnectionStringIn"
    },
    {
      "name": "tabledata",
      "type": "table",
      "tableName": "mytable",
      "partitionKey": "{partition_id}",
      "rowKey": "{row_key}",
      "connection": "AzureStorageConnectionStringIn",
      "direction": "in"
    }
  ]
}

__init__.pyは以下の感じ

import logging
import azure.functions as func

def main(queuemsg: func.QueueMessage, tabledata) -> None:
    input_msg = queuemsg.get_body().decode('utf-8')
    logging.info('Python queue trigger function processed a queue item: %s', input_msg)
    logging.info('tabledata: %s', tabledata)

入力キューに設定するメッセージ

{"partition_id": "mypartition", "row_key": 1}

みたいな感じでいけるはず。で、ただinput bindingできるレコードがない場合には実行ができないのですが、その例外ハンドルを関数側でできないのが気を付けるところ。

binding時にデータを絞り込むような記述をする

partitionKeyやrowKeyを指定するのではなくfilterを指定するようにすると、条件にあったレコードを取得することができる。(複数返ってくるものも扱える) 例えば以下のような記述になります。

function.jsonファイルは以下の感じ

{
  "scriptFile": "__init__.py",
  "bindings": [
    {
      "name": "queuemsg",
      "type": "queueTrigger",
      "direction": "in",
      "queueName": "myqueue",
      "connection": "AzureStorageConnectionStringIn"
    },
    {
      "name": "tabledata",
      "type": "table",
      "tableName": "mytable",
      "filter": "name eq '{name_filter}'",
      "connection": "AzureStorageConnectionStringIn",
      "direction": "in"
    }
  ]
}

入力キューに設定するメッセージ

{"name_filter": "test"}

re:Invent 2019に行ってきました

昨年の12月に縁あってAWSの年次カンファレンス re:Invent 2019 (@ラスベガス) に行ってきました!
ブログは会社のページにも書いたので。
www.insight-tec.com

会社のブログに書いてない所感としては超たくさんの人が集まっている巨大カンファレンスの割には、そこまでラスベガスがre:Invent一色になっていないのが、ラスベガスの町の大きさを実感しました。

そして会場が分散していて本当にたくさんたくさん歩くので、健脚でないとつらいかも。。