R, Python, DB 備忘録

データベースとか、jupyter(Python)、Rとか色々

2020-07-01から1ヶ月間の記事一覧

MonetDBクライアントで読み込む外部スクリプトはBOM付にしておく

MonetDBに絡むファイル(データCSVやその他諸々)はUTF-8にしておけば問題ないと思っていた。 (実際、ここを始めとしてMonetDB.orgの色々なところに書いてある。)しかし、罠があった。 それは、BOM無しのUTF-8のスクリプトファイル(.sql)の2バイト文字を…

PowerPointでプログラムコードを書くとクォーテーションが勝手に変更される問題

内容 PowerPointで、例えば Select var1, sum(var2) from dt where var3 = 'X' のようなコードを入力すると Select var1, sum(var2) from dt where var3 = ‘X’ にされてしまいます。これはシングルクォーテーションの場合ですが、ダブルクォーテーションでも…

MonetDB+R:入力文字列 5 はこのロケールでは不適切です

内容 ポピュラーなDBは使っているOSに合わせたエンコーディングで結果を返してくれるがMonetDBはUTF-8固定 なので、RODBCをオプションなしで使うと文字化けが発生する。 Warning message in FUN(X[[i]], ...): " 入力文字列 5 はこのロケールでは不適切です …

Python+jupyterの並列処理

つい最近Pythonの並列処理について書いたばかりなんですが rpy.hatenablog.comjupyter上で並列処理ができるipyparallelを使ってみたので、導入から簡単な使い方までまとめました。 ipyparallelは、単一マシン上のマルチプロセスだけでなく、分散コンピューテ…

pipenv install でエラー:仮想環境が作れない

内容 下記のエラーが出て仮想環境がインストールできない。 AttributeError: 'NoneType' object has no attribute 'version_sort' 解決法 pipenvのバージョンを2018.11.26に下げる。 参考 github.com

Pythonの並列処理(マルチプロセス)

Rで並列処理といえばforeach 並列じゃない場合の繰り返しにも使いやすい上に気軽に並列化できる、神ライブラリと言って良いと思う。(2020.12.18追記)最近はRayという素晴らしいライブラリができて非常に簡単に分散処理ができるようになっていたのですね。 do…

クロス集計表

R

Rでずっと使っているクロス集計表の話です。 3年前くらいにネットを漁ってブログを見つけ、コードを.Rprofileにコピペして使っています。 記事を書くにあたり改めてブログを拝見したら、林真広さんという「M-plusとRによる構造方程式モデリング入門」の共著…

本当に必要なグラフの描き方(seaborn編)

EDAの中で行う可視化 のためのメモ 準備 import matplotlib.pyplot as plt import seaborn as sns ヒストグラム sns.distplot(x, kde=False, norm_hist=True) # 全体100%で正規化 sns.distplot(x2, kde=False, norm_hist=True) # ヒストグラムの重ね描き 棒…

本当に必要なグラフの描き方(ggplot2編)

R

TableauやGoogle Data Studioなど、BIツールを利用するようになって思ったこと。「もう、ggplotで目盛りの細かい調節をしたり、カラーコードを一生懸命調べたりしなくても、視覚化はこいつらに任せればいいな…」少なくとも自分にとっては、ggplotのメインの…