R, Python, DB 備忘録

データベースとか、jupyter(Python)、Rとか色々

Python

pandas only support SQLAlchemy connectable

現象 いつのバージョンアップからかはよくわからないが、最近pandasの最新版をインストールしたところ、接続情報conにpyodbcのconnectionを使うとタイトルのUserWarningが表示されるようになった。 再現イメージ import pandas as pd import pyodbc cnxn = p…

VairbleInspectorインストールメモ

jupyter labの拡張機能であるVariableInspectorをインストールする際にいくつか詰まった点 インストールのためのメモ インストールのための必要条件 git拡張を外す pip uninstall jupyterlab-git gitdb GitPython latex拡張を外す:自分の環境には入っていな…

0除算によるRuntimeWarningを回避する

numpyでゼロ除算をしたときにはRuntimeWarningが発生する。 1回くらいなら気にすることもないが、ループで大量に発生するのはちょっと(かなり)鬱陶しい。 c:\users\<省略>\lib\site-packages\ipykernel_launcher.py:19: RuntimeWarning: invalid value enc…

データ操作まとめ(R dplyrとPython pandasで)

irisデータセットを使ってRとPythonのデータフレームの操作方法の比較 バージョン 準備 R Python (列の)選択 R Python 抽出(filter) R Python カテゴリ化 R Python 集計 R Python 集計値を新規カラムとして追加 R Python バージョン R R 4.0.2 dplyr 1.0.1 P…

Python+jupyterの並列処理

つい最近Pythonの並列処理について書いたばかりなんですが rpy.hatenablog.comjupyter上で並列処理ができるipyparallelを使ってみたので、導入から簡単な使い方までまとめました。 ipyparallelは、単一マシン上のマルチプロセスだけでなく、分散コンピューテ…

pipenv install でエラー:仮想環境が作れない

内容 下記のエラーが出て仮想環境がインストールできない。 AttributeError: 'NoneType' object has no attribute 'version_sort' 解決法 pipenvのバージョンを2018.11.26に下げる。 参考 github.com

Pythonの並列処理(マルチプロセス)

Rで並列処理といえばforeach 並列じゃない場合の繰り返しにも使いやすい上に気軽に並列化できる、神ライブラリと言って良いと思う。(2020.12.18追記)最近はRayという素晴らしいライブラリができて非常に簡単に分散処理ができるようになっていたのですね。 do…

本当に必要なグラフの描き方(seaborn編)

EDAの中で行う可視化 のためのメモ 準備 import matplotlib.pyplot as plt import seaborn as sns ヒストグラム sns.distplot(x, kde=False, norm_hist=True) # 全体100%で正規化 sns.distplot(x2, kde=False, norm_hist=True) # ヒストグラムの重ね描き 棒…

RとvariableInspector混ぜるな危険

jupyter notebook/Lab の便利な拡張variableInspectorは、jupyterでR環境を使う人は入れてはいけない variableInspectorはRにも対応しているが、そのプロセスでglobal環境にある全てのオブジェクトを読むところがあるらしく、巨大なdata.frameが存在するとそ…

jupyterで日本語

jupyter環境では特に設定しないとグラフの日本語(軸ラベル等)が□に文字化けしてしまう。 日本語を表示する方法について整理 この設定はAnacondaを使っている場合なので純粋なPythonの場合は適宜パスを読替え Python matplotlib の設定ファイルを修正~~~\Li…

グループごとの最小/最大

nlargest/nsmallest groupbyに対する上記メソッドは SeriesGroupBy にのみ定義され、DataFrameGroupBy には定義されていない。しかし、下記のように書くと何故か動いてしまう。 df.groupby(by or level = ***)[‘column name’].nlargest() しかし、動くとはい…

PythonとRの違い

いつもよく忘れることのメモ 整数の除算 R 除算:%/% 剰余:%% Python3 除算:// 剰余:% SQL 除算:/ (INT型の場合) 剰余:mod λ式 R ~ f(.) Python lambda x: f(x)

'_xsrf' argument missing from POST

エラー内容 jupyter notebook(Lab)で入力がしばらくないときにnotebookの保存ができなくなる。保存しようとするとこのエラーメッセージが出る。 Rで発生したことはあまりない気がする。Pythonのみ? 解決方法 ブラウザタブ複製で解消 リロードでも解消するが…