R, Python, DB 備忘録

データベースとか、jupyter(Python)、Rとか色々

Rでは(まだ)parquetファイルが読み込めない

PythonでのDataFrameの保存方法としてCSVは卒業してparquet+zstdにしようと思っているのですが、どうやら日本語環境のWindowsだとRで読み込めない模様
Rのarrowパッケージのread_parquetでparquet形式ファイルは読み込めるはずですが、フリーズしてしまいます。
MacOSでは

> Sys.setlocale("LC_ALL", "ja_JP.UTF8")

をしておくことで問題ないらしい。上記コマンドはOS依存でWindowsでは実行できない。Windowsでは

> Sys.setlocale("LC_ALL", "japanese[.code_page]")

ここで、code_pageがいわゆるcp932とかcp65001の番号部分を入れるらしいのですが

> Sys.setlocale("LC_ALL", "japanese.65001")
# ロケールを "japanese.65001" に設定せよとの OS のレポート要求は受け入れられません

と怒られます。

参考

ver 3.0(いまは 2.0)で修正予定っぽい。修正されるまでまだまだかかりそうな予感しかしない。
issues.apache.org