R, Python, DB 備忘録

データベースとか、jupyter(Python)、Rとか色々

factor

Rのfactor型は難しい。
なのでstringsAsFactors=Fがデフォルトですが、メリデメを整理してみた。

メリット

  • summary()したときに、カテゴリ別の件数を表示してくれる。
  • ggplotしたときに、データが存在しないカテゴリに関しても描画してくれる。
  • sort順の指定が容易

デメリット

  • いつまでたっても詳しい使い方がよくわからない複雑さ
  • 文字列だと思ってstr_detectなどかけるとやたらと時間がかかる。