株式会社ホクソエムのブログ

R, Python, データ分析, 機械学習

Python + AsyncSSH によるお手軽非同期SSH接続

Python 3.4以降、asyncioが導入されたことで非同期処理の実装が簡単にできるようになりました。非同期処理を活用すると、大量のテキストを読み込んだり、通信のレスポンスを待つ時間に他の処理を行うことができるようになります。ここでは、asyncioをベース…

スパコン上でRを並列実行する方法

R

アカデミアの大規模超並列クラスタ型スーパーコンピュータ上で、Rを並列実行する際の備忘録です。あまりスパコンに詳しくないので、用語を間違っていたら教えてください。僕が使っているスパコンは富士通のサーバでXeon Scalableプロセッサを積んでて、Intel…

Rでのナウなデータ分割のやり方: rsampleパッケージによる交差検証

R

前処理大全の「分割」の章では、予測モデルの評価のためのデータセット分割方法が解説されています。基礎から時系列データへ適用する際の注意まで説明されているだけでなく、awesomeなコードの例がRおよびPythonで書かれており、実践的な側面もあります(お…

ggplot2 で facet ごとのヒストグラムに平均値の線を引く

ggplot2 で facet ごとのヒストグラムに平均値の線を引きたい。 例えば次のような感じ。 Rコミュニティの Slack である r-wakalang で聞いたところ、即回答がもらえただけでなく、いろいろなやり方を教わったのでメモしておく。 みなさんありがとう。 基本作…

ggplot2 で時系列プロットの端点にラベルを表示する

こういう感じで時系列プロットの端点にラベルを表示したい。 この方が時系列とラベルの対応がわかりやすくて良い。 データ視覚化のデザイン #1|Go Ando / THE GUILD|note ggrepel パッケージを使うと簡単にできるが、いくつか注意点があるのでここで紹介し…

データ分析のワークフローをdrakeで管理して効率的に作業を進めよう

要約 drakeパッケージは、GNU makeのようにあらかじめ定義されたワークフローを自動的に実施する仕組みを、Rユーザに馴染みやすいデータフレーム形式で提供する ワークフローの構築と管理、実行はRの関数として提供され、依存関係を可視化する関数も用意され…

【2018年版】R でハッシュテーブルの速度比較

以前、こういう記事を書いた。 R でハッシュテーブルの速度比較 #rstatsj Rでハッシュテーブルを使う方法はいくつかあるが、 サイズが 1000 以下ならば名前付きベクトルが速い それ以上なら環境を使った方法が速い hash パッケージは遅いが記述がわかりやす…

モデルで扱うデータの前処理をrecipesで行う

R

ドーモ。ホクソエムの @u_ribo です。本業ではモデリングとは離れたギョームをしています。寂しくなったので、Rのrecipesパッケージについて紹介します。 tidymodels.github.io モデルに適用するデータの前処理 Rでのモデル式 (model formula) の記述って、…

クロネッカー積でデータを列方向(or行方向)に高速に複製もしくは定数倍する

r-wakalangからの転載です。以下のような質問がありました。 data.frameをカラム・ロウ方向に複製結合したdata.frameを出力させたいのですが、どうも綺麗に書けずです。。アドバイスお願いしますm( )m この意味は、例えば「行方向に2個・列方向に3個複製」の…

ggplot2 で時系列の区間に影をつけるのは annotate が便利ぽい

例えば次のような時系列データがあるとします。 library(xts) ts <- as.xts(Nile) library(ggplot2) autoplot(ts) このプロットの 1900年から1940年までの区間に影をつけたい。 これには annotate() が便利ぽい。 autoplot(ts) + annotate("rect", xmin = as…

RStudioServer から ShinyApp を直接デプロイしたい

現在 CentOS 7.5 サーバーに RStudioServer と ShinyServer を入れて RStuidio 上で ShinyApp を書いています。 デプロイするには /srv/shiny-server/ の下にフォルダを丸ごとコピーしていますが、サーバにいちいちログインするか RStudio の新機能である Te…

雑記

こんにちは、ホクソエムです。雑記です。 今では当たり前のように使われている pipe演算子こと %>% 。 dplyrパッケージが発表された当初は「気持ち悪い」と評判だったのですが、みなさんもう慣れたのでしょうか。 そしてrlistパッケージの %>>% 。 %>% より…

Rユーザ会でStanの紹介と応用事例について話しました

Rユーザ会@統計数理研究所で「StanとRでベイズ統計モデリング」について発表しました。資料は以下です。 Stanの紹介と応用事例(age heapingの統計モデル) from Kentaro Matsuura Rには詳しいがStanをほとんど知らない人たちへのStan紹介と、(空間)統計…

awe.s3パッケージでRからのAWS S3とのファイルやりとりを行う

ドーモ。ホクソエムです。更新が久しくなってしまいました。ホクソエムでは現在、Amazon Web Service (AWS)を利用していないのですが、本職の方でS3に触れる機会があったので、RからS3への操作を行うためのパッケージ awe.s3 を紹介したいと思います。 ASW S…

RStudioアドイン 10選

Rユーザのみなさん、RStudio使っていますか。RStudioを使うなら、RStudioアドインも使いましょう。便利です。 … でも、\どんなアドインがあるのかわからない!/ という声をしばしば聞きます。というわけでお気に入りのアドインを10個まとめました。用途ご…

「東京ベイエリア・タワーマンション地図」の作成

はじめに キュッキュキュッキュこんばんはDJタカヤナギです。 今日で連休が終わるという方が大半なのではないでしょうか? 長い連休明けの月曜日はいつだって嫌なものですね。 さて、東京オリンピックまであと3年ということで、その中心地となるであろう東京…

R の強制型変換と NA の取り扱い

はじめに R において欠損値を表す NA は非常に便利です。 NA は普通の R ユーザにとって自然に取り扱うことのできる概念ですが、それを支える内部の仕組みはわりと複雑です。 例えば、NA の型は論理値型ですが、一体それはなぜでしょうか? 今日は R におけ…

ナウでヤングなRの環境変数管理方法

こんにちは。ホクソエムのグローバル推進事業部にて本部長を努めます瓜生(@u_ribo)です。この記事ではRにおける環境変数の設定方法のおさらいと、ナウな手法を使った環境変数の管理方法について紹介します。 環境変数を利用していますか? Rでは、利用してい…

2017年4月1日、ドイツのRユーザ @henningswayが東京へやって来るということで、Global Tokyo.R#2が開催されました。ホクソエム各位も運営や発表を行いました!!というわけで今回の記事はGlobal Tokyo.Rの参加レポートとなります。 Contents Presenter Slide N…