株式会社ホクソエムのブログ

R, Python, データ分析, 機械学習

MLflowのXGBoost拡張を読んでみる

はじめに ホクソエムサポーターの藤岡です。会社を移りましたが、相変わらずPythonを書く仕事をしています。 前回の記事に引き続き、今回もMLflowについての記事です。 前回はトラッキング寄りでしたが、今回はモデルのデプロイにも関わってくる内容です。 M…

私の人生のロックマン(あるいは星のカービィ)戦略について

株式会社ホクソエム常務取締役のタカヤナギ=サンです。 会社では主にα崩壊を起こしそうなシャチョーを制御するための制御棒を担当しています。 これは何の話なの? 私のやり方というか能力の上げ方はタイトルにあるように基本的に「ロックマン(あるいは星の…

TRI-AD(TOYOTAの自動運転のとこ)の服部圭悟さんにカジュアル面談してもらった

頭出し 前職の同僚(一時期私の真後ろの席に座っていた)で、今は「誰もが、安全に移動できる世界へ」を掲げるTRI-ADに勤めている服部圭悟さんとカジュアル面談したら面白かったのでまとめておきたい、そして彼のチームの採用へとつなげていきたい。 カジュ…

書評:実用的でないPythonプログラミング

共立出版さまから献本いただいた 実用的でないPythonプログラミング: 楽しくコードを書いて賢くなろう! の書評です! 入門書を読み終えた2冊めの書籍として心豊かになるトピック満載です! www.youtube.com

書評:AWS認定アソシエイト3資格対策

AWS認定アソシエイト3資格対策~ソリューションアーキテクト、デベロッパー、SysOpsアドミニストレーター~ の書評です。 AWSへこれから入門される方やある程度まとまったAWSの体系的な知識が欲しい方、また弊社のお若い人におすすめです! www.youtube.com

法人としての価格設定問題からの、おじさんエンジニアの辛さと賃金の関係性

株式会社ホクソエム常務取締役のタカヤナギ=サンです、主にバックオフィス業務を担当しています。 自分メモに書き溜めていたポエムネタが溜まってきたので少しずつ放出していこうと思い筆をとりました。 「いや、そんなもん会社のBLOGに書くんじゃねーよ」と…

【翻訳】機械学習の技術的負債の重箱の隅をつつく (後編)

ホクソエムサポーターの白井です。 今回は前回 【翻訳】機械学習の技術的負債の重箱の隅をつつく (前編) の続きを紹介します。 blog.hoxo-m.com ※この記事は、Matthew McAteer氏によるブログ記事Nitpicking Machine Learning Technical Debtの和訳です。原著…

【翻訳】機械学習の技術的負債の重箱の隅をつつく (前編)

ホクソエムサポーターの白井です。 今回は Matthew McAteer氏によるブログ記事Nitpicking Machine Learning Technical Debtの和訳を紹介します。 原著者の許可取得済みです。 Thank you! アメリカの国内ネタも含んでいて、日本語だと理解しにくい箇所もあり…

MLflowのデータストアを覗いてみる

(2020/08/14 flavorについての記載を一部修正) はじめに こんにちは、ホクソエムサポーターの藤岡です。 最近、MLflowを分析業務で使用しているのですが、お手軽に機械学習のモデルや結果が管理できて重宝しています。 また、特定のライブラリに依存しないな…

深層学習系のトップ会議ICLR2020のNLP系論文についてざっくり紹介

ホクソエムサポーターの白井です。今回はICLR2020 の論文を紹介します。 The International Conference on Learning Representations (ICLR) は機械学習の中でも特に深層学習 を専門とした国際会議です。 OpenReview.net によるopen peer reviewを採用してい…

簡単な"さんすう"で見積もる施策効果の要因分解

日々、最先端で高度なテクノロジーに基づくビジネス改善”施策”を実施されている読者諸氏の皆さんこんばんわ、株式会社ホクソエム・常務取締役(博士(統計科学))の高柳です。 "XXXというKPI(売上とか)を向上させるために、XXXを構成するYYYという要因(PVと…

sqlparse 入門 - 応用編 -

1. はじめに こんにちは、ホクソエムサポーターの藤岡です。 初稿では一回で終わらせる予定だったはずの本記事もついに第三回。 ついに最後です。 ここまででsqlparseと構文解析の基本的な部分を解説したので、 いよいよ本格的に構文解析の結果をしっかりと…

sqlparse 入門 - 狭義の構文解析編 -

1. はじめに こんにちは。ホクソエムサポーター(名称審議中)の藤岡です。 字句解析を紹介した前回の記事に続き、今回もsqlparseを中心に据えつつ狭義の構文解析について紹介・解説していきたいと思います。 また、狭義の構文解析で得られる構文木を解析す…

学習済み日本語word2vecとその評価について

ホクソエムサポーターの白井です。 今回は日本語の word2vec に着目し、日本語の学習済み word2vec の評価方法について紹介します。 自然言語は非構造化データであるため、単語や文章を計算機で扱いやすい表現に変換する必要があります。 そのための方法の1…

GitHub Actions実行時に依存するRパッケージのインストールをキャッシュ化する

R

ホクソエムの u_ribo です。漫画「ブリーチ」の石田雨竜に親近感を感じます。仕事はシュッと終わらせて趣味の時間を増やしたいですよね。 要約 GitHub Actionsに対してrenvを使ったキャッシュ機能を活用。依存するRパッケージのインストール時間を短縮する …

Rと3Dプリンターで八ヶ岳のミニチュアを作る。

この記事について この記事はR Advent Calendar 2019の19日目の記事です。 はじめに ホクソエムサポーターの輿石です。最近3Dプリンターを買いました。遠い世界のガジェットのように思っていましたが、家庭用であれば3万円前後で買えてしまうんですね。 3Dプ…

GitHub Actions でRのパッケージの継続的インテグレーション(CI)を行う

本記事について R Advent Calendar 2019 1103日目の記事です。 空きがなかったので適当に書きます。 1103->11月03日は”いいおっさん”の日です、各位、よろしくお願いいたします。 はじめに 株式会社ホクソエムの高柳です。 この記事ではGitHub ActionsとR、…

sqlparse 入門 - 字句解析編 -

本記事はPythonその2 Advent Calendar 2019に参加しています。 1. はじめに こんにちは。ホクソエムサポーターの藤岡です。 データアナリストらしいですが、分析そっちのけでPySparkと戯れてます。 メソッドチェインを積み上げていくスタイルで最初はちょっ…

gganimateでバーチャートレースを作って競争心を煽る

ホクソエムサポーターの輿石です。普段はデータ分析会社で分析業務や社内Rパッケージ開発をはじめ分析環境を整備する仕事をしています。 最近WEB系のメディアで「バーチャートレース(bar chart race )」と呼ばれるぬるぬる動く棒グラフを見ることが増えてき…

EMNLP2019の気になった論文を紹介

ホクソエムサポーターの白井です。 EMNLP-IJCNLP 2019 (以降 EMNLP) が先日、香港で開催されました。 EMNLPは Empirical Methods in Natural Language Processing の略称で、ACLやNAACLと並ぶ、計算機科学のTop conferenceと言われてます*1。 今年採択された…

今年読んだNLP系論文で面白かった5つ

ホクソエムサポーターの白井です。学生時代は自然言語処理の研究をしていました。 「今年読んだ論文、面白かった5つ」というテーマで、自然言語処理(NLP)の論文を紹介します。 主にACL anthologyに公開されている論文から選んでいます。 はじめに 今年のNLP…

Python + AsyncSSH によるお手軽非同期SSH接続

Python 3.4以降、asyncioが導入されたことで非同期処理の実装が簡単にできるようになりました。非同期処理を活用すると、大量のテキストを読み込んだり、通信のレスポンスを待つ時間に他の処理を行うことができるようになります。ここでは、asyncioをベース…

スパコン上でRを並列実行する方法

R

アカデミアの大規模超並列クラスタ型スーパーコンピュータ上で、Rを並列実行する際の備忘録です。あまりスパコンに詳しくないので、用語を間違っていたら教えてください。僕が使っているスパコンは富士通のサーバでXeon Scalableプロセッサを積んでて、Intel…

Rでのナウなデータ分割のやり方: rsampleパッケージによる交差検証

R

前処理大全の「分割」の章では、予測モデルの評価のためのデータセット分割方法が解説されています。基礎から時系列データへ適用する際の注意まで説明されているだけでなく、awesomeなコードの例がRおよびPythonで書かれており、実践的な側面もあります(お…

ggplot2 で facet ごとのヒストグラムに平均値の線を引く

ggplot2 で facet ごとのヒストグラムに平均値の線を引きたい。 例えば次のような感じ。 Rコミュニティの Slack である r-wakalang で聞いたところ、即回答がもらえただけでなく、いろいろなやり方を教わったのでメモしておく。 みなさんありがとう。 基本作…

ggplot2 で時系列プロットの端点にラベルを表示する

こういう感じで時系列プロットの端点にラベルを表示したい。 この方が時系列とラベルの対応がわかりやすくて良い。 データ視覚化のデザイン #1|Go Ando / THE GUILD|note ggrepel パッケージを使うと簡単にできるが、いくつか注意点があるのでここで紹介し…

データ分析のワークフローをdrakeで管理して効率的に作業を進めよう

要約 drakeパッケージは、GNU makeのようにあらかじめ定義されたワークフローを自動的に実施する仕組みを、Rユーザに馴染みやすいデータフレーム形式で提供する ワークフローの構築と管理、実行はRの関数として提供され、依存関係を可視化する関数も用意され…

【2018年版】R でハッシュテーブルの速度比較

以前、こういう記事を書いた。 R でハッシュテーブルの速度比較 #rstatsj Rでハッシュテーブルを使う方法はいくつかあるが、 サイズが 1000 以下ならば名前付きベクトルが速い それ以上なら環境を使った方法が速い hash パッケージは遅いが記述がわかりやす…

モデルで扱うデータの前処理をrecipesで行う

R

ドーモ。ホクソエムの @u_ribo です。本業ではモデリングとは離れたギョームをしています。寂しくなったので、Rのrecipesパッケージについて紹介します。 tidymodels.github.io モデルに適用するデータの前処理 Rでのモデル式 (model formula) の記述って、…

クロネッカー積でデータを列方向(or行方向)に高速に複製もしくは定数倍する

r-wakalangからの転載です。以下のような質問がありました。 data.frameをカラム・ロウ方向に複製結合したdata.frameを出力させたいのですが、どうも綺麗に書けずです。。アドバイスお願いしますm( )m この意味は、例えば「行方向に2個・列方向に3個複製」の…