株式会社ホクソエムのブログ

R, Python, データ分析, 機械学習

pytest fixtureの地味だけど重要な部分について

こんにちは。ホクソエム支援部サポーターのPython担当、藤岡です。 最近はデータエンジニア見習いとしてBI周りを触っています。 今回はpytestのfixtureについての記事です。 pytest自体が有名で記事もたくさんあるので、今回は地味だけど重要だと個人的に思…

「技術に正しく課金したいがためにアラフォーでも髪を染め続けているよ」というお話。

株式会社ホクソエム常務取締役のタカヤナギ=サンです、主に経営を担当しています。 株式会社ホクソエムの顧客、あるいは同僚から「何で君はアラフォーになっても変な髪色になっとるんじゃい?」という質問を結構いただくんで、 いい加減そのことについての私…

ホクソエムのおじさんたちを勝手に踊らせた話

毎週の歯科治療が一段落し, とうとう外に出る理由が一切なくなりました。 ホクソエムサポーターのKAZYです。 6畳の部屋に籠もり続けて健康を維持できるのか不安なこの頃。 運動不足も気になります。 ホクソエムのおじさんたちもきっと同じ悩みを抱えてることでし…

darts-cloneを使って最長一致法で分かち書きしてみる

ホクソエムサポーターの白井です。 呪術廻戦をみて喜久福が食べたくなりました *1。 今回は形態素解析について深堀りしてみます。 日本語の自然言語処理において、形態素解析は必ずといっていいほど通る道です。 形態素解析を必要としないSentencePieceのよ…

EDINET APIって知ってる? ~有価証券報告書をもっと楽にダウンロードする話~

はじめに こんにちは, ホクソエムサポーターのKAZYです。 最近はペンギンに興味があります。 世界最大のペンギンであるコウテイペンギンを日本で見るならば名古屋港水族館 (愛知) かアドベンチャーワールド (和歌山) らしいです。 ところで, 平成31年3月17日か…

有価証券報告テキストマイニング入門

はじめに こんにちは, ホクソエムサポーターのKAZYです。 先日猫カフェデビューをして, 猫アレルギーであることがわかりました。 次はフクロウカフェに挑戦してみようかなと思っています。 ところで皆様, 有価証券報告書は読んでますか? 私は読んでいません。 …

MLflowのXGBoost拡張を読んでみる

はじめに ホクソエムサポーターの藤岡です。会社を移りましたが、相変わらずPythonを書く仕事をしています。 前回の記事に引き続き、今回もMLflowについての記事です。 前回はトラッキング寄りでしたが、今回はモデルのデプロイにも関わってくる内容です。 M…

私の人生のロックマン(あるいは星のカービィ)戦略について

株式会社ホクソエム常務取締役のタカヤナギ=サンです。 会社では主にα崩壊を起こしそうなシャチョーを制御するための制御棒を担当しています。 これは何の話なの? 私のやり方というか能力の上げ方はタイトルにあるように基本的に「ロックマン(あるいは星の…

TRI-AD(TOYOTAの自動運転のとこ)の服部圭悟さんにカジュアル面談してもらった

頭出し 前職の同僚(一時期私の真後ろの席に座っていた)で、今は「誰もが、安全に移動できる世界へ」を掲げるTRI-ADに勤めている服部圭悟さんとカジュアル面談したら面白かったのでまとめておきたい、そして彼のチームの採用へとつなげていきたい。 カジュ…

書評:実用的でないPythonプログラミング

共立出版さまから献本いただいた 実用的でないPythonプログラミング: 楽しくコードを書いて賢くなろう! の書評です! 入門書を読み終えた2冊めの書籍として心豊かになるトピック満載です! www.youtube.com

書評:AWS認定アソシエイト3資格対策

AWS認定アソシエイト3資格対策~ソリューションアーキテクト、デベロッパー、SysOpsアドミニストレーター~ の書評です。 AWSへこれから入門される方やある程度まとまったAWSの体系的な知識が欲しい方、また弊社のお若い人におすすめです! www.youtube.com

法人としての価格設定問題からの、おじさんエンジニアの辛さと賃金の関係性

株式会社ホクソエム常務取締役のタカヤナギ=サンです、主にバックオフィス業務を担当しています。 自分メモに書き溜めていたポエムネタが溜まってきたので少しずつ放出していこうと思い筆をとりました。 「いや、そんなもん会社のBLOGに書くんじゃねーよ」と…

【翻訳】機械学習の技術的負債の重箱の隅をつつく (後編)

ホクソエムサポーターの白井です。 今回は前回 【翻訳】機械学習の技術的負債の重箱の隅をつつく (前編) の続きを紹介します。 blog.hoxo-m.com ※この記事は、Matthew McAteer氏によるブログ記事Nitpicking Machine Learning Technical Debtの和訳です。原著…

【翻訳】機械学習の技術的負債の重箱の隅をつつく (前編)

ホクソエムサポーターの白井です。 今回は Matthew McAteer氏によるブログ記事Nitpicking Machine Learning Technical Debtの和訳を紹介します。 原著者の許可取得済みです。 Thank you! アメリカの国内ネタも含んでいて、日本語だと理解しにくい箇所もあり…

MLflowのデータストアを覗いてみる

(2020/08/14 flavorについての記載を一部修正) はじめに こんにちは、ホクソエムサポーターの藤岡です。 最近、MLflowを分析業務で使用しているのですが、お手軽に機械学習のモデルや結果が管理できて重宝しています。 また、特定のライブラリに依存しないな…

深層学習系のトップ会議ICLR2020のNLP系論文についてざっくり紹介

ホクソエムサポーターの白井です。今回はICLR2020 の論文を紹介します。 The International Conference on Learning Representations (ICLR) は機械学習の中でも特に深層学習 を専門とした国際会議です。 OpenReview.net によるopen peer reviewを採用してい…

簡単な"さんすう"で見積もる施策効果の要因分解

日々、最先端で高度なテクノロジーに基づくビジネス改善”施策”を実施されている読者諸氏の皆さんこんばんわ、株式会社ホクソエム・常務取締役(博士(統計科学))の高柳です。 "XXXというKPI(売上とか)を向上させるために、XXXを構成するYYYという要因(PVと…

sqlparse 入門 - 応用編 -

1. はじめに こんにちは、ホクソエムサポーターの藤岡です。 初稿では一回で終わらせる予定だったはずの本記事もついに第三回。 ついに最後です。 ここまででsqlparseと構文解析の基本的な部分を解説したので、 いよいよ本格的に構文解析の結果をしっかりと…

sqlparse 入門 - 狭義の構文解析編 -

1. はじめに こんにちは。ホクソエムサポーター(名称審議中)の藤岡です。 字句解析を紹介した前回の記事に続き、今回もsqlparseを中心に据えつつ狭義の構文解析について紹介・解説していきたいと思います。 また、狭義の構文解析で得られる構文木を解析す…

学習済み日本語word2vecとその評価について

ホクソエムサポーターの白井です。 今回は日本語の word2vec に着目し、日本語の学習済み word2vec の評価方法について紹介します。 自然言語は非構造化データであるため、単語や文章を計算機で扱いやすい表現に変換する必要があります。 そのための方法の1…

GitHub Actions実行時に依存するRパッケージのインストールをキャッシュ化する

R

ホクソエムの u_ribo です。漫画「ブリーチ」の石田雨竜に親近感を感じます。仕事はシュッと終わらせて趣味の時間を増やしたいですよね。 要約 GitHub Actionsに対してrenvを使ったキャッシュ機能を活用。依存するRパッケージのインストール時間を短縮する …

Rと3Dプリンターで八ヶ岳のミニチュアを作る。

この記事について この記事はR Advent Calendar 2019の19日目の記事です。 はじめに ホクソエムサポーターの輿石です。最近3Dプリンターを買いました。遠い世界のガジェットのように思っていましたが、家庭用であれば3万円前後で買えてしまうんですね。 3Dプ…

GitHub Actions でRのパッケージの継続的インテグレーション(CI)を行う

本記事について R Advent Calendar 2019 1103日目の記事です。 空きがなかったので適当に書きます。 1103->11月03日は”いいおっさん”の日です、各位、よろしくお願いいたします。 はじめに 株式会社ホクソエムの高柳です。 この記事ではGitHub ActionsとR、…

sqlparse 入門 - 字句解析編 -

本記事はPythonその2 Advent Calendar 2019に参加しています。 1. はじめに こんにちは。ホクソエムサポーターの藤岡です。 データアナリストらしいですが、分析そっちのけでPySparkと戯れてます。 メソッドチェインを積み上げていくスタイルで最初はちょっ…

gganimateでバーチャートレースを作って競争心を煽る

ホクソエムサポーターの輿石です。普段はデータ分析会社で分析業務や社内Rパッケージ開発をはじめ分析環境を整備する仕事をしています。 最近WEB系のメディアで「バーチャートレース(bar chart race )」と呼ばれるぬるぬる動く棒グラフを見ることが増えてき…

EMNLP2019の気になった論文を紹介

ホクソエムサポーターの白井です。 EMNLP-IJCNLP 2019 (以降 EMNLP) が先日、香港で開催されました。 EMNLPは Empirical Methods in Natural Language Processing の略称で、ACLやNAACLと並ぶ、計算機科学のTop conferenceと言われてます*1。 今年採択された…

今年読んだNLP系論文で面白かった5つ

ホクソエムサポーターの白井です。学生時代は自然言語処理の研究をしていました。 「今年読んだ論文、面白かった5つ」というテーマで、自然言語処理(NLP)の論文を紹介します。 主にACL anthologyに公開されている論文から選んでいます。 はじめに 今年のNLP…

Python + AsyncSSH によるお手軽非同期SSH接続

Python 3.4以降、asyncioが導入されたことで非同期処理の実装が簡単にできるようになりました。非同期処理を活用すると、大量のテキストを読み込んだり、通信のレスポンスを待つ時間に他の処理を行うことができるようになります。ここでは、asyncioをベース…

スパコン上でRを並列実行する方法

R

アカデミアの大規模超並列クラスタ型スーパーコンピュータ上で、Rを並列実行する際の備忘録です。あまりスパコンに詳しくないので、用語を間違っていたら教えてください。僕が使っているスパコンは富士通のサーバでXeon Scalableプロセッサを積んでて、Intel…

Rでのナウなデータ分割のやり方: rsampleパッケージによる交差検証

R

前処理大全の「分割」の章では、予測モデルの評価のためのデータセット分割方法が解説されています。基礎から時系列データへ適用する際の注意まで説明されているだけでなく、awesomeなコードの例がRおよびPythonで書かれており、実践的な側面もあります(お…