Hacker#03

最先端テクノロジーで
給与情報の抽出精度を高める

サラリーチーム 山口有理 2014年入社

スタンフォード大学でコンピュターサイエンスと数学をダブルメジャーし2009年卒業。ゴールドマン・サックス・ジャパン・ホールディングスへ入社。東京オフィスでプログラマーとして5年半程勤務した後、2014年6月からIndeedに。入社後は、Job searchチームで2ヶ月間メール配信システムの購読者DBの効率化業務に従事。その後、サラリーチームに異動し、現職へ。

※ チームやインタビュー内容は取材時のものです

今の仕事内容は?

給与情報の抽出し
活用するための開発

私の仕事は大きく分けて2つ。ひとつは求人ページの給与情報を抽出するためのアルゴリズムを開発すること。例えば、「従業員数3万5000人」を給与情報だと認識してはいけないですよね。こういったものをきちんと弾いて、給与情報を正しく抽出できるようにコードを書く必要があります。もうひとつは、Imhotepというツールで、サラリー周りの情報を解析・分析できるようにすること。Imhotepは膨大なデータの分析・即時解析が可能なツールです。Indeedの素早い意思決定を支えており、その一部をオープンソースとして公開しています。私達が作ったインデックスは、企業の概要、レビュー、給与情報などを分かりやすくまとめることでユーザーのスムーズな情報収集を手助けする開発をしているカンパニーデータチームなどに利用されています。

今の仕事の難しさを教えてください。

抽出された給与情報の誤差率を
5%以下に抑えること

給与の表記ひとつとっても「時給」「週給」「月収」「年収」など、企業によって様々。さらに給与額も、日本なら、数字に3桁ずつにコンマを打つ文化がありますが、国によっては、桁と桁の間にスペースが入ったり、桁の区切りにコンマではなく、ピリオドを打ったりします。そんな中でも、正しく給与情報を抽出し、その誤差率を5%以下に抑えなければいけません。公開後、誤りがあった場合は、それぞれの国のカントリーマネージャーが手作業で修正。プログラムを組めば万事OKというわけではなく、地道な作業も組み合わさって、精度を上げています。

最もやりがいを感じた仕事は何ですか?

NLPを活用した、
サラリーのコード改善

NLPとは、Natural Language Processingの略。単語の意味やコンテキストを、人間のように判別できるようになるテクノロジーで、私達はスタンフォード大学のライブラリを選びました。実際に使って見ると、品詞などの判定精度も、拡張性も、高い。初めて知った時は驚きました。現在、英語圏のページで、様々なコンテキストにおける品詞など判定方法をNLPに覚え込ませているところです。これが完成すれば、そこに人の目があるように給与情報を抽出できるかもしれない。そう思うと、本当に楽しみです。最先端テクノロジーを活用して、求職者の役に立つ仕事ができた時、最もやりがいを感じます。

会社の風土はいかがでしょうか?

自由な風土とシビアな評価が
いい緊張感を生み出す

いい仕事ができてさえいれば、卓球をしていてもいいし、ビールを飲んでいてもいい。ミーティングも少なく、まとまった時間を確保できるのでプログラミングに没頭できます。開発を行う上で、こういった、ストレスの少ない自由な環境はいいですね。ただし、その反面、評価はシビア。3ヵ月に1度、同僚やマネージャーからフィードバックを受けるのですが、結果が出せていないと、厳しい内容が。チームワークとオーナーシップが強く求められますね。でも、そんな環境で活躍しているエンジニアは、刺激的な存在。彼らがいるから、高いモチベーションを維持して、スキルを磨き続けることができますし、何より、世界中の求職者たちに喜んでもらえるアルゴリズムが開発できると思っています。