社内データマイニングツールソースを公開
SNSサービスのLinkedInは米国時間の3日、同社のデータチームが社内で用いているデータマイニングソフト「WhereHows」をオープンソース化すると発表した。近年のデータドリブンなビジネスにおいては、素早い分析とデータマイニング、ETLプロセスから生じる複雑性がメタデータをますます重要なものにしているとし、メタデータツールとして、この「WhereHows」を公開すると説明している。
「WhereHows」は、LinkedInがデータ発見および系統付けのためのポータルとしているもので、大量に生成されるデータを管理し、さまざまなツールサービスで使用されているデータ集合の発見や起源を調べる目的で使うことができるツール。中心的レポジトリかつWebベースのポータルとして機能する。
同社においては現在、「WhereHows」が約50,000のデータ集合と14,000のコメント、3,500万の実行ジョブおよび関連情報を収集、保存しているという。LinkedInが採用するHadoopのほか、さまざまなシステムにおける15ペタバイト以上ものデータ追跡が可能になっているそうだ。
多様化・複雑化が進みすぎたデータの全体管理・把握をサポート
LinkedInのような大企業はもちろん、近年のビジネスにおいて用いられるビッグデータエコシステムでは、個々の作業に特化したアプリケーションが増えすぎ、多数の異なるデータソースやデータストアを保持、さまざまなスケジューラやデータを引き出して処理するための変換エンジンをサポートしてシステムに包含するようになり、作業に最適なツールが利用できる一方、新たな問題が生じている。
それは、大量に生み出され、さまざまなフレームワークやプラットフォーム、システムにまたがるデータの流れ、それがどこから来てどのように働いているのか、その系統的な把握がきわめて行いづらくなっているということだ。
このために、必要なデータ集合を見つけることが困難になったり、破損したデータの発見や起源の調査、優先順位付けや重複する処理の発見・削除といった作業が進めづらくなったりと、管理上の問題が多数生じる事態になっている。
「WhereHows」はこうした問題を解消し、多様なデータ処理ソフトを統合、メタデータを取り込むという。「WhereHows」には、レポジトリ、Webサーバ、他システムからメタデータを取得・収集するバックエンドサービスを含む。
APIからでも、Webからでもアクセス可能で、スタッフが素早くデータ集合の起源を視覚化して確認したり、注釈を付けたりとさまざまな作業がスムーズに行えるという。公開はGitHubを通じて行われており、フィードバックを求めるディスカッショングループも設置されている。
(画像は公式ブログ発表記事より)

LinkedIn Engineering 公式ブログ 該当発表記事
https://engineering.linkedin.com/blog/2016/03GitHub 「WhereHows」
https://github.com/linkedin/WhereHows