はじめに
昨年の秋ごろから、リクルートテクノロジーズの石川有さんらとともに共著で執筆していた「詳解 Apache Spark」 が遂に本日 4/29 に、技術評論社より発売となりました! なお、発売に先立って出版社および共著陣より献本させていただいた方々から、ありがたいことに書評や感想をいただいております。ぜひご購入の際の参考にしていただければと思います。
豊富な具体例,DataFrameの詳細な説明,Spark1.6で導入された機能の説明,統一感のある文体・構成など,データ解析者にも得るものの多い素晴らしい書籍でした! / [書評][Spark]詳解Apache Spark https://t.co/EwB56q5Tfz
— sfchaos (@sfchaos) 2016年4月24日
『詳解 Apache Spark』読み始めましたが本当に良い本ですね。「データ分析者向け」の本として非常に勉強になる本だと思います。
— Think more, try less (@Keiku) 2016年4月23日
「詳解 Apache Spark」ご恵贈いただきました!(・∀・) 読み始めていますが、実践的で、また要所要所に図が散りばめられていてわかりやすいです(*´ω`*)https://t.co/ogsgQX1JC7 pic.twitter.com/cTAzZ4BFAS
— まつけん (@Kenmatsu4) 2016年4月26日
「詳解Apache Spark」を献本いただいた。ありがとうございます!やっぱGraphXの章が一番興味あるね!コードがたくさん載っているのはとても良い。 pic.twitter.com/6fFnN5mLfR
— нiяоко iп пеtщоякs (@millionsmile) 2016年4月28日
また、Amazon では Kindle 版も発売開始になった ようです。ですので、普段使いには物理書籍を、外出時には Kindle 版をご利用いただければと思います。
担当の「第 7 章 MLlib」について
書籍内ではあまり明確に謳ってはいないのですが、僕が担当した MLlib の章はデータ分析者だけではなく Web エンジニアを想定読者と考えています。仮に機械学習にあまり詳しくない方が読んだとしても、MLlib を利用するのに必要最低限の知識が獲得できつつ、MLlib を使ったアプリケーション開発ができるようになるであろう内容の構成としています。
章の前半では、RDD や DataFrame で表現されたデータに対して、MLlib の各機能 (特徴抽出や機械学習アルゴリズム、交差検証、評価メトリクスなど) を適用する説明に重点を置いた解説をしています。後半では、機械学習によって問題解決をするアプリケーションの開発イメージを掴むことを目的に、パブリックなデータセットを用いた具体例を提示しています。
紙面の都合もあり、機械学習の各種アルゴリズムの解説を事細かに網羅的に書くことは叶いませんでしたが、具体例で取り上げたアルゴリズムについては、そこそこ丁寧に説明をしました (したつもりです)。Spark 上で、より高度な機械学習の活用をしたいのであれば本書とあわせて、オライリー社の「Spark による実践データ解析」の書籍も読むのがいいでしょう。
また私の担当章以外も、GraphX や Spark Streaming など、MLlib の章以上に読み応えのある内容が盛りだくさんですので、このゴールデンウィークの勉強時間のお供にぜひ、本書をご購入いたければと思います。
おまけ
詳解 Apache Sparkの献本を正座して待ち続けている
— やまかつ (@yamakatu) 2016年4月12日
おかしい…おれの元には詳解 Apache Sparkがいつまでたっても献本されないのだが…
— やまかつ (@yamakatu) 2016年4月23日
「詳解Apache Spark」の献本を正座して待ち続けている
— やまかつ (@yamakatu) 2016年4月28日