新到貨2本75折
大數據架構商業之路:從業務需求到技術方案

大數據架構商業之路:從業務需求到技術方案

  • 定價:414
  • 優惠價:87360
  • 運送方式:
  • 臺灣與離島
  • 海外
  • 可配送點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
  • 可取貨點:台灣、蘭嶼、綠島、澎湖、金門、馬祖
載入中...
  • 分享
 

內容簡介

為了達到深入淺出、通俗易懂的效果,本書的第一大部分概述了大數據的主要技術,包括大數據的獲取、存儲、處理,還有架構設計的基本理念,以及常用的消息和緩存機制。

這一部分你會發現關於Nutch、Flume、Hadoop、HBase、Redis、Hive、Kafka、Spark、Storm等的簡介。

對於數據處理的高級技術,本書着墨不少,但不乏對於信息檢索和數據挖掘課題的探討。例如站內搜索引擎、推薦系統、廣告系統、聚類、分類和線性回歸等。

由於商業需求尤其看重實際產出,因此第一部分的最后還會分析常見的效果和性能評估。相信這部分對於構建讀者的大數據知識體系會很有幫助。在每一章的最后,我們還會給出重要的參考圖書,以便於讀者繼續深入學習。
 

詳細資料

  • ISBN:9787111535287
  • 規格:298頁 / 普通級 / 1-1
  • 出版地:中國

會員評鑑

5
1人評分
|
1則書評
|
立即評分
user-img
5.0
|
2021/12/17
劇透警告
自從看過黃申的「大數據架構和算法實現之路:電商系統的技術實戰」一書後,就對他在大數據領域的研究和心得有所共鳴。這本「大數據架構商業之路:從業務需求到技術方案」是「大數據架構和算法實現之路」的前作,在內容的規畫上著重理論層面的介紹和解說,兩書互為表裏,做為大數據從業人員當然不能掛萬漏一。全書有12章,除了第1章引言外,2到7章將大數據應用的不同題目,各自整理成專章,分為「數據收集」、「數據儲存」、「數據處理」、「信息檢索」、「數據挖掘」、「效能評估」。

數據收集中有「網路資料收集」也就是常說的「網路爬蟲」。抓取網路資料的演算法有「深度優先」、「廣度優先」和「最佳優先」三種,其中又以「最佳優先」效果最好。在開源碼中有「Apache Nutch」和「Heritrix」可以實踐網路爬蟲。另一種數據收集則是「企業內部資料收集」,簡單說就是內部轉檔程式(從各種不同的資料來源),開源碼中有「Apache Flume」可用。

數據儲存分成「持久化儲存」和「非持久化儲存」兩類。在持久化儲存部份,「Hadoop(HDFS)」是業界公認的唯一選項,普及程度已到言大數據者不可不用HDFS,另外建基在HDFS上的noSQL解決方案「HBase」也常被企業採用。近來在noSQL應用中異軍突出的「MongoDB」,則是自成一格用來儲存非結構化資料的文件資料庫。非持久化儲存的主要訴求是超高的反應速度,因此主流產品都是用記憶體做為儲存機制。開源產品有「Memcached」和功能更強大的「Redis」。

數據處理依照處理的頻率分為「離線批次」、「近乎即時」和「在線即時」三種。Hadoop(MapReduce)是離線批次處理中的業界公理,被視為大數據技術的原點。針對MapReduce的缺點再進化而成的「Spark(RDD)」,則是近來有望取而代之的平台。另外也有將MapReduce程式碼封裝成SQL like語法的「Apache Hive」,和基於相同簡化概念而產生的「Pig」、「Impala」和「Spark SQL」等平台和套件,這些產品都是提供一個做法讓非程式人員更方便地操作大數據資料。近乎即時的機制是仰賴訊息佇列,開源碼中的「ActiveMQ」和「Apache Kafka」較為知名。在線即時處理和離線批次處理是站在天秤上兩側的對立面,在應用面上能互補,免除實踐時在運算時效和資料規模非得取捨的兩難。開源碼有全即時的「Storm」和批量即時的「Spark Streaming」。

黃申在信息檢索章節花費相當大篇幅介紹,畢竟此階段已經可以看到具體的大數據運用成果,相信讀者有意願深入瞭解。有別於對資料庫查詢結構化資料,大數據資料檢索的長處是查詢非結構化資料。檢索和比對非結構化資料的核心問題有「相關性」和「即時性」。在相關性的判定上,目前已經發展出許多模型,包含了「布林模型」、「基於排序的布林模型(增強型布林模型:TF/IDF)」、「向量空間模型」和「語言模型(機器學習:Naive Bayes)」。處理即時性需求,最基本會用到「倒排索引」技術。信息檢索的需求在IT業界最具體的例子就是「搜尋引擎」,依應用目的可以分成「通用型搜尋引擎」和電子商務中的「商品搜尋引擎」。像Google般的通用型搜尋引擎,重點會放在網路爬蟲技術,書中就介紹了Google的PageRank演算法和由權威值與中心值構成的HITS演算法。電商的商品搜尋機制,考量的重點是「排序演算法」,其中排序的「金字塔模型」包含了「文本模型」、「反作弊模型」、「商家服務模型」、「商業規則」、「人氣模型」、「分類模型」、「輪播模型」、「個性化模型」。搜擎引擎最有名的開源碼套件為「Lucene」,從中發展出各佔半邊天的「Solr」和「Elasticsearch」。

推薦系統是大數據在電商應用中的第二個亮點,因為它能顯著地增加商品被瀏覽、被銷售的機會。好的推薦系統能幫公司出售多樣化的商品,增加用戶的滿意度和忠誠度。推薦系統可以依「基於商品」、「基於用戶」和「基於情景」分類。推薦演算法的核心是相似度,在概念上和搜尋系統的相關性一樣,只是應用領域和實作細節有所不同。相似度的定義方法可以有四種類型,「基於內容」、「基於知識」、「基於用戶行為」和「基於社交和社群」等。在混合不同推薦算法時,則可以用「微觀混合」或「宏觀混合」。

線上廣告系統是大數據在電商環境的另一種常見應用,系統中的角色有「廣告投放主」、「廣告」、「用戶」和「廣告平台」,過去常見橫幅廣告播放,現在都是精準投放。收費的模式有「CPM(Cost per Mille千次)」、「CPT(Cost per Time)」、「CPC(Cost per Click)」和「CPS(Cost per Sale)」與其它。廣告關鍵字的拍賣競標是廣告系統不同於搜尋、推薦系統的地方,也是最具技術門檻的機制。

數據挖掘又稱數據探勘或是機器學習,常見的任務有「頻繁模式」和「關聯性分析」,用於預測的「分類」和「迴歸」,非預測性的「聚類(分群)」,最後還有「異常點分析」。在開源碼中有「Apache Mahout」套件,「R」語言也是另一種常見的工具。

大數據的效能評估,依評估手法可分為「離線評估」、「用戶訪談」和「線上評估」。離線評估中針對信息檢索系統的最基本評測指標是「精度(Precision)」和「召回率(Recall)」,機器學習的評測有針對分類問題的「混淆矩陣」。對分群問題來說並沒有方便量測的驗證工具,此時可以「外部準則法」,藉由將額外提供的資料標籤和分群後的結果逐一比對,求出分群效果的「精確度(Accuracy)」和「F值」。線上評估就是「A/B測試」,也是電商營運上最有效的測試手法。應用系統的性能評估有「性能測試(驗證系統合乎預期目標)」、「負載測試(找出系統的安全臨界負載)、「壓力測試(找出系統崩潰的壓力點)」和「穩定性測試(在適當的壓力下系統長時間運作)」。開源碼的「JMeter」工具可以滿足上述所有的性能評估需要。

最後的9到12章,黃申快速地介紹搜尋系統、推薦系統、資料收集、數據探勘的實作案例。而更清楚的說明與完整的程式碼,是放在「大數據架構和算法實現之路:電商系統的技術實戰」一書中。黃申在本書中點出大數據技術在電子商務的運用主題,涵蓋「搜尋引擎」、「推薦系統」、「數據探勘」和「線上廣告系統」,這和我在大數據開發歷程中體悟到的心得不謀而合。推薦引擎就如同不須使用者自行輸入關鍵字的商品搜尋引擎,當看到黃申寫的這句話時,不由得拍案叫絕,他居然和我對推薦系統的看法一致。
展開

最近瀏覽商品

 

相關活動

  • 【商業理財】理財先理心,改寫「薪」藍圖!采實電子書商業理財書展
 

購物說明

溫馨提醒您:若您訂單中有購買簡體館無庫存/預售書或庫存於海外廠商的書籍,建議與其他商品分開下單,以避免等待時間過長,謝謝。

大陸出版品書況:因裝幀品質及貨運條件未臻完善,書況與台灣出版品落差甚大,封面老舊、出現磨痕、凹痕等均屬常態,故簡體字館除封面破損、內頁脫落...等較嚴重的狀態外,其餘所有商品將正常出貨。 

 

請注意,部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

調貨時間:若您購買海外庫存之商品,於您完成訂購後,商品原則上約45個工作天內抵台(若有將延遲另行告知)。為了縮短等待的時間,建議您將簡體書與其它商品分開訂購,以利一般商品快速出貨。 

若您具有法人身份為常態性且大量購書者,或有特殊作業需求,建議您可洽詢「企業採購」。 

退換貨說明 

會員所購買的商品均享有到貨十天的猶豫期(含例假日)。退回之商品必須於猶豫期內寄回。 

辦理退換貨時,商品必須是全新狀態與完整包裝(請注意保持商品本體、配件、贈品、保證書、原廠包裝及所有附隨文件或資料的完整性,切勿缺漏任何配件或損毀原廠外盒)。退回商品無法回復原狀者,恐將影響退貨權益或需負擔部分費用。 

訂購本商品前請務必詳閱商品退換貨原則

  • 中信5折起
  • 曬書節
  • 哲學│歷史│文學 79折起