管理學院巨量資料運算平台
2015.7 李清潭院長表示近年各大國際商管學術會議皆顯示數位時代來臨,巨量資料的處理運算搭配管理學門教學已勢在必行。
2015.10 資訊中心建立初步的巨量資料運算教學及研究環境,可以提供院內教師研究及教學所需使用。
2016.4 因應研究及教學需求,逐步擴增硬體及軟體內容於此運算平台內。目前系統以 R 為主要研究使用的語言來使用此平台。
關於HDFS的檔案效能
單機和Spark的運算時間差異
上面為簡單使用巨量運算和一般運算的評估,當演算邏輯不是需要很久的計算,資料量小於 1GB 時,使用此平台不一定能加速你的運算處理。但如果你的運算需要大量的計算,不做大量資料的處理,可能可以加速你的運算處理。
院內使用者申請使用平台的方式與限制
- 系統平台分成正式機器的帳號及開發機器的帳號,使用者需要先在開發機器上,完成雛型程式的撰寫,再申請到正式機器執行巨量資料的運算。
- 只提供院內老師教學或研究使用,學生則需要指導教授同意後申請帳號。
- 此平台程式開發運算時,使用者需要注意資源使用量,當使用量超過總資源量 10 % ,需事先通知管理者以調配機器使用的時間。
- 此平台只提供巨量運算使用,不負責資料保管。
- 目前只支援上述 Hadoop 生態系軟體的使用,不加裝其他非 Hadoop 生態系的軟體跑其他運算應用。
- 可以利用閒置計算資源於開發機器執行單機非平行運算程式,但該軟體需為為 Linux 版本的程式,且需不影響原有系統架構運作。
院內教師或學生目前如須使用,請先電話聯絡管理學院 資訊中心 校內分機 4510 。