1
一張圖看懂數據科學
72 核的英特爾 Xeon Phi,數據處理速度趕上 GPU?
Linux 4.10 的三大改進之處
GitHub 邀請更多開發者參與其開源指南
每日推薦文章:如何設置 Linux 虛擬機進行機器學習開發?

這幾天,該圖在國外 LinkedIn 的開發者圈子中頻頻曝光。它標題為“什么是數據科學?”,將數據科學知識體系以盡可能簡單、結構化的方式呈現出來,降低入門者梳理知識點的難度。雷鋒網提醒,這張圖由于力求簡潔而有所疏漏,并沒有覆蓋所有核心知識點。比如美國數據科學家 Vincent Granville 就指出,他認為該圖還可以加入 automated data science 。后者指的是機器到機器、或設備到設備之間的信息傳遞以及自動交易,比如廣告網絡中自動購買關鍵詞的算法。
由于經過多重轉載,最初發布者已不可考。

前天,美國數據服務商 Kx Systems 再次以跑分來秀肌肉——宣傳自家數據處理工具的優越性。由于本次跑分使用了英特爾的旗艦機器學習 CPU,事情變得有些意思。
雷鋒網了解到,此次評測使用了他們開發的 q 語言和 kdb+ 數據庫, 運行于英特爾為并行計算而專門優化的旗艦 72 核 Xeon Phi 處理器平臺,來處理 11 億次紐約出租車運營的數據集(2009-至今)。
Kx 宣布:
"我們的數據處理速度,超出其它 CPU 技術不止四個量級,可與基于 GPU 的代碼‘相提并論’。對于大多數數據科學家來說,他們需要快速載入、分析大型數據集,CPU 仍然是主流的選擇。有的數據科學家為了更快的速度轉到 GPU 平臺。但他們往往發現:編寫基于 GPU 的代碼,為數據分析任務增添了額外的復雜性,并且推高了資源需求。因此無法在基于 CPU 的 kdb+/q 數據處理,與其他基于 GPU 的技術之間做公平對比。"
當然,這只是 Kx 的一家之言,也只是一個獨立的案例,未必能夠客觀反映 Xeon Phi 的運算性能(更關鍵的問題還有性價比)。在 GPGPU (GPU 通用計算)浪潮之下,CPU 在人工智能、機器學習、深度學習和大數據處理中到底會擔任何種角色,尚待我們進一步觀察。
詳情:
Kx Systems:https://kx.com/2017/01/25/kx-1-1-billion-taxi-ride-benchmark-highlights-advantages-kdb-architecture/

虛擬 GPU
針對 GPU 在虛擬機環境運行的低效問題,英特爾此前發布了一系列處理器擴展包:GVT-G。Linux 4.10 版本內核,終于加入了對 GVT-G 的原生支持。
更好的緩存控制技術
加入對英特爾 Cache Allocation Technology(CAT)技術的支持,并加入新系統工具 “perf c2c”。后者將改善在 NUMA 環境下,多個線程同時修改內存中的同一部段帶來的效率問題。這兩者都只支持英特爾 CPU。
Writeback 管理
KernelNewbies.org 評論道:“從誕生之日起,Linux 把內存數據同步到硬盤的方法一直很差勁。”而這將在 4.10 版本得到改善。導致系統延遲的運算,將會遭到節流,以讓位于其它線程。
詳情:http://www.infoworld.com/article/3174088/linux/3-little-things-in-linux-410-that-will-make-a-big-difference.html
更多關于 perf c2c:https://joemario.github.io/blog/2016/09/01/c2c-blog/

雷鋒網此前報道,GitHub 發布開源指南 “Open Source Guides”,指點開發者如何參與新項目。日前在與 InfoQ 的對話中,GitHub 開源部門負責人 Brandon Keepers 表示,這份指南本身就是一個開源項目,希望能反映出社區的呼聲和多年實踐中總結的智慧。GitHub 希望更多開發者參與進來,提出開源指南的改進建議,分享他們的經驗與技巧。
http://m.specdd.com.cn/news/201702/7CV4bGMMWttx1I3U.html
澳大利亞機器學習專家 Jason Brownlee,再次為大家奉上 ML 干貨教程。相比 Windows 和 Mac OS,在 Linux 平臺上進行機器學習開發具有許多天然優勢,尤其在開發工具方面。
本教程基于 Python,分為三部分:
下載安裝 VirtualBox。
下載 Fedora Linux,然后在虛擬機中安裝
安裝 Python 3 機器學習環境。
地址:http://machinelearningmastery.com/linux-virtual-machine-machine-learning-development-python-3/
相關文章:
微軟劍橋聯合推出 DeepCoder 系統;谷歌工程師用“買芒果”理論解釋機器學習 |開發者頭條
百度將 HPC 技術引入深度學習;卡巴斯基操作系統;AMD Ryzen 預售等 | AI 開發者頭條
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。