MLDA: Machine Learning & Data Analytics
MLDA是一個中文的機器學習/資料分析的文章集合。使用Gitbook來發布文章。
網址:MLDA@Gitbook
緣起
tl;dr 小時候看演算法筆記(現在其實也在看),覺得有個中文化的、視覺化的知識集合真的對學習很重要。再來是想,這也是個可以練習做視覺化的機會,放在履歷上好像也不錯(真的有用嗎...)。最後,當你看完一篇篇論文,沒有拿個紙筆或是把他打下來,你怎麼知道你學到了呢?
有個故事是這樣的
This is a story about four people named Everybody, Somebody, Anybody and Nobody. There was an important job to be done and Everybody was sure that Somebody would do it. Anybody could have done it, but Nobody did it. Somebody got angry about that, because it was Everybody’s job. Everybody thought Anybody could do it, but Nobody realized that Everybody wouldn’t do it. It ended up that Everybody blamed Somebody when Nobody did what Anybody could have.
這個地方其實完全是我從零開始學習Machine Learning/Data Science的地方(好吧,我承認不是真的零。對Deep learning和CNN還是有一定程度的了解)。不過在看過幾篇數學充斥的paper後,我開始有一些想法:
- 這真的是我要的?很多時候,工程師總是那個實作的人。我們不一定要完全了解數學推導裡的每個細節和意含,但卻要了解整個工具的前因、後果。至少,要知道為何要用這個工具:為何是PCA、NMF,而他們各自又有怎樣的限制。腦call套件是大部分人都會的,而了解細節越多,越接近一個資深工程師(這是一個廣度與深度的trade-off)。
- 網路上有許多英文的文章來重新闡釋這些主題,那中文呢?身為工程師一定離不開StackOverflow、Google這些幫你快速學習一件事情的資源。中文的資源卻總是零散在各處(而且以現況來說,簡體資源比繁體資源多太多了)。如果有個中文的起頭,我想能夠繼續研究相關的題目應該是很有幫助的。
- 我真的看懂這些paper?透過寫作是最有效認知自己有沒有了解事情的方法。為了對得起自己寫出來的內容,沒有再去多搜尋其他資源來了解主題是幾乎不可能的(如果是這樣的話,那研究這個主題根本trivial),而在學習過程中找到的資源最後也能被記錄下來。
就像g0v的名言:
「不要問為何沒有人做這個,先承認你就是『沒有人』」。 因為,「沒有人」是萬能的。
我相信,分享、開源,能讓世界更美好。因為你總是能找到比你晚起步的人,而你也總會犯錯,透過分享,才能了解自己的盲點在什麼地方。套用在程式碼上也是,套用在知識上也是,套用在生活上也是。
不管別人是不是巨人,你永遠都是站在別人的肩膀上;總有一天,別人會站在你的肩膀上成為巨人。希望MLDA有幫到我、幫到你。
文章的寫作標準
- 簡化背後的數學原理,介紹但省略繁雜的數學推導而只解釋開頭與結果。
- 如果有實作經歷,描述這些經驗,以記錄應用上會出現的問題和解決方法。
- 如果可以,提供視覺化的方法加速理解。
引用
以下只針對我撰寫的文字及繪製的圖片。對於我引用的圖片與文字,請參考原出處的說明。
- 學術用途:不需要標明來源。
- 非學術用途:需要標明來源(出處文章網址)。
更正、請求
如果發現任何文章內容的錯誤,你可以(有按希望的方式排列~)
- 發Github PR給我
- 開Github issue給我
- Email給我r05921035@ntu。edu。tw
如果想要有什麼新的主題,你可以用2或3的方式告訴我。不過我才學疏淺,也不一定有時間看...QQ。