從 Python 遷移到 Go 的提示與技巧
背景
我們?cè)?Repustate 技術(shù)上最大的成果就是實(shí)現(xiàn)了阿拉伯語(yǔ)情感分析。阿拉伯語(yǔ)真是一個(gè)難啃的骨頭,它的單詞語(yǔ)法形態(tài)太復(fù)雜了。阿拉伯語(yǔ)的分詞(tokenization,把一個(gè)句子分成獨(dú)立的詞語(yǔ))相比諸如英語(yǔ)更難,因?yàn)榘⒗Z(yǔ)單詞內(nèi)部可能包含空格(例如,aleph內(nèi)的位置)。這個(gè)不需要保密,那就是 Repustate 使用了支持向量機(jī)(SVM)來(lái)得到句子最可能的意思,然后在此基礎(chǔ)上分析情感。我們總共用了 22 個(gè)模型(22 個(gè)支持向量機(jī)),文檔中的每個(gè)單詞都會(huì)被分析。也就是說(shuō),如果一篇文檔包含 500 詞的話(huà),將會(huì)有一萬(wàn)次以上的支持向量機(jī)的比較操作。
Python
Repustate幾乎是徹底用 Python 實(shí)現(xiàn)的,因?yàn)槲覀兪褂昧?Django 作為應(yīng)用程序接口和網(wǎng)站架構(gòu)。所以只能保持代碼的統(tǒng)一,同時(shí)用 Python 實(shí)現(xiàn)整個(gè)阿拉伯語(yǔ)情感引擎。原型與實(shí)現(xiàn)的過(guò)程中,Python 還是很不錯(cuò)的。非常強(qiáng)的表達(dá)能力,強(qiáng)大的第三方庫(kù)資源。如果你只是服務(wù)于網(wǎng)頁(yè)的話(huà),還是很完美的。但是,當(dāng)你需要進(jìn)行底層計(jì)算,需要在散列表(Python 中的字典)上進(jìn)行大量的比較運(yùn)算的時(shí)候,速度就慢下來(lái)了。我們每秒鐘只能處理2到3篇阿拉伯語(yǔ)文檔,這太慢了。對(duì)比我們的英語(yǔ)情感引擎,每秒鐘能處理 500 篇文檔。
瓶頸
于是,我們啟動(dòng)了 Python 分析器,研究哪部分執(zhí)行得慢。還記得我說(shuō)過(guò)我們會(huì)用 22 個(gè)支持向量機(jī)處理每一個(gè)單詞嗎?這些處理都是串行的,沒(méi)有并行操作。好,我們第一個(gè)想法是把這個(gè)改成類(lèi)似 map/reduce 的操作。長(zhǎng)話(huà)短說(shuō):Python 中不適合使用 map/reduce。當(dāng)你需要并發(fā)性的時(shí)候,Python 一點(diǎn)都不好用。2013 年的 PyCon 大會(huì)上,Guido 提到了 Tulip,他試圖解決這個(gè)問(wèn)題的新項(xiàng)目,但是還需要一段時(shí)間才能推出。如果已經(jīng)有更好的選擇,我們?yōu)槭裁催€要等它呢。
換 Go 語(yǔ)言還是回家種田
我在 Mozilla 的朋友告訴我,Mazilla 服務(wù)中日志架構(gòu)的大部分代碼已經(jīng)切換成 Go 了,部分原因是 goroutine(Go 線程)的強(qiáng)大。Go 是 Google 的一群人設(shè)計(jì)的,它把并行性作為一級(jí)概念,而不像 Python 的不同解決方案做的事后補(bǔ)充。于是,我們開(kāi)始著手把 Python 換成 Go。
盡管 Go 代碼還沒(méi)達(dá)到產(chǎn)品級(jí)別,其結(jié)果已經(jīng)非常令人鼓舞了。我們達(dá)到了每秒 1000 文檔的速度,使用了更少的內(nèi)存,還不用去處理用 Python 時(shí)碰到的多進(jìn)程/gevent/“為什么 Ctrl+C 殺掉了我的進(jìn)程”代碼等討厭的問(wèn)題。
我們?yōu)槭裁磹?ài)上了Go
只要知道一點(diǎn)兒編程語(yǔ)言工作原理的人,(明白解釋和編譯以及動(dòng)態(tài)與靜態(tài)的區(qū)別),就會(huì)說(shuō):“老兄,Go 顯然會(huì)更快”。沒(méi)錯(cuò),我們也可以把整個(gè)東西用 Java 來(lái)重寫(xiě),并且得到類(lèi)似的性能,但這不是 Go 勝出的原因。你用 Go 寫(xiě)出代碼來(lái)就很容易是正確的。我也說(shuō)不清楚怎么回事,但是一旦代碼編譯通過(guò)(編譯速度還很快),你就感覺(jué)到它可以工作了(不只是運(yùn)行不提示錯(cuò)誤,而是邏輯上就是對(duì)的)。我知道這聽(tīng)起來(lái)很玄乎,但確實(shí)是事實(shí)。這就像 Python 解決冗余問(wèn)題(或者說(shuō)無(wú)冗余),它把函數(shù)作為一級(jí)對(duì)象,從而函數(shù)編程可以輕松的進(jìn)行。go線程和通道(channel)讓你的生活如此輕松。你還可以得到靜態(tài)類(lèi)型帶來(lái)的性能提升,更精確的控制內(nèi)存分配,卻不會(huì)因此損失表達(dá)性。
我們?cè)缭撝赖氖虑?/p>
除去那些贊美之詞,用 Go 的時(shí)候需要一種不同于用 Python 時(shí)的心態(tài)。下面是一些遷移時(shí)候的筆記,把 Python 轉(zhuǎn)成 Go 時(shí)隨機(jī)躍入我腦子的東西:
沒(méi)有內(nèi)建的集合類(lèi)型(需要使用 map 然后檢查存在性)
由于沒(méi)有集合類(lèi)型,需要自己實(shí)現(xiàn)交集、并集等方法
沒(méi)有元組(tuple),需要設(shè)計(jì)自己的結(jié)構(gòu)(struct)或者使用slice(類(lèi)似數(shù)組)
沒(méi)有類(lèi)似 __getattr_() 的方法,需要你檢查存在性而不能設(shè)置缺省值,例如 Python 中,你可以這么寫(xiě):value = dict.get("a_key", "default_value")
需要檢查錯(cuò)誤(或者至少顯式的忽略它們)
不能夠有未使用的變量和包,需要時(shí)不時(shí)的注釋掉一些代碼
在 []byte 和 string 之間切換,正則處理(regexp)使用 []byte(可改寫(xiě)的)。這是對(duì)的,但轉(zhuǎn)換來(lái)轉(zhuǎn)換去還是很麻煩
Python 語(yǔ)法更寬松。你可以用超出范圍的索引取字符串的片段而不出錯(cuò),也可以使用負(fù)數(shù)取片段。Go 就不行。
無(wú)法使用混合類(lèi)型的數(shù)據(jù)結(jié)構(gòu)。這可能不一定合適,但是 Python 中有時(shí)候我會(huì)有一個(gè)取值可以是字符串和列表混合的字典。Go 里不行,你必須清理里的數(shù)據(jù)結(jié)構(gòu)或者自定義結(jié)構(gòu)*
沒(méi)法把元組或者列表分配成分開(kāi)的變量(例如,x, y, x = [1, 2, 3])
駝峰式大小寫(xiě)習(xí)慣(首字母不大寫(xiě)的函數(shù)/結(jié)構(gòu)不會(huì)暴露給其他包)。我更喜歡 Python 的小寫(xiě)加下劃線的習(xí)慣。
必須顯式的檢查錯(cuò)誤是否為空,不像 Python 中很多類(lèi)型都可以像布爾類(lèi)型一樣的用(0,空串,None都可以作為布爾“假”)
一些模塊(如 crypo/md5)的文檔不足,但是 IRC 上的 go-nutes 很厲害,有強(qiáng)大的支持
數(shù)字轉(zhuǎn)字符串(int64->string)與 []byte 轉(zhuǎn)字符串(只要 string([]byte))不同,需要調(diào)用 strconv
讀 Go 的代碼絕對(duì)像是編程語(yǔ)言,而 Python 可以寫(xiě)成像是偽代碼一樣。Go 使用更多的非英文數(shù)字字符,使用 || 和 && 而不是 or 和 and。
寫(xiě)文件會(huì)有 File.Write([]byte) 和 File.WriteString(string),與 Python 開(kāi)發(fā)者的一種辦法解決問(wèn)題的信條不一致。
字符串插入不好用,必須經(jīng)常使用 fmt.Sprintf
沒(méi)有構(gòu)造函數(shù),通常的習(xí)慣是寫(xiě)一個(gè) NewType() 函數(shù)返回你要的結(jié)構(gòu)
Else(或者 else if)得正確的格式化,else 得和與 if 配對(duì)的大括號(hào)在一行。奇怪。
函數(shù)內(nèi)外使用不同的賦值操作符,= 和 := (譯者注:此為作者的誤解,= 和 := 的區(qū)別是顯式定義類(lèi)型還是自動(dòng)類(lèi)型推導(dǎo),而函數(shù)外的變量只能用 =)
如果我只想要鍵值(dict.keys())或取值(dict.values())的列表,或者元組的列表(dict.items()),Go 中沒(méi)有對(duì)應(yīng)的函數(shù),只能自己迭代
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com