做爰高潮a片〈毛片〉,尤物av天堂一区二区在线观看,一本久久A久久精品VR综合,添女人荫蒂全部过程av

最新文章專題視頻專題問答1問答10問答100問答1000問答2000關鍵字專題1關鍵字專題50關鍵字專題500關鍵字專題1500TAG最新視頻文章推薦1 推薦3 推薦5 推薦7 推薦9 推薦11 推薦13 推薦15 推薦17 推薦19 推薦21 推薦23 推薦25 推薦27 推薦29 推薦31 推薦33 推薦35 推薦37視頻文章20視頻文章30視頻文章40視頻文章50視頻文章60 視頻文章70視頻文章80視頻文章90視頻文章100視頻文章120視頻文章140 視頻2關鍵字專題關鍵字專題tag2tag3文章專題文章專題2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章專題3
問答文章1 問答文章501 問答文章1001 問答文章1501 問答文章2001 問答文章2501 問答文章3001 問答文章3501 問答文章4001 問答文章4501 問答文章5001 問答文章5501 問答文章6001 問答文章6501 問答文章7001 問答文章7501 問答文章8001 問答文章8501 問答文章9001 問答文章9501
當前位置: 首頁 - 科技 - 知識百科 - 正文

編寫簡單的Python程序來判斷文本的語種

來源:懂視網 責編:小采 時間:2020-11-27 14:39:52
文檔

編寫簡單的Python程序來判斷文本的語種

編寫簡單的Python程序來判斷文本的語種:1.問題的描述 用Python進行文本處理時,有時候處理的文本中包含中文、英文、日文等多個語系的文本,有時候不能同時進行處理,這個時候就需要判別當前文本是屬于哪個語系的。Python中有個langid工具包提供了此功能,langid目前支持97種語言的檢測,非常好用
推薦度:
導讀編寫簡單的Python程序來判斷文本的語種:1.問題的描述 用Python進行文本處理時,有時候處理的文本中包含中文、英文、日文等多個語系的文本,有時候不能同時進行處理,這個時候就需要判別當前文本是屬于哪個語系的。Python中有個langid工具包提供了此功能,langid目前支持97種語言的檢測,非常好用

1.問題的描述

用Python進行文本處理時,有時候處理的文本中包含中文、英文、日文等多個語系的文本,有時候不能同時進行處理,這個時候就需要判別當前文本是屬于哪個語系的。Python中有個langid工具包提供了此功能,langid目前支持97種語言的檢測,非常好用。


2.程序的代碼

以下Python是調用langid工具包來對文本進行語言檢測與判別的程序代碼:

import langid #引入langid模塊 
 
def translate(inputFile, outputFile): 
 fin = open(inputFile, 'r') #以讀的方式打開輸入文件 
 fout = open(outputFile, 'w') #以寫的方式打開
輸出文件 for eachLine in fin: #依次讀入每一行 line = eachLine.strip().decode('utf-8', 'ignore') #去除每行的首位空格等,并統一轉化成Unicode lineTuple = langid.classify(line) #調用langid來對該行進行語言檢測 if lineTuple[0] == "zh": #如果該行語言大部分為中文,則不進行任何處理 continue outstr = line #如果該行語言為非中文,則準備輸出 fout.write(outstr.strip().encode('utf-8') + ' ') #輸出非中文的行,從Unicode轉化成utf-8輸出 fin.close() fout.close() if __name__ == '__main__': #相當于main函數 translate("myInputFile.txt", "myOutputFile.txt")

以上代碼是用來處理一個文本,將不屬于中文的行依次輸出到一個新的文件。


3.注意

第9、10行代碼,langid.classify(line)的輸出結果是一個二元組,二元組的第一項表示該文本所屬的語系,如:zh表示中文、en表示英語、等等;二元組的第二項表示該文本中屬于第一項中語系的所占比例。

希望對大家有所幫助。

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

文檔

編寫簡單的Python程序來判斷文本的語種

編寫簡單的Python程序來判斷文本的語種:1.問題的描述 用Python進行文本處理時,有時候處理的文本中包含中文、英文、日文等多個語系的文本,有時候不能同時進行處理,這個時候就需要判別當前文本是屬于哪個語系的。Python中有個langid工具包提供了此功能,langid目前支持97種語言的檢測,非常好用
推薦度:
標簽: 判斷 簡單 代碼
  • 熱門焦點

最新推薦

猜你喜歡

熱門推薦

專題
Top
主站蜘蛛池模板: 南充市| 郑州市| 庆阳市| 民勤县| 鹰潭市| 南安市| 徐闻县| 嵊州市| 潢川县| 湛江市| 咸阳市| 台东县| 林西县| 息烽县| 榆林市| 高台县| 易门县| 台东县| 罗定市| 九龙坡区| 沙雅县| 伊吾县| 鹿泉市| 涿鹿县| 新河县| 拜城县| 灵川县| 和林格尔县| 洛川县| 扎囊县| 岑巩县| 合山市| 惠来县| 大渡口区| 理塘县| 化州市| 孝义市| 宁夏| 内乡县| 寻甸| 札达县|