91精品视频在线看_久久国产精品久久国产片_青春草在线视频精品_伊人天天躁夜夜躁狠狠

歡迎您訪問簡單用法與高級用法:chardet 模塊的詳細(xì)介紹!

簡單用法與高級用法:chardet 模塊的詳細(xì)介紹

更新時(shí)間:2024-10-01 20:09:52作者:佚名

chardet的使用非常簡單。主模塊中只有一個(gè)檢測功能。 detector 有一個(gè)參數(shù),要求其類型為 bytes。 bytes類型可以通過讀取網(wǎng)頁內(nèi)容、open函數(shù)的rb模式、b前綴的字符串、encode函數(shù)等獲取。

示例代碼:

import chardet
some_string = '你好,世界。'.encode('utf-8') # encode方法返回一個(gè)bytes
# b'\xe4\xbd\xa0\xe5\xa5\xbd\xef\xbc\x8c\xe4\xb8\x96\xe7\x95\x8c\xe3\x80\x82'
result = chardet.detect(some_string) # 調(diào)用檢測接口
print(result)
# {'encoding': 'utf-8', 'confidence': 0.99}

如上所示,檢測函數(shù)返回一個(gè)包含兩個(gè)鍵值對的字典。其中之一的鍵值是encoding,表示chardet推斷的編碼格式。另一個(gè)關(guān)鍵價(jià)值是信心,它代表可信度。可信度是 0 到 1 之間的浮點(diǎn)值,0 表示不可信,1 表示 100% 可信。

高級用法

當(dāng)用于檢測的文檔特別大時(shí)使用方法的英文,可以使用chardet的子模塊chardet.universal detector。該模塊允許我們多次檢測文本的編碼格式(逐行讀取或逐行讀取),并在達(dá)到一定閾值時(shí)提前退出檢測。這樣可以有效節(jié)省資源,提高程序效率,保證測試結(jié)果的準(zhǔn)確性。

示例代碼:

from chardet.universaldetector import UniversalDetector
detector = UniversalDetector() # 初始化一個(gè)UniversalDetector對象
f = open('test.txt', 'rb') # test.txt是一個(gè)utf-8編碼的文本文檔
for line in f:
    detector.feed(line) # 逐行載入U(xiǎn)niversalDetector對象中進(jìn)行識別
    if detector.done: # done為一個(gè)布爾值,默認(rèn)為False,達(dá)到閾值時(shí)變?yōu)門rue
        break
detector.close() # 調(diào)用該函數(shù)做最后的數(shù)據(jù)整合
f.close()
print(detector.result)
# {'confidence': 1.0, 'encoding': 'UTF-8-SIG'}

需要注意的是使用方法的英文,如果檢測到來自多個(gè)不同來源的文本,則每次檢測完成后都必須調(diào)用一次UniversalDetector對象的reset函數(shù),以清除之前的檢測數(shù)據(jù)。否則,后續(xù)的測試結(jié)果將會(huì)混亂。

目前支持的編碼格式

通用編碼檢測器目前支持以下編碼格式:

注:由于內(nèi)部相似性,在某些情況下可能會(huì)出現(xiàn)檢測錯(cuò)誤。最常見的問題是匈牙利語,報(bào)告的編碼是兩者中的另一個(gè)。希臘語檢測也經(jīng)常將 ISO-8859-7 錯(cuò)誤地識別為匈牙利語 ISO-8859-2。

關(guān)于檢測過程中出現(xiàn)的奇怪錯(cuò)誤

該模塊在檢測ANSI編碼(中文版Windows系統(tǒng)上為gbk)時(shí)會(huì)出現(xiàn)一些奇怪的錯(cuò)誤。博主正在研究英文文檔,希望能在那里找到答案。如有后續(xù),本文將同步更新。

從上面繼續(xù):

問題根源:某些情況下,檢測ANSI編碼的文本文檔和gb2312編碼的字節(jié)包時(shí)可能會(huì)出現(xiàn)錯(cuò)誤。

過程:博主測試了不同情況下輸入的字節(jié)包網(wǎng)校頭條,不同長度,不同編碼。并仔細(xì)閱讀官方文檔。我大概想出了一個(gè)主意。

分析:官方文檔中有一段話,我先從原文中摘錄一下。

如果 UniversalDetector 檢測到文本中的高位字符,但其他多字節(jié)或單字節(jié)編碼探測器都沒有返回可信結(jié)果,它會(huì)創(chuàng)建一個(gè) Latin1Prober(在 latin1prober.py 中定義)來嘗試檢測windows-1252 編碼。這種檢測本質(zhì)上是不可靠的,因?yàn)橛⑽淖帜冈谠S多不同的編碼中都以相同的方式進(jìn)行編碼。區(qū)分 windows-1252 的唯一方法是通過常用的符號,例如智能引號、彎撇號、版權(quán)符號等。 Latin1Prober 會(huì)自動(dòng)降低其置信度,以便盡可能讓更準(zhǔn)確的探測器獲勝。

大致意思是,當(dāng)UniversalDetector解析某些字節(jié)時(shí),如果沒有相應(yīng)的檢測器給出報(bào)告,它會(huì)調(diào)用一個(gè)名為Latin1Prober的檢測器來嘗試使用英文編碼windows-1252來解析該字節(jié)包。這個(gè)檢測設(shè)備非常不可信(官方投訴……)。通常英文字母和一些特殊符號在不同的編碼中是相同的,因此該檢測器會(huì)給出很高的置信度。該檢測器將自動(dòng)降低其置信度,以允許其他檢測器先通過。

根據(jù)以下原文:

檢測算法的主要入口點(diǎn)是universalDetector.py,它有一個(gè)類,UniversalDetector。 (您可能認(rèn)為主要入口點(diǎn)是 chardet/init.py 中的檢測函數(shù),但這實(shí)際上只是一個(gè)創(chuàng)建 UniversalDetector 對象、調(diào)用它并返回其結(jié)果的便利函數(shù)。)

大致意思是:檢測算法的入口是UniversalDetector,chardet.detect函數(shù)只是方便用戶使用的語法糖。

可以推斷,類似的機(jī)制也會(huì)出現(xiàn)在 detector 函數(shù)中。盡管 Latin1Prober 已經(jīng)過優(yōu)化,但在某些情況下,它給出的置信度仍然比實(shí)際情況高得多。例如這個(gè)實(shí)驗(yàn):

博主還做了其他幾個(gè)實(shí)驗(yàn),得出了一個(gè)結(jié)論:當(dāng)字節(jié)包的長度不夠長時(shí),chardet給出的結(jié)論非常不可靠,因?yàn)樗赡軙?huì)調(diào)用一個(gè)不相關(guān)的檢測器。 ,檢測器給出的置信度超過閾值,或者兩種編碼格式恰好有共同的字符,則不再進(jìn)行進(jìn)一步的檢測。這樣做很容易導(dǎo)致測試結(jié)果不可靠。因此最好不要檢測非常少量的字節(jié)。同時(shí),當(dāng)檢測到開頭有大段其他字符的文檔時(shí),最好先手動(dòng)處理不相關(guān)的符號(可能不會(huì)出現(xiàn)錯(cuò)誤,因?yàn)槌绦驎?huì)根據(jù)檢測器的順序來優(yōu)先排序)初始遍歷的結(jié)果,但不能保證可能會(huì)出現(xiàn)錯(cuò)誤)以獲得最準(zhǔn)確的結(jié)果。

通用編碼檢測器的工作原理詳細(xì)解釋了該模塊的工作原理。建議懂英文并有耐心的讀者讀完。博主只是選擇性地、快速地閱讀了它。我不能保證將原作者的意思傳達(dá)給你,但我也可以保證偏差不會(huì)太大。

支持原創(chuàng)-->原文鏈接

為您推薦

2023年北華大學(xué)招生網(wǎng)錄取分?jǐn)?shù)線

本期將為大家整理2023年北華大學(xué)各省專科分?jǐn)?shù)線,以及2024年在各省的招生計(jì)劃人數(shù)。一、北華大學(xué)專科錄取線2023年北華大學(xué)專科招生在吉林省最低需要269分以上,最低分位次67500名,共招生154人。2024年北華大學(xué)只在吉林省招收專科批次考生。2024年北華大學(xué)專科招生專業(yè)及學(xué)費(fèi)為:

2024-10-01 20:09

14 所本科院校學(xué)院變大學(xué),專家支招報(bào)考秘訣

考生填報(bào)志愿往往看重“大學(xué)”輕視“學(xué)院”,以為“大學(xué)”比“學(xué)院”大、“大學(xué)”比“學(xué)院”好。如果是國家重點(diǎn)學(xué)科專業(yè)、特色專業(yè),即使不更名還叫學(xué)院,報(bào)考這些專業(yè)也是正確的選擇;如果是弱勢專業(yè)、垃圾專業(yè)、“砸牌子”的專業(yè),即使叫大學(xué),又有何意義呢!

2024-10-01 20:09

2023年北華大學(xué)招生網(wǎng)錄取分?jǐn)?shù)線

本期將為大家整理2023年北華大學(xué)各省專科分?jǐn)?shù)線,以及2024年在各省的招生計(jì)劃人數(shù)。一、北華大學(xué)專科錄取線2023年北華大學(xué)專科招生在吉林省最低需要269分以上,最低分位次67500名,共招生154人。2024年北華大學(xué)只在吉林省招收專科批次考生。2024年北華大學(xué)專科招生專業(yè)及學(xué)費(fèi)為:

2024-10-01 20:07

2017 廣東第二次學(xué)考 6 月 9 日進(jìn)行,高考后仍可參加加分

廣東省高考志愿填報(bào)廣東省高考志愿填報(bào)流程2017年廣東高考志愿填報(bào)指南廣東省高考志愿填報(bào)要注意的事項(xiàng)【廣東省高考志愿填報(bào)】相關(guān)文章:廣東省高考填報(bào)志愿時(shí)間04-03高考如何填報(bào)志愿04-04安徽高考志愿填報(bào)04-03

2024-10-01 17:48

2017 廣東第二次學(xué)考 6 月 9 日進(jìn)行,高考后仍可參加加分

廣東省高考志愿填報(bào)廣東省高考志愿填報(bào)流程2017年廣東高考志愿填報(bào)指南廣東省高考志愿填報(bào)要注意的事項(xiàng)【廣東省高考志愿填報(bào)】相關(guān)文章:廣東省高考填報(bào)志愿時(shí)間04-03高考如何填報(bào)志愿04-04安徽高考志愿填報(bào)04-03

2024-10-01 17:46

2017 廣東第二次學(xué)考 6 月 9 日進(jìn)行,高考后仍可參加加分

廣東省高考志愿填報(bào)廣東省高考志愿填報(bào)流程2017年廣東高考志愿填報(bào)指南廣東省高考志愿填報(bào)要注意的事項(xiàng)【廣東省高考志愿填報(bào)】相關(guān)文章:廣東省高考填報(bào)志愿時(shí)間04-03高考如何填報(bào)志愿04-04安徽高考志愿填報(bào)04-03

2024-10-01 17:44

加載中...
91精品视频在线看_久久国产精品久久国产片_青春草在线视频精品_伊人天天躁夜夜躁狠狠

            久久精品国产久精国产| 最新国产精品久久精品| 国产丝袜美腿一区二区三区| 五月天视频一区| 99久久精品免费看国产| 精品捆绑美女sm三区| 夜夜操天天操亚洲| 美女在线一区二区| www激情久久| 亚洲精品国产第一综合99久久| 国产露脸91国语对白| 日韩欧美一级二级| 亚洲色图视频网| 成人小视频免费观看| 欧美精品一区二区三区四区| 亚洲男人天堂av网| 国产高清在线精品| 欧美一级免费大片| 五月婷婷激情综合网| 欧美精品久久99| 日韩av午夜在线观看| 欧美精品一二三| 婷婷一区二区三区| 在线观看一区日韩| 国产精品久久夜| 国产91在线看| 日韩毛片在线免费观看| 国产1区2区3区精品美女| 国产精品嫩草影院com| 蜜臀a∨国产成人精品| 国产情人综合久久777777| 国产精品一区二区三区网站| 久久久91精品国产一区二区精品 | 欧美性欧美巨大黑白大战| 国产精品日产欧美久久久久| 国产伦理精品不卡| 国产精品久久久久久久久免费相片| 高清成人免费视频| 成人免费小视频| 日韩午夜中文字幕| 成人午夜免费电影| 亚洲福利视频一区二区| 日韩免费性生活视频播放| 成人黄色软件下载| 久久精品免费看| 国产亚洲成年网址在线观看| 色综合久久88色综合天天| 久久国产生活片100| 亚洲aaa精品| 久久精品久久精品| 亚洲超丰满肉感bbw| 亚洲五码中文字幕| 亚洲综合一二区| 51精品久久久久久久蜜臀| 国产在线观看免费一区| 日本中文字幕一区| 国产精品美日韩| 欧美视频精品在线| 日韩精品一区二区在线| 久久日韩粉嫩一区二区三区| 色悠悠久久综合| 欧美视频一二三区| 色哟哟精品一区| 99这里都是精品| 成人午夜看片网址| 风间由美一区二区av101| 成人激情文学综合网| 不卡视频一二三四| 欧美丝袜自拍制服另类| 91日韩精品一区| 91老师国产黑色丝袜在线| 91啪在线观看| 欧美精品九九99久久| 日韩欧美高清dvd碟片| 精品久久久网站| 久久嫩草精品久久久久| 国产日韩精品一区二区三区在线| 日韩精品中文字幕在线不卡尤物 | 日韩欧美国产一区二区在线播放| 欧美日韩在线播放一区| 日韩亚洲欧美在线观看| 国产精品麻豆网站| 黑人巨大精品欧美一区| 欧美色涩在线第一页| 日韩免费福利电影在线观看| 亚洲男人的天堂av| 亚洲伦理在线免费看| 日本少妇一区二区| 本田岬高潮一区二区三区| 91精品国产欧美一区二区成人| 337p粉嫩大胆色噜噜噜噜亚洲| 日韩电影免费在线| 国产剧情一区二区三区| 欧美主播一区二区三区| 欧美成人福利视频| 亚洲一区二区三区四区的| 美女性感视频久久| 欧美日韩精品专区| 国产精品青草综合久久久久99| 日韩激情一二三区| 国产亚洲一二三区| 美女一区二区久久| 欧美日韩视频不卡| 一区二区三区在线影院| 欧美亚洲自拍偷拍| 亚洲综合激情小说| 91在线视频播放地址| 欧美国产一区在线| 国产精品一区在线观看乱码| 欧美精品一区二区三区在线播放| 亚洲国产视频在线| 欧美三日本三级三级在线播放| 亚洲自拍另类综合| 在线成人免费观看| 麻豆精品在线播放| www日韩大片| 欧美网站一区二区| 天天综合色天天综合色h| 欧美精品久久久久久久多人混战| 亚洲国产综合人成综合网站| 欧美日本国产视频| 国内不卡的二区三区中文字幕| 精品欧美久久久| 成人免费看的视频| 国产剧情一区二区| 亚洲国产岛国毛片在线| 91片黄在线观看| 日韩av中文字幕一区二区| 日韩美女视频在线| 91香蕉视频污| 精品一区二区三区在线播放视频 | 日韩av中文在线观看| 久久久久国产精品麻豆| 99国产精品国产精品毛片| 日韩av电影免费观看高清完整版| 久久久久久久久岛国免费| 日本韩国一区二区三区视频| 日本伊人精品一区二区三区观看方式| 精品少妇一区二区三区视频免付费| 国产福利视频一区二区三区| 夜夜亚洲天天久久| 国产亚洲制服色| 欧美一卡在线观看| 欧美三区在线观看| 99久久免费国产| 国产成人综合在线| 性做久久久久久免费观看| 中文在线一区二区| 精品日产卡一卡二卡麻豆| 色综合久久中文综合久久97| 狠狠久久亚洲欧美| 日本美女一区二区三区| 午夜精品在线视频一区| 亚洲永久精品大片| 亚洲资源中文字幕| 一个色妞综合视频在线观看| ...xxx性欧美| 亚洲最大的成人av| 亚洲午夜影视影院在线观看| 玉足女爽爽91| 伊人色综合久久天天人手人婷| 最新高清无码专区| 亚洲六月丁香色婷婷综合久久| 亚洲丝袜自拍清纯另类| 国产精品午夜春色av| ●精品国产综合乱码久久久久| 亚洲视频 欧洲视频| 亚洲成年人影院| 琪琪一区二区三区| 国产乱子伦一区二区三区国色天香| 国产精品正在播放| 99久久精品情趣| 欧美片在线播放| 欧美高清一级片在线观看| 亚洲精品水蜜桃| 精品一区二区三区av| 成人aaaa免费全部观看| 欧美一区二区三区啪啪| 中文文精品字幕一区二区| 亚洲欧洲综合另类| 美女高潮久久久| 色婷婷精品大在线视频| 亚洲精品一区二区精华| 亚洲免费观看高清完整| 久久99国产精品久久99| 91色porny在线视频| 精品国产精品一区二区夜夜嗨| 国产精品久久久爽爽爽麻豆色哟哟| 人人爽香蕉精品| 欧美无砖专区一中文字| 欧美国产一区视频在线观看| 日韩av不卡一区二区| 色婷婷国产精品综合在线观看| 日韩一区二区三区视频在线观看| 成人欧美一区二区三区黑人麻豆| 久久99最新地址| 欧美一区二区免费| 亚洲成精国产精品女| 91亚洲国产成人精品一区二区三| 国产午夜精品在线观看|