亚洲国产区中文,国产精品91高清,亚洲精品中文字幕久久久久,亚洲欧美另类久久久精品能播放

                  族譜網(wǎng) 頭條 人物百科

                  熵編碼法

                  2020-10-16
                  出處:族譜網(wǎng)
                  作者:阿族小譜
                  瀏覽:662
                  轉(zhuǎn)發(fā):0
                  評(píng)論:0
                  編碼使用長(zhǎng)度不同的比特串對(duì)字母進(jìn)行編碼有一定的困難。尤其是,幾乎所有幾率的熵都是一個(gè)有理數(shù)。使用整數(shù)比特(bit)霍夫曼編碼建議了一種將比特進(jìn)位成整數(shù)的算法,但這個(gè)算法在特定情況下無(wú)法達(dá)到最佳結(jié)果。為此有人加以改進(jìn),提供最佳整數(shù)比特?cái)?shù)。這個(gè)算法使用二叉樹來(lái)設(shè)立一個(gè)編碼。這個(gè)二叉樹的終端節(jié)點(diǎn)代表被編碼的字母,根節(jié)點(diǎn)代表使用的比特。除這個(gè)對(duì)每個(gè)要編碼的數(shù)據(jù)產(chǎn)生一個(gè)特別的表格的方法外還有使用固定的編碼表的方法。比如加入要編碼的數(shù)據(jù)中符號(hào)出現(xiàn)的概率匹配一定的規(guī)則的話就可以使用特別的變長(zhǎng)編碼表。這樣的編碼表具有一定的系數(shù)來(lái)使得它適應(yīng)實(shí)際的字母出現(xiàn)概率。改進(jìn)使用整數(shù)比特的方法往往無(wú)法獲得使用熵計(jì)算的比特?cái)?shù),因此其壓縮并非一定最佳。比如字母列由兩個(gè)不同的字母組成,其中一個(gè)字母的可能性是p(A)=0.75{\displaystyle\mathrm{p}(A)=0{.}75},另一個(gè)字母的可能性是p(B)=...

                  編碼

                  使用長(zhǎng)度不同的比特串對(duì)字母進(jìn)行編碼有一定的困難。尤其是,幾乎所有幾率的熵都是一個(gè)有理數(shù)。

                  使用整數(shù)比特(bit)

                  霍夫曼編碼建議了一種將比特進(jìn)位成整數(shù)的算法,但這個(gè)算法在特定情況下無(wú)法達(dá)到最佳結(jié)果。為此有人加以改進(jìn),提供最佳整數(shù)比特?cái)?shù)。這個(gè)算法使用二叉樹來(lái)設(shè)立一個(gè)編碼。這個(gè)二叉樹的終端節(jié)點(diǎn)代表被編碼的字母,根節(jié)點(diǎn)代表使用的比特。

                  除這個(gè)對(duì)每個(gè)要編碼的數(shù)據(jù)產(chǎn)生一個(gè)特別的表格的方法外還有使用固定的編碼表的方法。比如加入要編碼的數(shù)據(jù)中符號(hào)出現(xiàn)的概率匹配一定的規(guī)則的話就可以使用特別的變長(zhǎng)編碼表。這樣的編碼表具有一定的系數(shù)來(lái)使得它適應(yīng)實(shí)際的字母出現(xiàn)概率。

                  改進(jìn)

                  使用整數(shù)比特的方法往往無(wú)法獲得使用熵計(jì)算的比特?cái)?shù),因此其壓縮并非一定最佳。

                  比如字母列由兩個(gè)不同的字母組成,其中一個(gè)字母的可能性是 p ( A ) = 0 . 75 {\displaystyle \mathrm {p} (A)=0{.}75} ,另一個(gè)字母的可能性是 p ( B ) = 0 . 25 {\displaystyle \mathrm {p} (B)=0{.}25} 。以上算法的結(jié)果是每個(gè)字母應(yīng)該用一個(gè)比特來(lái)代表,因此其結(jié)果的比特?cái)?shù)與字母數(shù)相同。

                  但擴(kuò)展取樣位數(shù)可以稍微彌補(bǔ)該破綻:上例的 p ( A A ) = 0 . 5625 {\displaystyle \mathrm {p} (AA)=0{.}5625} 、 p ( A B ) = 0 . 1875 {\displaystyle \mathrm {p} (AB)=0{.}1875} 、 p ( B A ) = 0 . 1875 {\displaystyle \mathrm {p} (BA)=0{.}1875} 、 p ( B B ) = 0 . 0625 {\displaystyle \mathrm {p} (BB)=0{.}0625} ,以霍夫曼編碼算法得結(jié)果為:每?jī)蓚€(gè)字母平均用 ( 0.5625 ? ? --> 1 + 0.1875 ? ? --> 2 + 0.1875 ? ? --> 3 + 0.0625 ? ? --> 3 ) = 1.6875 {\displaystyle (0.5625*1+0.1875*2+0.1875*3+0.0625*3)=1.6875} 個(gè)比特,即平均每個(gè)字母用0.84375個(gè)比特來(lái)代表,向最佳熵值踏近了一步。

                  最佳熵編碼器應(yīng)該為第一個(gè)字母使用 ? ? --> log 2 ? ? --> ( 0 . 75 ) ≈ ≈ --> 0 . 41 {\displaystyle -\log _{2}(0{.}75)\approx 0{.}41} 個(gè)比特,為第二個(gè)字母使用 ? ? --> log 2 ? ? --> ( 0 . 25 ) = 2 {\displaystyle -\log _{2}(0{.}25)=2} 個(gè)比特,因此整個(gè)結(jié)果是每個(gè)字母平均使用 ? ? --> 0 . 75 ? ? --> log 2 ? ? --> ( 0 . 75 ) ? ? --> 0 . 25 ? ? --> log 2 ? ? --> ( 0 . 25 ) ≈ ≈ --> 0.81 {\displaystyle -0{.}75*\log _{2}(0{.}75)-0{.}25*\log _{2}(0{.}25)\approx 0.81} 個(gè)比特。

                  使用算術(shù)編碼可以改善這個(gè)結(jié)果,使得原信息按照熵最佳來(lái)編碼。

                  模型

                  要確定每個(gè)字母的比特?cái)?shù)算法需要盡可能精確地知道每個(gè)字母的出現(xiàn)概率。模型的任務(wù)是提供這個(gè)數(shù)據(jù)。模型的預(yù)言越好壓縮的結(jié)果就越好。此外模型必須在壓縮和恢復(fù)時(shí)提出同樣的數(shù)據(jù)。在歷史上有許多不同的模型。

                  靜態(tài)模型

                  靜態(tài)模型在壓縮前對(duì)整個(gè)文字進(jìn)行分析計(jì)算每個(gè)字母的概率。這個(gè)計(jì)算結(jié)果用于整個(gè)文字上。

                  優(yōu)點(diǎn)

                  缺點(diǎn)

                  動(dòng)態(tài)模型

                  在這個(gè)模型里概率隨編碼過(guò)程而不斷變化。多種算法可以達(dá)到這個(gè)目的:

                  前向動(dòng)態(tài):概率按照已經(jīng)被編碼的字母來(lái)計(jì)算,每次一個(gè)字母被編碼后它的概率就增高

                  反向動(dòng)態(tài):在編碼前計(jì)算每個(gè)字母在剩下的還未編碼的部分的概率。隨著編碼的進(jìn)行最后越來(lái)越多的字母不再出現(xiàn),它們的概率成為0,而剩下的字母的概率升高,為它們編碼的比特?cái)?shù)降低。壓縮率不斷增高,以至于最后一個(gè)字母只需要0比特來(lái)編碼

                  優(yōu)點(diǎn)

                  缺點(diǎn)

                  一般在動(dòng)態(tài)模型中不使用概率,而使用每個(gè)字母出現(xiàn)的次數(shù)。

                  除上述的前向和反向模型外還有其它的動(dòng)態(tài)模型計(jì)算方法。

                  比如在前向模型中可以不時(shí)減半出現(xiàn)過(guò)的字母的次數(shù)來(lái)降低一開始的字母的影響力。

                  對(duì)于尚未出現(xiàn)過(guò)的字母的處理方法也有許多不同的手段:比如假設(shè)每個(gè)字母正好出現(xiàn)一次,這樣所有的字母均可被編碼。

                  模型度

                  模型度說(shuō)明模型顧及歷史上多少個(gè)字母。比如模型度0說(shuō)明模型顧及整個(gè)原文。模型度1說(shuō)明模型顧及原文中的上一個(gè)字母并不斷改變其概率。模型度可以無(wú)限高,但是對(duì)于大的原文來(lái)說(shuō)模型度越高其需要的計(jì)算內(nèi)存也越多。

                  熵作為相似性的量度

                  除了使用熵編碼作為壓縮數(shù)字?jǐn)?shù)據(jù)一種方法外,熵編碼器也可以用來(lái)測(cè)量數(shù)據(jù)流和已經(jīng)存在的類的數(shù)據(jù)之間的相似程度。這是通過(guò)對(duì)每類數(shù)據(jù)產(chǎn)生一個(gè)熵編碼器/壓縮器;通過(guò)將未壓縮的數(shù)據(jù)提供給每個(gè)壓縮機(jī),據(jù)該壓縮機(jī)產(chǎn)生的最佳壓縮分類。具有最佳壓縮率的編碼器可能是用與未知數(shù)據(jù)最相似的數(shù)據(jù)訓(xùn)練的編碼器。


                  免責(zé)聲明:以上內(nèi)容版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請(qǐng)告知,我們將盡快刪除相關(guān)內(nèi)容。感謝每一位辛勤著寫的作者,感謝每一位的分享。

                  ——— 沒(méi)有了 ———
                  編輯:阿族小譜

                  更多文章

                  更多精彩文章
                  評(píng)論 {{commentTotal}} 文明上網(wǎng)理性發(fā)言,請(qǐng)遵守《新聞評(píng)論服務(wù)協(xié)議》
                  游客
                  發(fā)表評(píng)論
                  • {{item.userName}} 舉報(bào)

                    {{item.content}}

                    {{item.time}} {{item.replyListShow ? '收起' : '展開'}}評(píng)論 {{curReplyId == item.id ? '取消回復(fù)' : '回復(fù)'}}

                    回復(fù)評(píng)論
                  加載更多評(píng)論
                  打賞作者
                  “感謝您的打賞,我會(huì)更努力的創(chuàng)作”
                  — 請(qǐng)選擇您要打賞的金額 —
                  {{item.label}}
                  {{item.label}}
                  打賞成功!
                  “感謝您的打賞,我會(huì)更努力的創(chuàng)作”
                  返回
                  打賞
                  私信

                  推薦閱讀

                  · 熵
                  簡(jiǎn)介熵的概念最早起源于物理學(xué),用于度量一個(gè)熱力學(xué)系統(tǒng)的無(wú)序程度。在信息論里面,熵是對(duì)不確定性的測(cè)量。但是在信息世界,熵越高,則能傳輸越多的信息,熵越低,則意味著傳輸?shù)男畔⒃缴佟S⒄Z(yǔ)文本數(shù)據(jù)流的熵比較低,因?yàn)橛⒄Z(yǔ)很容易讀懂,也就是說(shuō)很容易被預(yù)測(cè)。即便我們不知道下一段英語(yǔ)文字是什么內(nèi)容,但是我們能很容易地預(yù)測(cè),比如,字母e總是比字母z多,或者qu字母組合的可能性總是超過(guò)q與任何其它字母的組合。如果未經(jīng)壓縮,一段英文文本的每個(gè)字母需要8個(gè)比特來(lái)編碼,但是實(shí)際上英文文本的熵大概只有4.7比特。如果壓縮是無(wú)損的,即通過(guò)解壓縮可以百分之百地恢復(fù)初始的消息內(nèi)容,那么壓縮后的消息攜帶的信息和未壓縮的原始消息是一樣的多。而壓縮后的消息可以通過(guò)較少的比特傳遞,因此壓縮消息的每個(gè)比特能攜帶更多的信息,也就是說(shuō)壓縮信息的熵更加高。熵更高意味著比較難于預(yù)測(cè)壓縮消息攜帶的信息,原因在于壓縮消息里面沒(méi)有冗余,即每個(gè)比特...
                  · 熵
                  熵的熱力學(xué)定義魯?shù)婪颉た藙谛匏埂钤缣岢觥办亍边@個(gè)概念的物理學(xué)家熵的概念是由德國(guó)物理學(xué)家克勞修斯于1865年所提出??耸隙x一個(gè)熱力學(xué)系統(tǒng)中熵的增減:在一個(gè)可逆過(guò)程里,被用在恒溫的熱的總數(shù)(σσ-->Q{\displaystyle\sigmaQ}),并可以公式表示為:克勞修斯對(duì)S予以“熵”(希臘語(yǔ):εντροπια,entropia,德語(yǔ):Entropie,英語(yǔ):entropy)一名,希臘語(yǔ)源意為“內(nèi)向”,亦即“一個(gè)系統(tǒng)不受外部干擾時(shí)往內(nèi)部最穩(wěn)定狀態(tài)發(fā)展的特性”。與熵相反的概念為“反熵”(希臘語(yǔ):εκτροπια,ektropia,源意“外向性”;德語(yǔ):Ektropie;英語(yǔ)ectropy)。1923年,德國(guó)科學(xué)家普朗克來(lái)中國(guó)講學(xué)用到entropy這個(gè)詞,胡剛復(fù)教授翻譯時(shí)靈機(jī)一動(dòng),把“商”字加火旁來(lái)意譯“entropy”這個(gè)字,創(chuàng)造了“熵”字,(音讀:商),因?yàn)殪厥荙除以T(溫度)的商數(shù)...
                  · 余熵
                  歷史美國(guó)化學(xué)家萊納斯·鮑林是第一個(gè)以余熵這一概念來(lái)描述水所結(jié)成冰塊的人,特別是六方晶系的冰。在水狀態(tài)下,每一個(gè)氧原子與兩個(gè)氫原子結(jié)合在一起。但是當(dāng)水結(jié)成冰時(shí)則會(huì)變成四方結(jié)構(gòu),每一個(gè)氧原子周圍會(huì)有四個(gè)氫原子(因?yàn)橹車鷷?huì)有相鄰的水分子)。氧原子周圍的氫原子也有一定范圍的自由活動(dòng)空間,只要每一個(gè)氧原子“附近”保持有兩個(gè)氫原子,那么就仍然保持有其傳統(tǒng)的水分子構(gòu)成H2O。但事實(shí)證明,在這類有大量水分子的情況下,氫原子很有可能會(huì)遵循一種兩進(jìn)兩出的原則(每一個(gè)氧原子必須有兩個(gè)氫原子在其“附近”,另外兩個(gè)氫原子距其較“遠(yuǎn)”)。氫原子的這種自由活動(dòng)只存在于絕對(duì)零度下,因此以前也被視為絕無(wú)僅有的一種情況。存在有多種這樣的匹配情況來(lái)滿足絕對(duì)零度時(shí)的無(wú)序性,換言之,即滿足絕對(duì)零度時(shí)的熵。水所結(jié)成的冰是第一個(gè)用來(lái)說(shuō)明余熵概念的例子,然而一般情況下很難提取純凈且毫無(wú)缺陷的冰晶來(lái)進(jìn)行研究。因此有大量研究都試圖通過(guò)其他熱...
                  · 熵力
                  實(shí)例布朗運(yùn)動(dòng)布朗運(yùn)動(dòng)的熵方法最初是被RM紐曼提出的。.疏水力水珠在疏水性的草表面。熵力的另一個(gè)例子是疏水力。在室溫下,當(dāng)它們與溶解物質(zhì)分子相互作用時(shí),它部分地起源是由水分子的三維網(wǎng)絡(luò)中熵的損失。
                  · 編碼
                  擴(kuò)展定義對(duì)于特定的上下文,編碼有一些更具體的意義。編碼(Encoding)在認(rèn)知上是解釋傳入的刺激的一種基本知覺(jué)的過(guò)程。技術(shù)上來(lái)說(shuō),這是一個(gè)復(fù)雜的、多階段的轉(zhuǎn)換過(guò)程,從較為客觀的感覺(jué)輸入(例如光、聲)到主觀上有意義的體驗(yàn)。字符編碼(Characterencoding)是一套法則,使用該法則能夠?qū)ψ匀徽Z(yǔ)言的字符的一個(gè)集合(如字母表或音節(jié)表),與其他東西的一個(gè)集合(如號(hào)碼或電脈沖)進(jìn)行配對(duì)。文字編碼(Textencoding)使用一種標(biāo)記語(yǔ)言來(lái)標(biāo)記一篇文字的結(jié)構(gòu)和其他特征,以方便計(jì)算機(jī)進(jìn)行處理。語(yǔ)義編碼(Semanticsencoding),以正式語(yǔ)言乙對(duì)正式語(yǔ)言甲進(jìn)行語(yǔ)義編碼,即是使用語(yǔ)言乙表達(dá)語(yǔ)言甲所有的詞匯(如程序或說(shuō)明)的一種方法。電子編碼(Electronicencoding)是將一個(gè)信號(hào)轉(zhuǎn)換成為一個(gè)代碼,這種代碼是被優(yōu)化過(guò)的以利于傳輸或存儲(chǔ)。轉(zhuǎn)換工作通常由一個(gè)編解碼器完成。神經(jīng)編碼...

                  關(guān)于我們

                  關(guān)注族譜網(wǎng) 微信公眾號(hào),每日及時(shí)查看相關(guān)推薦,訂閱互動(dòng)等。

                  APP下載

                  下載族譜APP 微信公眾號(hào),每日及時(shí)查看
                  掃一掃添加客服微信