熵
簡介
熵的概念最早起源于物理學(xué),用于度量一個(gè)熱力學(xué)系統(tǒng)的無序程度。在信息論里面,熵是對不確定性的測量。但是在信息世界,熵越高,則能傳輸越多的信息,熵越低,則意味著傳輸?shù)男畔⒃缴佟?/p>
英語文本數(shù)據(jù)流的熵比較低,因?yàn)橛⒄Z很容易讀懂,也就是說很容易被預(yù)測。即便我們不知道下一段英語文字是什么內(nèi)容,但是我們能很容易地預(yù)測,比如,字母e總是比字母z多,或者qu字母組合的可能性總是超過q與任何其它字母的組合。如果未經(jīng)壓縮,一段英文文本的每個(gè)字母需要8個(gè)比特來編碼,但是實(shí)際上英文文本的熵大概只有4.7比特。
如果壓縮是無損的,即通過解壓縮可以百分之百地恢復(fù)初始的消息內(nèi)容,那么壓縮后的消息攜帶的信息和未壓縮的原始消息是一樣的多。而壓縮后的消息可以通過較少的比特傳遞,因此壓縮消息的每個(gè)比特能攜帶更多的信息,也就是說壓縮信息的熵更加高。熵更高意味著比較難于預(yù)測壓縮消息攜帶的信息,原因在于壓縮消息里面沒有冗余,即每個(gè)比特的消息攜帶了一個(gè)比特的信息。香農(nóng)的信息理論揭示了,任何無損壓縮技術(shù)不可能讓一比特的消息攜帶超過一比特的信息。消息的熵乘以消息的長度決定了消息可以攜帶多少信息。
香農(nóng)的信息理論同時(shí)揭示了,任何無損壓縮技術(shù)不可能縮短任何消息。根據(jù)鴿籠原理,如果有一些消息變短,則至少有一條消息變長。在實(shí)際使用中,由于我們通常只關(guān)注于壓縮特定的某一類消息,所以這通常不是問題。例如英語文檔和隨機(jī)文字,數(shù)字照片和噪音,都是不同類型的。所以如果一個(gè)壓縮算法會將某些不太可能出現(xiàn)的,或者非目標(biāo)類型的消息變得更大,通常是無關(guān)緊要的。但是,在我們的日常使用中,如果去壓縮已經(jīng)壓縮過的數(shù)據(jù),仍會出現(xiàn)問題。例如,將一個(gè)已經(jīng)是FLAC格式的音樂文件壓縮為ZIP文件很難使它占用的空間變小。
熵的計(jì)算
如果有一枚理想的硬幣,其出現(xiàn)正面和反面的機(jī)會相等,則拋硬幣事件的熵等于其能夠達(dá)到的最大值。我們無法知道下一個(gè)硬幣拋擲的結(jié)果是什么,因此每一次拋硬幣都是不可預(yù)測的。因此,使用一枚正常硬幣進(jìn)行若干次拋擲,這個(gè)事件的熵是一比特,因?yàn)榻Y(jié)果不外乎兩個(gè)——正面或者反面,可以表示為0, 1編碼,而且兩個(gè)結(jié)果彼此之間相互獨(dú)立。若進(jìn)行n次獨(dú)立實(shí)驗(yàn),則熵為n,因?yàn)榭梢杂瞄L度為n的比特流表示。但是如果一枚硬幣的兩面完全相同,那個(gè)這個(gè)系列拋硬幣事件的熵等于零,因?yàn)榻Y(jié)果能被準(zhǔn)確預(yù)測?,F(xiàn)實(shí)世界里,我們收集到的數(shù)據(jù)的熵介于上面兩種情況之間。
另一個(gè)稍微復(fù)雜的例子是假設(shè)一個(gè)隨機(jī)變量X,取三種可能值x1,x2,x3{\displaystyle {\begin{smallmatrix}x_{1},x_{2},x_{3}\end{smallmatrix}}},概率分別為12,14,14{\displaystyle {\begin{smallmatrix}{\frac {1}{2}},{\frac {1}{4}},{\frac {1}{4}}\end{smallmatrix}}},那么編碼平均比特長度是:12× × -->1+14× × -->2+14× × -->2=32{\displaystyle {\begin{smallmatrix}{\frac {1}{2}}\times 1+{\frac {1}{4}}\times 2+{\frac {1}{4}}\times 2={\frac {3}{2}}\end{smallmatrix}}}。其熵為3/2。
因此熵實(shí)際是對隨機(jī)變量的比特量和順次發(fā)生概率相乘再總和的數(shù)學(xué)期望。
定義
依據(jù)Boltzmann"s H-theorem,香農(nóng)把隨機(jī)變量X的熵值 Η(希臘字母Eta)定義如下,其值域?yàn)閧x1, ..., xn}:
其中,P為X的概率質(zhì)量函數(shù)(probability mass function),E為期望函數(shù),而I(X)是X的信息量(又稱為自信息)。I(X)本身是個(gè)隨機(jī)變數(shù)。
當(dāng)取自有限的樣本時(shí),熵的公式可以表示為:
在這里b是對數(shù)所使用的底,通常是2,自然常數(shù)e,或是10。當(dāng)b = 2,熵的單位是bit;當(dāng)b = e,熵的單位是nat;而當(dāng)b = 10,熵的單位是Hart。
pi = 0時(shí),對于一些i值,對應(yīng)的被加數(shù)0 logb 0的值將會是0,這與極限一致。
還可以定義事件 X 與 Y 分別取 xi 和 yj 時(shí)的條件熵為
其中p(xi, yj)為 X = xi 且 Y = yj 時(shí)的概率。這個(gè)量應(yīng)當(dāng)理解為你知道Y的值前提下隨機(jī)變量 X 的隨機(jī)性的量。
范例
拋硬幣的熵H(X)(即期望自信息),以比特度量,與之相對的是硬幣的公正度Pr(X=1). 注意圖的最大值取決于分布;在這里,要傳達(dá)一個(gè)公正的拋硬幣結(jié)果至多需要1比特,但要傳達(dá)一個(gè)公正的拋骰子結(jié)果至多需要log2(6)比特。
如果有一個(gè)系統(tǒng)S內(nèi)存在多個(gè)事件S = {E1,...,En},每個(gè)事件的概率分布P = {p1, ..., pn},則每個(gè)事件本身的訊息(自信息)為:
如英語有26個(gè)字母,假如每個(gè)字母在文章現(xiàn)次數(shù)平均的話,每個(gè)字母的訊息量為:
以日文五十音平假名作為相對范例,假設(shè)每個(gè)平假名日語文字在文章現(xiàn)的概率相等,每個(gè)平假名日語文字可攜帶的信息量為:
而漢字常用的有2500個(gè),假如每個(gè)漢字在文章現(xiàn)次數(shù)平均的話,每個(gè)漢字的信息量為:
實(shí)際上每個(gè)字母和每個(gè)漢字在文章現(xiàn)的次數(shù)并不平均,比方說較少見字母(如z)和罕用漢字就具有相對高的信息量。但上述計(jì)算提供了以下概念:使用書寫單元越多的文字,每個(gè)單元所包含的訊息量越大。
熵是整個(gè)系統(tǒng)的平均消息量,即:
因?yàn)楹蜔崃W(xué)中描述熱力學(xué)熵的玻爾茲曼公式本質(zhì)相同(僅僅單位不同,一納特的信息量即相當(dāng)于k焦耳每開爾文的熱力學(xué)熵),所以也稱為“熵”。
如果兩個(gè)系統(tǒng)具有同樣大的消息量,如一篇用不同文字寫的同一文章,由于漢字的信息量較大,中文文章應(yīng)用的漢字就比英文文章使用的字母要少。所以漢字印刷的文章要比其他應(yīng)用總體數(shù)量少的字母印刷的文章要短。即使一個(gè)漢字占用兩個(gè)字母的空間,漢字印刷的文章也要比英文字母印刷的用紙少。
熵的特性
可以用很少的標(biāo)準(zhǔn)來描述香農(nóng)熵的特性,將在下面列出。任何滿足這些假設(shè)的熵的定義均正比以下形式
其中,K是與選擇的度量單位相對應(yīng)的一個(gè)正比常數(shù)。
下文中,pi = Pr(X = xi)且Hn(p1,… … -->,pn)=H(X){\displaystyle \mathrm {H} _{n}(p_{1},\ldots ,p_{n})=\mathrm {H} (X)}
連續(xù)性
該量度應(yīng)連續(xù),概率值小幅變化只能引起熵的微。
對稱性
符號xi重新排序后,該量度應(yīng)不變。
極值性
當(dāng)所有符號有同等機(jī)會出現(xiàn)的情況下,熵達(dá)到最大值(所有可能的事件同等概率時(shí)不確定性最高)。
等概率事件的熵應(yīng)隨符號的數(shù)量增加。
可加性
熵的量與該過程如何被劃分無關(guān)。
最后給出的這個(gè)函數(shù)關(guān)系刻畫了一個(gè)系統(tǒng)與其子系統(tǒng)的熵的關(guān)系。如果子系統(tǒng)之間的相互作用是已知的,則可以通過子系統(tǒng)的熵來計(jì)算一個(gè)系統(tǒng)的熵。
給定n個(gè)均勻分布元素的集合,分為k個(gè)箱(子系統(tǒng)),每個(gè)里面有 b1, ..., bk 個(gè)元素,合起來的熵應(yīng)等于系統(tǒng)的熵與各個(gè)箱子的熵的和,每個(gè)箱子的權(quán)重為在該箱中的概率。
對于正整數(shù)bi其中b1 + ... + bk = n來說,
選取k = n,b1 = ... = bn = 1,這意味著確定符號的熵為零:Η1(1) = 0。這就是說可以用n進(jìn)制熵來定義n個(gè)符號的信源符號集的效率。參見信息冗余。
進(jìn)一步性質(zhì)
香農(nóng)熵滿足以下性質(zhì),借由將熵看成“在揭示隨機(jī)變量X的值后,從中得到的信息量(或消除的不確定性量)”,可來幫助理解其中一些性質(zhì)。
增減一概率為零的事件不改變熵:
可用琴生不等式證明
計(jì)算 (X,Y)得到的熵或信息量(即同時(shí)計(jì)算X和Y)等于通過進(jìn)行兩個(gè)連續(xù)實(shí)驗(yàn)得到的信息:先計(jì)算Y的值,然后在你知道Y的值條件下得出X的值。寫作
如果Y=f(X),其中f是確定性的,那么Η(f(X)|X) = 0。應(yīng)用前一公式Η(X, f(X))就會產(chǎn)生
如果X和Y是兩個(gè)獨(dú)立實(shí)驗(yàn),那么知道Y的值不影響我們對X值的認(rèn)知(因?yàn)閮烧擢?dú)立,所以互不影響):
兩個(gè)事件同時(shí)發(fā)生的熵不大于每個(gè)事件單獨(dú)發(fā)生的熵的總和,且僅當(dāng)兩個(gè)事件是獨(dú)立的情況下相等。更具體地說,如果X和Y是同一概率空間的兩個(gè)隨機(jī)變量,而 (X,Y)表示它們的笛卡爾積,則
和熱力學(xué)熵的聯(lián)系
物理學(xué)家和化學(xué)家對一個(gè)系統(tǒng)自發(fā)地從初始狀態(tài)向前演進(jìn)過程中,遵循熱力學(xué)第二定律而發(fā)生的熵的變化更感興趣。在傳統(tǒng)熱力學(xué)中,熵被定義為對系統(tǒng)的宏觀測定,并沒有涉及概率分布,而概率分布是信息熵的核心定義。
根據(jù)Jaynes(1957)的觀點(diǎn),熱力學(xué)熵可以被視為香農(nóng)信息理論的一個(gè)應(yīng)用:熱力學(xué)熵被定義為與要進(jìn)一步確定系統(tǒng)的微觀狀態(tài)所需要的更多香農(nóng)信息的量成比例。比如,系統(tǒng)溫度的上升提高了系統(tǒng)的熱力學(xué)熵,這增加了系統(tǒng)可能存在的微觀狀態(tài)的數(shù)量,也意味著需要更多的信息來描述對系統(tǒng)的完整狀態(tài)。
Maxwell在以他的名字命名的思想實(shí)驗(yàn)中認(rèn)為,如果存在一個(gè)小妖精知道每個(gè)分子的狀態(tài)信息(熱,或者冷),就能夠降低系統(tǒng)的熱力學(xué)熵。Landauer和他的同事則反駁說,讓小妖精行使職責(zé)本身——即便只是了解和儲存每個(gè)分子最初的香農(nóng)信息——就會給系統(tǒng)帶來熱力學(xué)熵的增加,因此總的來說,系統(tǒng)的熵的總量沒有減少。這就解決了Maxwell思想實(shí)驗(yàn)引發(fā)的悖論。Landauer法則能夠解釋現(xiàn)代計(jì)算機(jī)在處理大量信息時(shí),必須解決散熱問題。
參見
熵 (生態(tài)學(xué))
熵 (熱力學(xué))
熵編碼
麥克斯韋妖
免責(zé)聲明:以上內(nèi)容版權(quán)歸原作者所有,如有侵犯您的原創(chuàng)版權(quán)請告知,我們將盡快刪除相關(guān)內(nèi)容。感謝每一位辛勤著寫的作者,感謝每一位的分享。
- 有價(jià)值
- 一般般
- 沒價(jià)值
{{item.userName}} 舉報(bào)
{{item.time}} {{item.replyListShow ? '收起' : '展開'}}評論 {{curReplyId == item.id ? '取消回復(fù)' : '回復(fù)'}}
{{_reply.userName}} 舉報(bào)
{{_reply.time}}