區塊鏈中用到的Hash算法

2020-02-25 19:26:37

字體：大中小

來源：轉載

供稿：網友

　　區塊鏈中用到的Hash算法，哈希算法在區塊鏈的作用是什么?什么是哈希算法?哈希算法是否可逆?比特幣采用的是什么哈希算法?下面就跟隨武林技術頻道的小編一起來了解下吧。

　　作用

　　在學習哈希算法前，我們需要知道哈希在區塊鏈的作用

　　哈希算法的作用如下：

　　區塊鏈通過哈希算法對一個交易區塊中的交易信息進行加密，并把信息壓縮成由一串數字和字母組成的散列字符串。

　　區塊鏈的哈希值能夠唯一而精準地標識一個區塊，區塊鏈中任意節點通過簡單的哈希計算都接獲得這個區塊的哈希值，計算出的哈希值沒有變化也就意味著區塊鏈中的信息沒有被篡改。

　　定義

　　hash (哈希或散列)算法是信息技術領域非常基礎也非常重要的技術。它能任意長度的二進制值(明文)映射為較短的固定長度的二進制值(hash 值)，并且不同的明文很難映射為相同的 hash 值。

　　例如計算一段話“hello blockchain world, this is yeasy@github”的 md5 hash 值為 89242549883a2ef85dc81b90fb606046。

　　$ echo “hello blockchain world, this is yeasy@github”|md5

　　89242549883a2ef85dc81b90fb606046

　　這意味著我們只要對某文件進行 md5 hash 計算，得到結果為 89242549883a2ef85dc81b90fb606046，這就說明文件內容極大概率上就是 “hello blockchain world, this is yeasy@github”。可見，hash 的核心思想十分類似于基于內容的編址或命名。

　　注：md5 是一個經典的 hash 算法，其和 SHA-1 算法都已被證明安全性不足應用于商業場景。

　　一個優秀的 hash 算法，將能實現：

　　正向快速：給定明文和 hash 算法，在有限時間和有限資源內能計算出 hash 值。

　　逆向困難：給定(若干) hash 值，在有限時間內很難(基本不可能)逆推出明文。

　　輸入敏感：原始輸入信息修改一點信息，產生的 hash 值看起來應該都有很大不同。

　　沖突避免：很難找到兩段內容不同的明文，使得它們的 hash 值一致(發生沖突)。

　　沖突避免有時候又被稱為“抗碰撞性”。如果給定一個明文前提下，無法找到碰撞的另一個明文，稱為“抗弱碰撞性”;如果無法找到任意兩個明文，發生碰撞，則稱算法具有“抗強碰撞性”。

　　流行的算法

　　目前流行的 hash 算法包括 MD5(已被證明不夠安全)和 SHA-1，兩者均以 MD4 為基礎設計的。

　　MD4(RFC 1320)是 MIT 的 Ronald L. Rivest 在 1990 年設計的，MD 是 Message Digest 的縮寫。其輸出為 128 位。MD4 并不足夠安全。

　　MD5(RFC 1321)是 Rivest 于1991年對 MD4 的改進版本。它對輸入仍以 512 位分組，其輸出是 128 位。MD5 比 MD4 復雜，并且計算速度要慢一點，但更安全一些。MD5 并不足夠安全。

　　SHA1 (Secure Hash Algorithm)是由 NIST NSA 設計，它的輸出為長度 160 位的 hash 值，因此抗窮舉性更好。SHA-1 設計時基于和 MD4 相同原理,并且模仿了該算法。

　　為了提高安全性，NIST NSA 還設計出了 SHA-224、SHA-256、SHA-384，和 SHA-512 算法(統稱為 SHA-2)，跟 SHA-1 算法原理類似。

　　性能

　　一般的，hash 算法都是算力敏感型，意味著計算資源是瓶頸，主頻越高的 CPU 進行 hash 的速度也越快。

　　也有一些 hash 算法不是算力敏感的，例如 scrypt，需要大量的內存資源，節點不能通過簡單的增加更多 CPU 來獲得 hash 性能的提升。

　　數字摘要

　　顧名思義，數字摘要是對數字內容進行 hash 運算，獲取唯一的摘要值來指代原始數字內容。

　　數字摘要是解決確保內容沒被篡改過的問題(利用 hash 函數的抗碰撞性特點)。

　　數字摘要是 hash 算法最重要的一個用途。

　　在網絡上下載軟件或文件時，往往同時會提供一個數字摘要值，用戶下載下來原始文件可以自行進行計算，并同提供的摘要值進行比對，以確保內容沒有被修改過。

　　##########################

　　對于哈希，我們可能認識還不夠徹底，下面在補充一些內容

　　解釋1：

　　把網址A，轉換成數字1。網址B，轉換成數字2。一個網址X，轉換成數字N，根據數字N作為下標，就可以快速地查找出網址X的信息。這個轉換的過程就是哈希算法。哈希算法并不是一種特定的算法，只要能完成這種轉換的算法都是哈希算法。但是評定一個算法是否是好的哈希算法，要根據算法的離散度和沖突概率來評定。

　　解釋2：

　　什么是哈希表和哈希算法?比如這里有一萬首歌，給你一首新的歌X，要求你確認這首歌是否在那一萬首歌之內。無疑，將一萬首歌一個一個比對非常慢。但如果存在一種方式，能將一萬首歌的每首數據濃縮到一個數字(稱為哈希碼)中，于是得到一萬個數字，那么用同樣的算法計算新的歌X的編碼，看看歌X的編碼是否在之前那一萬個數字中，就能知道歌X是否在那一萬首歌中。作為例子，如果要你組織那一萬首歌，一個簡單的哈希算法就是讓歌曲所占硬盤的字節數作為哈希碼。這樣的話，你可以讓一萬首歌“按照大小排序”，然后遇到一首新的歌，只要看看新的歌的字節數是否和已有的一萬首歌中的某一首的字節數相同，就知道新的歌是否在那一萬首歌之內了。當然這個簡單的哈希算法很容易出現兩者同樣大小的歌曲，這就是發送了碰撞。而好的哈希算法發生碰撞的幾率非常小。

　　解釋3：

　　這個HASH算法不是大學里數據結構課里那個HASH表的算法。這里的HASH算法是密碼學的基礎，比較常用的有MD5和SHA，最重要的兩條性質，就是不可逆和無沖突。所謂不可逆，就是當你知道x的HASH值，無法求出x;所謂無沖突，就是當你知道x，無法求出一個y，使x與y的HASH值相同。這兩條性質在數學上都是不成立的。因為一個函數必然可逆，且由于HASH函數的值域有限，理論上會有無窮多個不同的原始值，它們的hash值都相同。MD5和SHA做到的，是求逆和求沖突在計算上不可能，也就是正向計算很容易，而反向計算即使窮盡人類所有的計算資源都做不到。我覺得密碼學的幾個算法(HASH、對稱加密、公私鑰)是計算機科學領域最偉大的發明之一，它授予了弱小的個人在強權面前信息的安全(而且是絕對的安全)。舉個例子，只要你一直使用https與國外站點通訊，并注意對方的公鑰沒有被篡改，G**W可以斷開你的連接，但它永遠不可能知道你們的傳輸內容是什么。

　　解釋4：

　　解讀區塊鏈，區塊鏈中HASH算法

　　區塊鏈技術是一系列技術的結合，建立一種新的技術架構，hash算法是其中尤為重要的一塊，這里簡單對hash算法做一個說明。如果有理解不當的地方請及時指正。

　　講hash算法之前先明確一個基礎的計算機知識，計算機在底層機器碼是采用二進制的模式，所謂二進制簡單來說就是底層以0/1來標識，所有數據傳輸記錄都以010101的模式來存儲記錄，兩種狀態也可認為就是一個日常生活中的開關，1標識開，0標識關。那么計算機中最小的數據單位也就是這里說的0或者1，這里我們稱為bit(比特或者位)，8個bit組成一個字節。當然計算機中也有八進制、十六進制的表示，這里暫時不展開討論。只明確底層一個二進制的概念。

　　Hash算法將任意長度的二進制值映射為較短的固定長度的二進制值，這個小的二進制值稱為哈希值。哈希值是一段數據唯一且極其緊湊的數值表示形式。如果散列一段明文而且哪怕只更改該段落的一個字母，隨后的哈希都將產生不同的值。要找到散列為同一個值的兩個不同的輸入，在計算上是不可能的，所以數據的哈希值可以檢驗數據的完整性。一般用于快速查找和加密算法。

　　再引入一個hash表概念，計算機數據結構中，給定一個表M，關鍵字key，存在函數H(key)，對任意給定的關鍵字值key，代入函數后若能得到包含該關鍵字的記錄在表中的地址，則稱表M為hash表。

　　簡單理解hash算法就是這一種單向的加密，一個明文加密稱為密文，不可逆推，只有加密過程，沒有解密過程。說明了hash函數和hash表的概念，那么目前常用的hash算法有MD5(已被破解)，SHA系列算法(比特幣中使用sha-256算法)。SHA這里稍微提下(secure hash algorithm)這不是一個算法，這是一個hash函數集，現在有sha-224、sha-256、sha-384、sha-512等算法。在09年中本聰設計比特幣的時候，當時sha-256被認為最安全的算法之一，故選擇了sha-256，到目前為止還沒有被破解。

　　解釋到這里，可能會聯想到，hash算法中key在計算后如果出現了同一位置，沖突的產生，這里簡單說下幾種沖突處理，如有興趣可以查看hash算法論文。

　　1.拉鏈法：這種方法可以完全避免沖突，將所有關鍵字為同義詞的結點鏈接在同一個單鏈表中。若選定的散列表長度為m，則可將散列表定義為一個由m個頭指針組成的指針數組t[0..m-1]。凡是散列地址為i的結點，均插入到以t為頭指針的單鏈表中。t中各分量的初值均應為空指針。在拉鏈法中，裝填因子α可以大于1，但一般均取α≤1。

　　2.多哈希法：設計兩種以上的hash函數，避免沖突，這個感覺比較不靠譜，但是從概率上來說多種hash函數還是降低了沖突的出現。

　　3.開放地址法：開放地址法有一個公式：Hi=(H(key)+di) MOD m i=1,2,...,k(k

　　Hash算法函數根據分類：加法hash、位運算hash、乘法hash、除法hash、查表hash等。

　　參考百度百科說的比較抽象，有興趣可以深入了解下。

　　結合區塊鏈，在區塊鏈中很多地方都用到了hash函數：

　　1.區塊鏈中節點的地址、公鑰、私鑰的計算。以地址為例：公鑰經過一次SHA256計算，再進行一次RIPEMD160計算，得到一個公鑰哈希(20字節/160比特)，添加版本信息，再來兩次SHA256運算、取前4比特字節，放到哈希公鑰加版本信息后，再經過base58編碼，最終得到地址。

　　2.merkle tree：是數據結構中的一種樹結構，可以是二叉樹，也可以是多叉樹，他和數據結構中樹的特點幾乎一致，和普通樹不同的是：merkle tree上的葉節點存放hash計算后的hash值，非葉節點是其對應的子節點串聯的字符串的hash值。用于區塊頭和SPV認證中。

　　3.比特幣中的挖礦，工作量證明(pow)，計算的其實就是一個nonce，當這個隨機數和其他散列過的數據合并時，產生一個比規定目標小(target)值。挖礦也可以理解一種快速不可逆的計算。SHA256(SHA256(version + prev_hash + merkle_root + ntime + nbits + x ))

　　4.比特幣中的bloom filter布隆過濾器，布隆過濾器基于hash函數的快速查找。解決了客戶端檢索的問題，原理是Bloom filter可以快速判斷出某檢索值一定不存在于某個指定的集合，從而可以過濾掉大量無關數據，減少客戶端不必要的下載量。

　　簡單介紹了HASH算法，和區塊鏈中用到的HASH算法，區塊鏈是多個技術的結合，結合各自特點出現的一種新的技術架構，HASH算法和加密技術為區塊鏈的自證信任化及安全控制提供了基礎，算法的碰撞和現在量子計算的發展，之前在區塊鏈的安全性的文章中筆者有過說明，技術不斷發展，肯定會有更適合的技術保障應用的實現。

上一篇：50行代碼創建一個區塊鏈

下一篇：都有誰在使用區塊鏈技術