1 引言
從 2017 年的第一波 dApp Etheroll、ETHLend 與 CryptoKitties 開始,到如今各式各樣基于不同區(qū)塊鏈的金融、游戲與社交 dApp 百花齊放,當(dāng)我們談?wù)撊ブ行幕逆溕蠎?yīng)用時,是否曾思考過這些 dApp 在交互中所采納的各類數(shù)據(jù)的源頭?
2024 年,熱點聚焦于 AI 與 Web3,在人工智能的世界里,數(shù)據(jù)就像是其成長與進化的生命源泉。正如植物依賴陽光和水分才能茁壯成長,AI 系統(tǒng)同樣依賴海量的數(shù)據(jù)來不斷「學(xué)習(xí)」和「思考」。沒有數(shù)據(jù),AI 的算法再精妙也不過是空中樓閣,無法發(fā)揮其應(yīng)有的智能與效能。
本文從區(qū)塊鏈數(shù)據(jù)可訪問性(Data Accessibility)的角度,深入分析了行業(yè)發(fā)展過程中區(qū)塊鏈數(shù)據(jù)索引的演變,并對比了老牌數(shù)據(jù)索引協(xié)議 The Graph 與新興的區(qū)塊鏈數(shù)據(jù)服務(wù)協(xié)議 Chainbase 和 Space and Time,特別探討了這兩個結(jié)合 AI 技術(shù)的新晉協(xié)議在數(shù)據(jù)服務(wù)與產(chǎn)品架構(gòu)特色的異同。
2 數(shù)據(jù)索引的繁與簡:從區(qū)塊鏈節(jié)點到全鏈數(shù)據(jù)庫
2.1 數(shù)據(jù)源頭:區(qū)塊鏈節(jié)點
從一開始了解「區(qū)塊鏈是什么」時,我們就常看到這樣一句話:區(qū)塊鏈是去中心化的記賬本。區(qū)塊鏈節(jié)點是整個區(qū)塊鏈網(wǎng)絡(luò)的基礎(chǔ),承擔(dān)著記錄、存儲和傳播鏈上所有交易數(shù)據(jù)的責(zé)任。每個節(jié)點都擁有一份完整的區(qū)塊鏈數(shù)據(jù)副本,確保網(wǎng)絡(luò)的去中心化特性得以維持。然而,對于普通用戶來說,自建和維護一個區(qū)塊鏈節(jié)點并非易事。這不僅需要專業(yè)的技術(shù)能力,還伴隨著高昂的硬件和帶寬成本。同時,普通的節(jié)點查詢能力也有限,無法以開發(fā)人員需要的格式查詢數(shù)據(jù)。因此,盡管理論上每個人都可以運行自己的節(jié)點,但實際操作中,用戶通常更傾向于依賴第三方服務(wù)。
為了解決這一問題,RPC(遠程過程調(diào)用)節(jié)點提供商應(yīng)運而生。這些提供商負責(zé)節(jié)點的成本和管理,并通過 RPC 端點提供數(shù)據(jù)。使得用戶可以無需自建節(jié)點,便可輕松訪問區(qū)塊鏈數(shù)據(jù)。公共 RPC 端點是免費的,但有速率限制,可能會對 dApp 的用戶體驗產(chǎn)生負面影響。私有 RPC 端點通過減少擁塞提供更好的性能,但即使是簡單的數(shù)據(jù)檢索也需要大量的來回通信。這使得它們請求繁重,對于復(fù)雜的數(shù)據(jù)查詢效率低下。此外,私有 RPC 端點通常難以擴展,并且缺乏跨不同網(wǎng)絡(luò)的兼容性。但節(jié)點提供商標準化的 API 接口給予了用戶訪問鏈上的數(shù)據(jù)更低的門檻,為后續(xù)的數(shù)據(jù)解析和應(yīng)用打下了基礎(chǔ)。
2.2 數(shù)據(jù)解析:從原型數(shù)據(jù)到可用數(shù)據(jù)
從區(qū)塊鏈節(jié)點獲取的數(shù)據(jù)往往是經(jīng)過加密和編碼處理的原始數(shù)據(jù)。這些數(shù)據(jù)雖然保留了區(qū)塊鏈的完整性和安全性,但其復(fù)雜性也增加了數(shù)據(jù)解析的難度。對于普通用戶或者開發(fā)者來說,直接處理這些原型數(shù)據(jù)需要大量的技術(shù)知識和計算資源。
數(shù)據(jù)解析的過程在這一背景下顯得尤為重要。通過將復(fù)雜的原型數(shù)據(jù)進行解析,轉(zhuǎn)換為更易理解和操作的格式,用戶可以更直觀地理解和利用這些數(shù)據(jù)。數(shù)據(jù)解析的成功與否直接決定了區(qū)塊鏈數(shù)據(jù)應(yīng)用的效率和效果,是整個數(shù)據(jù)索引流程中的關(guān)鍵一步。
2.3 數(shù)據(jù)索引器的演進
隨著區(qū)塊鏈數(shù)據(jù)量的增加,數(shù)據(jù)索引器的需求也日益增加。索引器在組織鏈上數(shù)據(jù)并將其發(fā)送到數(shù)據(jù)庫以便于查詢方面起著至關(guān)重要的作用。索引器的工作原理是索引區(qū)塊鏈數(shù)據(jù)并通過類似于 SQL 的查詢語言(GraphQL 等 API)使其隨時可用。通過提供查詢數(shù)據(jù)的統(tǒng)一界面,索引器允許開發(fā)人員使用標準化查詢語言快速準確地檢索所需的信息,從而大大簡化了流程。
不同類型的索引器通過各種方式優(yōu)化數(shù)據(jù)檢索:
- 完整節(jié)點索引器:這些索引器運行完整的區(qū)塊鏈節(jié)點并直接從中提取數(shù)據(jù),確保數(shù)據(jù)完整準確,但需要大量的存儲和處理能力。
- 輕量級索引器:這些索引器依靠完整節(jié)點根據(jù)需要獲取特定數(shù)據(jù),從而減少存儲要求但可能會增加查詢時間。
- 專用索引器:這些索引器專門針對某些類型的數(shù)據(jù)或特定的區(qū)塊鏈,可優(yōu)化特定用例的檢索,例如 NFT 數(shù)據(jù)或 DeFi 交易。
- 聚合索引器:這些索引器從多個區(qū)塊鏈和來源提取數(shù)據(jù),包括鏈下信息,提供統(tǒng)一的查詢界面,這對于多鏈 dApp 特別有用。
目前,以太坊檔案節(jié)點(Archive Node)在 Geth 客戶端中的存檔模式占用了約 13.5 TB 的存儲空間,而在 Erigon 客戶端下,存檔需求約為 3 TB。隨著區(qū)塊鏈的不斷增長,檔案節(jié)點的數(shù)據(jù)存儲量也會隨之增加。面對如此龐大的數(shù)據(jù)量,主流索引器協(xié)議不僅支持多鏈索引,還針對不同應(yīng)用的數(shù)據(jù)需求,定制了數(shù)據(jù)解析框架。例如,The Graph 的「子圖」(Subgraph)框架就是一個典型案例。
索引器的出現(xiàn)大大提升了數(shù)據(jù)的索引和查詢效率。與傳統(tǒng)的 RPC 端點相比,索引器可以高效地索引大量數(shù)據(jù),并支持高速查詢。這些索引器允許用戶執(zhí)行復(fù)雜的查詢,輕松過濾數(shù)據(jù),并在提取后進行分析。此外,一些索引器還支持聚合來自多個區(qū)塊鏈的數(shù)據(jù)源,避免在多鏈 dApp 中需要部署多個 API 的問題。通過在多個節(jié)點上分布式運行,索引器不僅提供了更強的安全性和性能,也減少了集中式 RPC 提供商可能帶來的中斷和停機風(fēng)險。
相比之下,索引器通過預(yù)先定義的查詢語言,使得用戶可以在無需處理底層復(fù)雜數(shù)據(jù)的情況下,直接獲取所需信息。這種機制顯著提高了數(shù)據(jù)檢索的效率和可靠性,是區(qū)塊鏈數(shù)據(jù)訪問的重要創(chuàng)新。
2.4 全鏈數(shù)據(jù)庫:向流優(yōu)先對齊
使用索引節(jié)點查詢數(shù)據(jù)通常意味著 API 成為消化鏈上數(shù)據(jù)唯一門戶。然而,當(dāng)一個項目進入擴展階段時,往往需要更靈活的數(shù)據(jù)源, 而這是標準化的 API 無法提供的。隨著應(yīng)用需求的復(fù)雜化,初級數(shù)據(jù)索引器與其標準化的索引格式逐漸難以滿足越來越多樣化的查詢需求,例如搜索、跨鏈訪問或鏈下數(shù)據(jù)映射。


在現(xiàn)代數(shù)據(jù)管道架構(gòu)中,「流優(yōu)先」方法已經(jīng)成為解決傳統(tǒng)批處理局限性的一種方案,能夠?qū)崿F(xiàn)實時的數(shù)據(jù)攝取、處理和分析。這種范式的轉(zhuǎn)變使得組織能夠?qū)魅霐?shù)據(jù)立即作出響應(yīng),從而幾乎即時地得出洞察并做出決策。類似地,區(qū)塊鏈數(shù)據(jù)服務(wù)提供商的發(fā)展也正朝著構(gòu)建區(qū)塊鏈數(shù)據(jù)流的方向前進,傳統(tǒng)索引器服務(wù)商均陸續(xù)推出了以數(shù)據(jù)流方式獲取實時區(qū)塊鏈數(shù)據(jù)的產(chǎn)品,例如 The Graph 的 Substreams,Goldsky 的 Mirror,也有如 Chainbase 和 SubSquid 這樣根據(jù)區(qū)塊鏈生成數(shù)據(jù)流的實時數(shù)據(jù)湖。
這些服務(wù)旨在解決對區(qū)塊鏈交易進行實時解析和提供更全面查詢能力的需求。正如「流優(yōu)先」架構(gòu)通過降低延遲和增強響應(yīng)能力,革新了傳統(tǒng)數(shù)據(jù)管道中的數(shù)據(jù)處理和消費方式一樣,這些區(qū)塊鏈數(shù)據(jù)流服務(wù)商也希望通過更先進且成熟的數(shù)據(jù)源,支持更多應(yīng)用程序的發(fā)展并輔助鏈上數(shù)據(jù)分析。
通過現(xiàn)代數(shù)據(jù)管道的視角重新定義鏈上數(shù)據(jù)的挑戰(zhàn),我們得以從全新的角度看待鏈上數(shù)據(jù)的管理、存儲和提供的全部潛力。當(dāng)我們開始將子圖和以太坊 ETL 等索引器視為數(shù)據(jù)管道中的數(shù)據(jù)流而非最終輸出時,便可以設(shè)想一個能夠為任何業(yè)務(wù)用例量身定制高性能數(shù)據(jù)集的可能世界。
3 AI + Database? 深入對比 The Graph, Chainbase, Space and Time
3.1 The Graph
The Graph 網(wǎng)絡(luò)通過一個去中心化的節(jié)點網(wǎng)絡(luò)來實現(xiàn)多鏈數(shù)據(jù)索引和查詢服務(wù),促進開發(fā)者便捷地索引區(qū)塊鏈數(shù)據(jù)并構(gòu)建去中心化應(yīng)用。其主要的產(chǎn)品模式為數(shù)據(jù)查詢執(zhí)行市場和數(shù)據(jù)索引緩存的市場,這兩個市場本質(zhì)都是服務(wù)于用戶的產(chǎn)品查詢需求,其中數(shù)據(jù)查詢執(zhí)行市場具體指消費者為所需的數(shù)據(jù)選擇合適的提供數(shù)據(jù)的索引節(jié)點付費,數(shù)據(jù)索引緩存的市場則是索引節(jié)點依據(jù)子圖的歷史索引熱度、收取的查詢費、鏈上策展人對子圖輸出的需求調(diào)動資源分配的市場。
子圖(Subgraphs)是 The Graph 網(wǎng)絡(luò)中的基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)。它們定義了如何從區(qū)塊鏈中提取并轉(zhuǎn)換數(shù)據(jù)為可查詢的格式(例如 GraphQL 模式)。任何人都可以創(chuàng)建子圖,且多個應(yīng)用可以重復(fù)使用這些子圖,這提升了數(shù)據(jù)可復(fù)用性和使用效率。
The Graph 產(chǎn)品結(jié)構(gòu) (Source: The Graph Whitepaper)
The Graph 網(wǎng)絡(luò)由四個關(guān)鍵角色構(gòu)成:索引器、策展人、委托人和開發(fā)者,他們共同為 web3 應(yīng)用提供數(shù)據(jù)支持。以下是他們各自的職責(zé):
- 索引器(Indexer):索引器是 The Graph 網(wǎng)絡(luò)中的節(jié)點運營商,索引節(jié)通過質(zhì)押 GRT(The Graph 的原生代幣)參與網(wǎng)絡(luò),提供索引和查詢處理服務(wù)。
- 委托者(Delegator):委托者是那些將 GRT 代幣質(zhì)押給索引節(jié)點以支持其運營的用戶。委托者通過他們所委托的索引節(jié)點賺取部分獎勵。
- 策展人(Curator):策展人負責(zé)信號哪些子圖應(yīng)該被網(wǎng)絡(luò)索引。策展人幫助確保有價值的子圖被優(yōu)先處理。
- 開發(fā)者(Developer):與前三者作為供應(yīng)方不同,開發(fā)者是需求方,是 The Graph 的主要用戶。他們創(chuàng)建并提交子圖至 The Graph 網(wǎng)絡(luò),等待網(wǎng)絡(luò)滿足需求數(shù)據(jù)。


目前 The Graph 已經(jīng)轉(zhuǎn)向全面的去中心化子圖托管服務(wù),不同的參與方之間有流通的經(jīng)濟激勵確保系統(tǒng)運轉(zhuǎn):
- 索引節(jié)點獎勵:索引節(jié)點通過消費者的查詢費用和部分 GRT 代幣區(qū)塊獎勵來賺取收益。
- 委托者獎勵:委托者通過他們所支持的索引節(jié)點獲得部分獎勵。
- 策展人獎勵:如果策展人信號了有價值的子圖,他們可以從查詢費用中獲得部分獎勵。
事實上,The Graph 的產(chǎn)品也在 AI 浪潮中迅速發(fā)展。作為 The Graph 生態(tài)系統(tǒng)的核心開發(fā)團隊之一,Semiotic Labs 一直致力于利用 AI 技術(shù)優(yōu)化索引定價和用戶查詢體驗。當(dāng)前,Semiotic Labs 開發(fā)的 AutoAgora、Allocation Optimizer 和 AgentC 工具分別在多個方面提升了生態(tài)系統(tǒng)的性能。
- AutoAgora 引入動態(tài)定價機制,基于查詢量和資源使用情況實時調(diào)整價格,優(yōu)化定價策略,確保索引器的競爭力和收入最大化。
- Allocation Optimizer 解決了子圖資源分配的復(fù)雜問題,幫助索引器實現(xiàn)資源的最佳配置,以提升收入和性能。
- AgentC 是一個實驗性工具,允許用戶通過自然語言訪問 The Graph 的區(qū)塊鏈數(shù)據(jù),從而提升用戶體驗。
這些工具的應(yīng)用使得 The Graph 結(jié)合 AI 輔助進一步提升了系統(tǒng)的智能化和用戶友好度。
3.2 Chainbase
Chainbase 是一個全鏈數(shù)據(jù)網(wǎng)絡(luò),將所有區(qū)塊鏈數(shù)據(jù)整合到一個平臺,方便開發(fā)者更輕松地構(gòu)建和維護應(yīng)用程序。它的獨特功能包括:
- 實時數(shù)據(jù)湖:Chainbase 提供了一個專門用于區(qū)塊鏈數(shù)據(jù)流的實時數(shù)據(jù)湖,使得數(shù)據(jù)在生成時即可被即時訪問。
- 雙鏈架構(gòu):Chainbase 基于 Eigenlayer AVS 構(gòu)建了一個執(zhí)行層,與 CometBFT 的共識算法形成并行的雙鏈架構(gòu)。這種設(shè)計增強了跨鏈數(shù)據(jù)的可編程性和可組合性,支持高吞吐量、低延遲和最終性,并通過雙重質(zhì)押模型提升了網(wǎng)絡(luò)安全性。
- 創(chuàng)新數(shù)據(jù)格式標準:Chainbase 引入了一種名為「manuscripts」的全新數(shù)據(jù)格式標準,優(yōu)化了加密行業(yè)中數(shù)據(jù)的結(jié)構(gòu)化和利用方式。
- 加密世界模型:憑借其龐大的區(qū)塊鏈數(shù)據(jù)資源,Chainbase 結(jié)合 AI 模型技術(shù),打造了能夠有效理解、預(yù)測區(qū)塊鏈交易并與之交互的 AI 模型。目前已推出基礎(chǔ)版模型 Theia,供公眾使用。


這些功能使 Chainbase 在區(qū)塊鏈索引協(xié)議中脫穎而出,尤其注重實時數(shù)據(jù)的可訪問性、創(chuàng)新的數(shù)據(jù)格式,以及通過鏈上和鏈下數(shù)據(jù)的結(jié)合,創(chuàng)建更智能的模型以提升洞察力。
Chainbase 的 AI 模型 Theia 是其區(qū)別于其他數(shù)據(jù)服務(wù)協(xié)議的關(guān)鍵亮點。Theia 基于 NVIDIA 開發(fā)的 DORA 模型,結(jié)合鏈上和鏈下數(shù)據(jù)以及時空活動,學(xué)習(xí)并分析加密模式,并通過因果推理做出響應(yīng),從而深入挖掘鏈上數(shù)據(jù)的潛在價值和規(guī)律,為用戶提供更加智能化的數(shù)據(jù)服務(wù)。
AI 賦能的數(shù)據(jù)服務(wù)使 Chainbase 不再僅僅是一個區(qū)塊鏈數(shù)據(jù)服務(wù)平臺,而成為一個更具競爭力的智能化數(shù)據(jù)服務(wù)商。通過強大的數(shù)據(jù)資源和 AI 的主動分析,Chainbase 能夠提供更廣泛的數(shù)據(jù)洞察,并優(yōu)化用戶的數(shù)據(jù)處理過程。
3.3 Space and Time
Space and Time (SxT) 意在打造可驗證的計算層,在去中心化數(shù)據(jù)倉庫上擴展零知識證明,從而為智能合約、大語言模型和企業(yè)提供可信的數(shù)據(jù)處理。目前 Space and Time 已獲得 2000 萬美元最新一輪的 A 輪融資,由 Framework Ventures、Lightspeed Faction、Arrington Capital 和 Hivemind Capital 領(lǐng)投。
在數(shù)據(jù)索引和驗證領(lǐng)域,Space and Time 引入了一種全新的技術(shù)路徑——Proof of SQL。這是 Space and Time 開發(fā)的一種創(chuàng)新零知識證明(ZKP)技術(shù),確保在去中心化數(shù)據(jù)倉庫上執(zhí)行的 SQL 查詢是防篡改的和可驗證的。當(dāng)運行查詢時,Proof of SQL 會生成一個加密證明,驗證查詢結(jié)果的完整性和準確性。這個證明附加在查詢結(jié)果上,使任何驗證者(如智能合約等)都可以獨立確認數(shù)據(jù)在處理過程中未被篡改。傳統(tǒng)的區(qū)塊鏈網(wǎng)絡(luò)通常依賴共識機制來驗證數(shù)據(jù)的真實性,而 Space and Time 的 Proof of SQL 實現(xiàn)了一種更為高效的數(shù)據(jù)驗證方式。具體來說,在 Space and Time 的系統(tǒng)中,一個節(jié)點負責(zé)數(shù)據(jù)的獲取,而其他節(jié)點則通過 zk 技術(shù)驗證該數(shù)據(jù)的真實性。這種方式改變了共識機制下多個節(jié)點重復(fù)索引相同數(shù)據(jù)的到最終達成共識獲取數(shù)據(jù)的資源損耗,提升了系統(tǒng)的整體性能。隨著這項技術(shù)的成熟,它為著重數(shù)據(jù)可靠性的一系列傳統(tǒng)行業(yè)使用區(qū)塊鏈上數(shù)據(jù)構(gòu)造產(chǎn)品打造了落腳石。


同時,SxT 一直與微軟 AI 聯(lián)合創(chuàng)新實驗室密切合作,加速研發(fā)生成式 AI 工具,方便用戶更輕松地通過自然語言處理區(qū)塊鏈數(shù)據(jù)。目前在 Space and Time Studio 中,用戶可以體驗輸入自然語言查詢,而 AI 會自動將其轉(zhuǎn)換為 SQL 并代表用戶執(zhí)行查詢語句呈現(xiàn)用戶需要的最終結(jié)果。
3.4 差異對比


結(jié)論與展望
綜上所述,區(qū)塊鏈數(shù)據(jù)索引技術(shù)從最初的節(jié)點數(shù)據(jù)源頭,經(jīng)過數(shù)據(jù)解析和索引器的發(fā)展,最終演進到 AI 賦能的全鏈數(shù)據(jù)服務(wù),經(jīng)歷了一個逐步完善的過程。這些技術(shù)的不斷演進,不僅提高了數(shù)據(jù)訪問的效率和準確性,還為用戶帶來了前所未有的智能化體驗。
展望未來,隨著 AI 技術(shù)和零知識證明等新技術(shù)的不斷發(fā)展,區(qū)塊鏈數(shù)據(jù)服務(wù)將進一步智能化和安全化。我們有理由相信,區(qū)塊鏈數(shù)據(jù)服務(wù)將在未來作為基礎(chǔ)設(shè)施繼續(xù)發(fā)揮重要作用,為行業(yè)的進步和創(chuàng)新提供有力支持。