掃碼下載APP
及時接收最新考試資訊及
備考信息
【摘 要】XBRL是XML在商業(yè)報告領(lǐng)域的規(guī)范化,發(fā)展步伐迅猛。XBRL吸收了XML的結(jié)構(gòu)層次特點,并有其獨特的地方。它通過分層機制,有利于把握商業(yè)事實內(nèi)在語義,便于計算機理解,促進了財務(wù)信息數(shù)據(jù)挖掘。
【關(guān)鍵詞】XBRL; XML; 層次結(jié)構(gòu); 數(shù)據(jù)挖掘
XBRL(eXtensible Business Reporting Language,可擴展商業(yè)報告語言)是用于企業(yè)財務(wù)數(shù)據(jù)電子交流的語言,是一種基于XML語言的實現(xiàn)(準確的說是規(guī)范化)。上世紀90年代末美國首先提出XBRL理論,很快為實務(wù)界所采納,短短幾年之內(nèi),XBRL得到超乎尋常的發(fā)展。在XBRL國際組織(xbrl.org)的推動下,目前XBRL在全球范圍內(nèi)已經(jīng)被大多數(shù)會計師事務(wù)所、貿(mào)易機構(gòu)、軟件開發(fā)商、金融機構(gòu)、投資者以及政府機構(gòu)采用。
現(xiàn)在對XBRL的研究普遍存在僅從技術(shù)上理解的傾向,但其實際情況并非如此。XBRL的廣泛傳播并不是僅僅是由于技術(shù)規(guī)范的成熟和標準的整齊劃一,更重要的是因為它對于現(xiàn)實生活中商業(yè)行為的深刻理解和語義層面的把握,才使得不同語法形式下(外在表現(xiàn)為異質(zhì)平臺)信息共享成為可能,極大地促進了財務(wù)信息數(shù)據(jù)挖掘的進行,滿足了決策者對有用信息和知識的需求。本文將探討XBRL的層次結(jié)構(gòu)特點,以說明為何它能有效地把握語義信息及由此而產(chǎn)生的數(shù)據(jù)挖掘問題。
一、XML層次結(jié)構(gòu)與計算機理解
XBRL是XML在商業(yè)報告領(lǐng)域的應用。XML是一種面向計算機的使用元數(shù)據(jù)標識信息的標準化結(jié)構(gòu);XBRL則給出了元數(shù)據(jù)的一個規(guī)范化,并簡單定義了財務(wù)報告文檔信息標記的語義關(guān)系。
XBRL,或者說XML之所以要采用層次結(jié)構(gòu)的方式,是因為人和計算機對事物的理解,都是分層的。
筆者采用自然語言描述這樣一個事實——“紅星股份有限公司2006年年報總資產(chǎn)是1 000萬元”,我們理解這一語句的過程大致分為這么幾步:分析語句語法結(jié)構(gòu)為“<主語名詞詞組>(<‘是’><數(shù)量詞賓語>=”,此語法結(jié)構(gòu)對應的語義解釋規(guī)則為“(等值于)(個體—>屬性,數(shù)量值)”,據(jù)此語句解釋為“(等值于)(紅星股份有限公司—>總資產(chǎn),1 000萬元)”;至此解釋并沒有完成,而只是把對象語言的自然語言形式轉(zhuǎn)化為了元語言的邏輯函數(shù)形式,對對象語言的理解也轉(zhuǎn)化為了對邏輯函數(shù)的理解。要理解這一邏輯函數(shù)項,需要解釋等值關(guān)系、年報總資產(chǎn)等語義要素的含義,對這些要素的理解又需要訴諸于更上一層的元語言。由此每一層次的語言都需要在更上一層的元語言中實現(xiàn)語義解釋。當然,如此反復將導致無限循環(huán),可能存在語義解釋系統(tǒng)都以一定的假設(shè)(尤其是對某些形而上命題的假設(shè),亦即本體論)為起點。以W3C總監(jiān)Tim Berners-Lee在XML2000年會上提出的語義Web為例,其意義解釋層次結(jié)構(gòu)如圖1所示。
這一層次結(jié)構(gòu)中,只有XML層、RDF層、Ontology層、Logic層是為語言解釋而設(shè)計的,這四個層次本身還可以進一步劃分。XML文檔描述的是信息內(nèi)容,NS定義了信息內(nèi)容的訪問地址標識,XML Schema則規(guī)定了文檔的語法格式;RDF提供了標準的元數(shù)據(jù)語義描述規(guī)范;而本體論(ontology)在RDFs基礎(chǔ)上定義了領(lǐng)域共享概念的形式化顯式說明,Ontology一般分為頂層本體、領(lǐng)域本體、任務(wù)本體、應用本體;邏輯層則(Logic)提供了基于本體進行邏輯推理的規(guī)則,它目前有SWRL(Semantic Web Rule Language)與ORL(OWL Rule Language)兩個提案,未形成標準。
相比HTML及PDF的會計信息表述形式,XML的優(yōu)勢在于可標識信息的語義項,這種標識是對計算機而言的。以“投資收益1 000萬元”為例,PDF與HTML等方式只是通過網(wǎng)絡(luò)傳遞人類能通過視覺系統(tǒng)將其中的信息項“投資收益”與值項“1 000”相對應起來的、顯示在屏幕上或打印到紙上的“電子圖紙”;而在XML里,我們可以通過標簽來唯一地標識信息項,如1000表示投資收益1 000萬元,計算機可以輕松地通過查找各上市公司發(fā)布財務(wù)報表的固定網(wǎng)址上的標簽來獲得各上市公司投資收益。而對PDF與HTML文檔,計算機只能將整篇的文檔匯總到一起供我們集中閱讀。
XML的思想精髓在于分層,實現(xiàn)“信息顯示與信息內(nèi)容相分離”、“信息內(nèi)容與信息語法格式相分離”、“語法格式與語義規(guī)則相分離”、“語義規(guī)則與本體論相分離”。分層機制將語義解釋轉(zhuǎn)化為了對樹形結(jié)構(gòu)文檔的解讀問題,這使得計算機能夠使用一個相似的遞歸算法來實現(xiàn),大大降低了工程實踐的難度,也從實踐的角度佐證了語義解釋亦是遞歸計算。不過不能因此而認為樹形結(jié)構(gòu)的XML文件就完整地表示了信息語義關(guān)系,XML不過是信息的語法形式,盡管語義解釋的元語言語句也可以是XML(事實上Schema、RDF、OWL都采用樹形文檔結(jié)構(gòu)),但邏輯上兩者處于不同層次上。
狹義地講,計算機對XML的理解是根據(jù)Schema文檔定義的語法要素(element)及要素之間的組合關(guān)系(complexType)識別出XML實例文檔中語法要素,并據(jù)此建立語法要素與信息內(nèi)容之間的關(guān)聯(lián)。但如果沒有RDF、OWL、Logic層次的支持,計算機理解只可能是限定于特定語言層次上的形式化理解。從廣義上看,XML是一個包含了RDF、OWL、Logic的完整體系結(jié)構(gòu),計算機理解實質(zhì)上是借助于遞歸算法,對各層次的關(guān)系完整把握。
二、XBRL的層次結(jié)構(gòu)
作為XML的一個應用模式,XBRL的層次結(jié)構(gòu)也有其特點。可以將現(xiàn)有的XBRL分為三層:技術(shù)規(guī)格(specification)、分類標準(Taxonomy)和實例文檔(Instance Documents)。
技術(shù)規(guī)格,或稱說明、規(guī)范,主要用于定義XBRL的各種專門術(shù)語,描述了XBRL文件的結(jié)構(gòu),詳細規(guī)定了XBRL分類的標準和XBRL實例文檔的語法和語義。雖然有XML元素和屬性的語義上的表述,但XBRL規(guī)格是一項側(cè)重技術(shù)的文件,目的在于定義一項符合規(guī)范的XBRL文檔。
分類標準是財務(wù)報告發(fā)布的語法格式,也部分定義了各會計報表要素的“語義關(guān)系”。如“資產(chǎn)=負債+所有者權(quán)益”、“主營業(yè)務(wù)收入是利潤表的要素”、“Assets表達資產(chǎn)的概念”等等。分類標準由名為Taxonomy.xsd的XML Schema文檔與相關(guān)聯(lián)的五個XML鏈接庫文件(Definition.xml,Calculation.xml, Presentation.xml,Label.xml,Reference.xml)組成,Taxonomy定義的是報表的語法形式,鏈接庫文件定義的是報表語法要素的語義關(guān)系,其結(jié)構(gòu)如圖2所示。
XML鏈接庫文件是使用鏈接語言(XLink)定義的,并不局限于外在形式上標簽之間的鏈接(HTML鏈接則是外在形式上的鏈接),而是主要用來描述信息內(nèi)容標簽(元數(shù)據(jù))之間的聯(lián)系。XBRL的五個鏈接庫文件定義的是XBRL Schema文檔中各標簽之間的聯(lián)系,屬于XBRL Schema的元語言范疇。顯然,XBRL并未遵循語義Web的體系結(jié)構(gòu),其語義表達功能較為簡單。
Definition鏈接庫描述Schema文件中元素概念之間的關(guān)系,這些關(guān)系可取general-special、similar-tuples、essence-alias、requires-element等四種值,分別表示一般與特殊的種屬關(guān)系、不同XML視圖中的元組間的定義等價關(guān)系、概念間的相似關(guān)系、跟隨出現(xiàn)關(guān)系。Calculation鏈接庫定義了元素間的線性運算關(guān)系,具體關(guān)系式為“TO=FROM1*WEIGHT1+FROM2*WEIGHT2 +……+FROM-n*WEIGHT-n”。Label鏈接庫定義了Schema文檔中的元素與XML中標記的對應關(guān)系,實現(xiàn)一個元素與多個標記相關(guān)聯(lián)。Presentation鏈接庫規(guī)定了元素展現(xiàn)的父子關(guān)系與兄弟元素的展現(xiàn)次序。Reference鏈接庫建立了元素到元素涵義解釋的權(quán)威參考文獻鏈接。Label與Presentation定義的都是XBRL實例文檔的展示問題,而Reference顯然是為便于人類閱讀者索取各元素權(quán)威解釋而設(shè)計的,它們都不涉及信息項的語義關(guān)系定義;定義Schema元素語義關(guān)系的只有Definition與Calculation。
實例文檔是一個企業(yè)根據(jù)XBRL規(guī)范和XBRL分類標準做成的財務(wù)報表,它必須要同時滿足分類標準的定義和規(guī)范的限制。實例文檔封裝了具體的商業(yè)事實(fact),根據(jù)信息的匯集程度分為條目(item)、元組(tuple)、組(groups)三個不同層次。其中,條目通常與一個數(shù)字型的事實對應;元組是事實的聯(lián)合體,等同于關(guān)系數(shù)據(jù)庫里的一條記錄,組是實例文檔的根結(jié)點,由相關(guān)聯(lián)的數(shù)據(jù)項的集合構(gòu)成。在不知道分類標準的情況下,實例文檔沒有任何意義。用戶需要借助與分類標準和相應的軟件才能從XBRL實例中提取所需要的數(shù)據(jù)并加以分析。
可以看到,XBRL并沒有完全遵循語義Web的規(guī)范,試圖通過Definition鏈接庫和Calculation鏈接庫來把握財務(wù)對象的語義,這必將是不充分的。技術(shù)規(guī)格雖然也有一些專門術(shù)語語義層次上的表述,但總的來看,與XML存在的缺陷一樣,XBRL缺乏本體層概念關(guān)系定義和邏輯層的計算規(guī)則定義。
W3C也試圖致力于彌補這一缺陷。2004年提出標準化的本體語言O(shè)WL就代表了這方面的努力。OWL由OWL Lite、OWL DL(Description Logics)、OWL Full三個并列的子集構(gòu)成,OWL Lite用于表示只需一個分類層次和簡單約束關(guān)系的形式語義關(guān)系;OWL DL用于表示需要最強表達力且需要保持計算的完備性(即所有結(jié)論可計算)與可判定性(所有計算能夠在有限時間內(nèi)完成)的形式語義關(guān)系;OWL Full用于需要最強表達力且無法提供計算完備性與可判定性保證的形式語義關(guān)系。其中,OWL DL也提供了完備的實例、類、屬性、關(guān)系等元語言對象的表示工具。也就是說,OWL層提供了充分定義XBRL范疇概念關(guān)系的形式工具。
若OWL能夠得到充分的完善,必將為XBRL提供有力支持,彌補技術(shù)規(guī)范語義表達方面的不足??梢栽O(shè)想,較為理想的XBRL層次關(guān)系如圖3所示。
三、XBRL層次結(jié)構(gòu)引致的財務(wù)數(shù)據(jù)挖掘
數(shù)據(jù)挖掘(Data Mining,DM)是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的,但又是潛在的有用信息和知識的過程。相對于傳統(tǒng)的數(shù)據(jù)分析,數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識。
因為信息具有強烈的時效性,一旦為所有人所知曉,信息的價值就蕩然無存。在當今瞬息萬變的商業(yè)環(huán)境中,競爭的主要方式是信息的競爭,傳統(tǒng)的事后分析型的數(shù)據(jù)分析方法將被事前探索型的數(shù)據(jù)挖掘所取代。而與此同時,信息提供者之間也存在著激烈的競爭,如財務(wù)信息與非財務(wù)信息之間的競爭也日益激烈。XBRL的提出不但為財務(wù)信息提供者增加了競爭的籌碼,也直接推動了財務(wù)數(shù)據(jù)挖掘的開展。
XBRL的優(yōu)勢在其清晰的層次關(guān)系和語義表達能力。XBRL的層次結(jié)構(gòu)在財務(wù)數(shù)據(jù)挖掘的優(yōu)勢表現(xiàn)在:
?。ㄒ唬┛缙脚_使用
由于采用了XML的架構(gòu)體系,在不同的操作系統(tǒng)下,如Windows、Unix和Linux等,XBRL文件無需修改就可以直接使用。在不同的應用軟件中,即使所用的數(shù)據(jù)庫不同,只要轉(zhuǎn)換成XBRL格式,也可以實現(xiàn)數(shù)據(jù)的交換??缙脚_使用的關(guān)鍵在于XBRL實現(xiàn)了語法格式與語義規(guī)則分層,在圖3中表現(xiàn)為技術(shù)規(guī)范和分類標準的分層,從而使得XBRL在不同的技術(shù)實現(xiàn)之間沒有障礙。
?。ǘ?shù)據(jù)跟蹤
XBRL可以在不同的信息之間建立連接,跟蹤相關(guān)的信息線索,自頂向下地考察數(shù)據(jù)源直到底層的數(shù)據(jù),方便了對企業(yè)報告的閱讀和數(shù)據(jù)分析。XBRL的技術(shù)結(jié)構(gòu)使其具有良好的動態(tài)分析功能,計算機可以讀懂XBRL標記的含義,而且操作員也可以很容易地從文檔中獲取有價值的信息。當搜索引擎找到所需的信息時,它能進一步追蹤下去找到數(shù)據(jù)的最初來源及其它與該信息有關(guān)的資料。同時,完善的定義與唯一的XBRL要素使信息減少了模糊性。數(shù)據(jù)跟蹤的關(guān)鍵則在于OWL與分類標準的分層結(jié)構(gòu),通過對OWL的深入挖掘可發(fā)現(xiàn)分類標準中各元素之間的內(nèi)在聯(lián)系,在圖3中表現(xiàn)為OWL與分類標準的分層。
?。ㄈ┧阉骺焖佟蚀_
XBRL使用標簽描述數(shù)據(jù)的含義。在進行數(shù)據(jù)搜索時,不是像HTML那樣根據(jù)字面內(nèi)容進行搜索,而是根據(jù)標簽的語義進行定位,這樣搜索引擎就能夠快速、準確地找到用戶所需的特定信息。同時,由于XBRL采用標簽來標記數(shù)據(jù),可以通過應用程序?qū)λ阉鹘Y(jié)果中的數(shù)據(jù)進行匯總。其效率遠遠高于目前互聯(lián)網(wǎng)上的PDF、WORD和HTML等文件格式。而實現(xiàn)這一目標的要點在于圖3中分類標準與實例文檔的分層,清晰的分類有利于滿足豐富實例中信息的挖掘。
XBRL清晰的層次結(jié)構(gòu)關(guān)系不但支持了數(shù)據(jù)收集和數(shù)據(jù)預處理過程,也為各種適用于不同范圍與層次的數(shù)據(jù)挖掘工具提供了良好的材料。如在數(shù)據(jù)的預處理過程中,為對XBRL文檔進行存儲和校驗,可以借助于IPEDO XML智能處理平臺,利用其Schema Manager和XML Rule模塊在OWL和分類標準層次上搜集相關(guān)信息,然后對XBRL實例文檔進行校驗。
總之,XBRL的層次結(jié)構(gòu)特點為財務(wù)數(shù)據(jù)的挖掘提供了極大的方便,這是XBRL得到廣泛推崇的原動力之一。
四、結(jié)論
XBRL承繼了XML分層的機構(gòu)特征,有利于計算機對語義信息的把握和數(shù)據(jù)挖掘工具的使用,這是XBRL在短短幾年的時間里得到迅猛發(fā)展的重要原因。但是,XBRL作為XML在財務(wù)方面的實現(xiàn),也存在同樣的缺陷,缺乏本體層次上的有力支撐。相信隨著對其研究的深入開展和各領(lǐng)域本體構(gòu)建的完善,能夠彌補這方面的缺陷。
【主要參考文獻】
[1] 李雄飛,李軍.數(shù)據(jù)挖掘與知識發(fā)現(xiàn)[M].北京:高等教育出版社,2003.
[2] Bryan Bergeron. XBRL語言21世紀的財務(wù)報告[M]. 北京:中國人民大學出版社,2004.
[3] Tim Berners-Lee. Semantic Web - XML2000. http:∥www.w3.org/2000/Talks/ 1206-xml2k-tbl,2000-12-06.
[4] XBRL International. Extensible Business Reporting Language (XBRL)2.1 Specification. Http://www.xbrl.rog,2003-12-31.
Copyright © 2000 - m.8riaszlp.cn All Rights Reserved. 北京正保會計科技有限公司 版權(quán)所有
京B2-20200959 京ICP備20012371號-7 出版物經(jīng)營許可證 京公網(wǎng)安備 11010802044457號