單詞語(yǔ)義化表示了它的意義。

事物的語(yǔ)義化意味著事物。

Web 語(yǔ)義化 = Web的意義。


什么是 Web 語(yǔ)義化?

什么是語(yǔ)義化?其實(shí)簡(jiǎn)單說(shuō)來(lái)就是讓機(jī)器可以讀懂內(nèi)容。

  • 甲殼蟲(chóng)樂(lè)隊(duì)是一個(gè)來(lái)自利物浦受歡迎的樂(lè)隊(duì)。

  • 約翰列儂是披頭士樂(lè)隊(duì)的成員。

  • "Hey Jude"是由披頭士的代表作。

我們可以很容易理解上面的句子的意義。但這些語(yǔ)句怎么 被計(jì)算機(jī)理解呢?

語(yǔ)句由語(yǔ)法規(guī)則創(chuàng)建。語(yǔ)言的語(yǔ)法定義了創(chuàng)建語(yǔ)言語(yǔ)句的規(guī)則。但是如何讓語(yǔ)法變?yōu)檎Z(yǔ)義呢?

語(yǔ)義網(wǎng)是讓機(jī)器可以理解數(shù)據(jù)。語(yǔ)義網(wǎng)技術(shù),它包括一套描述語(yǔ)言和推理邏輯。它包通過(guò)一些格式對(duì)本體(Ontology)進(jìn)行描述。

語(yǔ)義網(wǎng)并不是網(wǎng)頁(yè)之間的鏈接。

語(yǔ)義網(wǎng)描述了事物之間的關(guān)聯(lián)((如 A 是 B的一部分,Y 是 Z 的成員)及事物的屬性(如大小,高度,年齡,價(jià)格等)。

The Web

語(yǔ)義網(wǎng)的實(shí)現(xiàn)是基于XML(可擴(kuò)展標(biāo)記語(yǔ)言eXtensible Markup Langauge)語(yǔ)言和資源描述框架(RDF)來(lái)完成的。XML是一種用于定義標(biāo)記語(yǔ)言的工具,其內(nèi)容包括XML聲明、用以定義語(yǔ)言語(yǔ)法的DTD (document type declaration文檔類(lèi)型定義)、描述標(biāo)記的詳細(xì)說(shuō)明以及文檔本身。而文檔本身又包含有標(biāo)記和內(nèi)容。RDF則用以表達(dá)網(wǎng)頁(yè)的內(nèi)容。



資源描述框架

RDF(Resource Description Framework),即資源描述框架,是W3C推薦的用來(lái)描述WWW上的信息資源及其之間關(guān)系的語(yǔ)言規(guī)范。

RDF(S)是語(yǔ)義網(wǎng)的重要組成部分,它使用URI來(lái)標(biāo)識(shí)不同的對(duì)象(包括資源節(jié)點(diǎn)、屬性類(lèi)或?qū)傩灾担┎⒖蓪⒉煌腢RI連接起來(lái),清楚表達(dá)對(duì)象間的關(guān)系。



實(shí)現(xiàn)

語(yǔ)義網(wǎng)雖然是一種更加美好的網(wǎng)絡(luò),但實(shí)現(xiàn)起來(lái)卻是一項(xiàng)復(fù)雜而浩大的工程。 目前語(yǔ)義網(wǎng)的體系結(jié)構(gòu)正在建設(shè)中,主要需要以下兩方面的支持:

(1) 數(shù)據(jù)網(wǎng)絡(luò)的實(shí)現(xiàn)

即:通過(guò)一套統(tǒng)一的完善的數(shù)據(jù)標(biāo)準(zhǔn)對(duì)網(wǎng)絡(luò)信息進(jìn)行更徹底更詳細(xì)的標(biāo)記,使得語(yǔ)義網(wǎng)能夠精準(zhǔn)的識(shí)別信息,區(qū)分信息的作用和含義 要使語(yǔ)義網(wǎng)搜索更精確徹底,更容易判斷信息的真假,從而達(dá)到實(shí)用的目標(biāo),首先需要制訂標(biāo)準(zhǔn),該標(biāo)準(zhǔn)允許用戶(hù)給網(wǎng)絡(luò)內(nèi)容添加元數(shù)據(jù)(即解釋詳盡的標(biāo)記),并能讓用戶(hù)精確地指出他們正在尋找什么;然后,還需要找到一種方法,以確保不同的程序都能分享不同網(wǎng)站的內(nèi)容;最后,要求用戶(hù)可以增加其他功能,如添加應(yīng)用軟件等。

語(yǔ)義網(wǎng)的實(shí)現(xiàn)是基于XML(可擴(kuò)展標(biāo)記語(yǔ)言eXtensible Markup Langauge)語(yǔ)言和資源描述框架(RDF)來(lái)完成的。XML是一種用于定義標(biāo)記語(yǔ)言的工具,其內(nèi)容包括XML聲明、用以定義語(yǔ)言語(yǔ)法的DTD (document type declaration文檔類(lèi)型定義)、描述標(biāo)記的詳細(xì)說(shuō)明以及文檔本身。而文檔本身又包含有標(biāo)記和內(nèi)容。RDF則用以表達(dá)網(wǎng)頁(yè)的內(nèi)容。

(2)具有語(yǔ)義分析能力的搜索引擎

如果說(shuō)數(shù)據(jù)網(wǎng)絡(luò)能夠短時(shí)間通過(guò)億萬(wàn)的個(gè)體實(shí)現(xiàn),那么網(wǎng)絡(luò)的語(yǔ)義化智能化就要通過(guò)人類(lèi)尖端智慧群體的努力實(shí)現(xiàn)。研發(fā)一種具有語(yǔ)義分析能力的信息搜索引擎將成為語(yǔ)義網(wǎng)的最重要一步,這種引擎能夠理解人類(lèi)的自然語(yǔ)言,并且具有一定的推理和判斷能力。

語(yǔ)義搜索引擎(semantic search engine)和具有語(yǔ)義分析能力的搜索引擎(semantically enabled search engine)是兩碼事。前者不過(guò)是語(yǔ)義網(wǎng)絡(luò)的利用,一種信息搜索方式,而具有語(yǔ)義分析能力的搜索引擎是一種能夠理解自然語(yǔ)言,通過(guò)計(jì)算機(jī)的推理而進(jìn)一步提供更符合用戶(hù)心理的答案。


前景

語(yǔ)義網(wǎng)的體系結(jié)構(gòu)正在建設(shè)中,當(dāng)前國(guó)際范圍內(nèi)對(duì)此體系結(jié)構(gòu)的研究還沒(méi)有形成一個(gè)令人滿(mǎn)意的嚴(yán)密的邏輯描述與理論體系,中國(guó)學(xué)者對(duì)該體系結(jié)構(gòu)也只是在國(guó)外研究的基礎(chǔ)上做簡(jiǎn)要的介紹,還沒(méi)有形成系統(tǒng)的闡述。

語(yǔ)義網(wǎng)的實(shí)現(xiàn)需要三大關(guān)鍵技術(shù)的支持:XML、RDF和Ontology。

XML(eXtensible Marked Language,即可擴(kuò)展標(biāo)記語(yǔ)言)可以讓信息提供者根據(jù)需要,自行定義標(biāo)記及屬性名,從而使XML文件的結(jié)構(gòu)可以復(fù)雜到任意程度。

它具有良好的數(shù)據(jù)存儲(chǔ)格式和可擴(kuò)展性、高度結(jié)構(gòu)化以及便于網(wǎng)絡(luò)傳輸?shù)葍?yōu)點(diǎn),再加上其特有的NS機(jī)制及XML Schema所支持的多種數(shù)據(jù)類(lèi)型與校驗(yàn)機(jī)制,使其成為語(yǔ)義網(wǎng)的關(guān)鍵技術(shù)之一。

目前關(guān)于語(yǔ)義網(wǎng)關(guān)鍵技術(shù)的討論主要集中在RDF和Ontology身上。

RDF是W3C組織推薦使用的用來(lái)描述資源及其之間關(guān)系的語(yǔ)言規(guī)范,具有簡(jiǎn)單、易擴(kuò)展、開(kāi)放性、易交換和易綜合等特點(diǎn)。

值得注意的是,RDF 只定義了資源的描述方式,卻沒(méi)有定義用哪些數(shù)據(jù)描述資源。RDF由三個(gè)部分組成:RDF Data Model、RDF Schema和RDF Syntax。

附上:

1.語(yǔ)義網(wǎng)通過(guò)擴(kuò)展現(xiàn)有的互聯(lián)網(wǎng),在信息中加入表示其含義的內(nèi)容,使計(jì)算機(jī)可以自動(dòng)與人協(xié)同工作。也就是說(shuō),語(yǔ)義網(wǎng)中的各種資源不再只是各種相連的信息,還包括其信息的真正含義,從而提高計(jì)算機(jī)處理信息的自動(dòng)化和智能化。當(dāng)然,計(jì)算機(jī)并不具有真正的智能,語(yǔ)義網(wǎng)的建立需要研究者們對(duì)信息進(jìn)行有效的表示,制定統(tǒng)一的標(biāo)準(zhǔn),使計(jì)算機(jī)可以對(duì)信息進(jìn)行有效的自動(dòng)處理。

(來(lái)源:何斌 張立厚《信息管理原理與方法》 清華大學(xué)出版社 2007年7月第二版)

2e5f2342fce47d514dc298da7f3f484f_m

語(yǔ)義網(wǎng)體系結(jié)構(gòu)

  • 第一層:Unicode與URI,是整個(gè)體系結(jié)構(gòu)的基礎(chǔ)。

  • 第二層:XML+NS+XMLSchema,負(fù)責(zé)語(yǔ)法上表示數(shù)據(jù)的內(nèi)容和結(jié)構(gòu),通過(guò)使用標(biāo)準(zhǔn)的格式語(yǔ)言將網(wǎng)絡(luò)信息的表現(xiàn)形式、數(shù)據(jù)結(jié)構(gòu)和內(nèi)容分離。

  • 第三層:RDF+RDF Schema,它提供語(yǔ)義模型用于描述網(wǎng)上的信息和類(lèi)型。其中,RDF(Resource Description Framework),即資源描述框架,是W3C推薦的用來(lái)描述WWW上的信息資源及其之間關(guān)系的語(yǔ)言規(guī)范。RDF(S)是語(yǔ)義網(wǎng)的重要組成部分,它使用URI來(lái)標(biāo)識(shí)不同的對(duì)象(包括資源節(jié)點(diǎn)、屬性類(lèi)或?qū)傩灾担┎⒖蓪⒉煌腢RI連接起來(lái),清楚表達(dá)對(duì)象間的關(guān)系。

  • 第四層:本體詞匯層,本體是關(guān)于領(lǐng)域知識(shí)的概念化、形式化的明確規(guī)范。在語(yǔ)義網(wǎng)體系結(jié)構(gòu)中,本體的作用主要表現(xiàn)在:(1).概念描述,即通過(guò)概念描述揭示領(lǐng)域知識(shí);(2).語(yǔ)義揭示,本體具有比RDF更強(qiáng)的表達(dá)能力,可以揭示更為豐富的語(yǔ)義關(guān)系;(3).一致性,本體作為領(lǐng)域知識(shí)的明確規(guī)范,可以保證語(yǔ)義的一致性,從而徹底解決一詞多義、多詞一義和詞義含糊現(xiàn)象;(4). 推理支持,本體在概念描述上的確定性及其強(qiáng)大的語(yǔ)義揭示能力在數(shù)據(jù)層面有力地保證了推理的有效性。

  • 第五層:邏輯層,負(fù)責(zé)提供公理和推理原則,為智能服務(wù)提供基礎(chǔ)。其中,描述邏輯(DescriptionLogic)是基于對(duì)象的知識(shí)表示的形式化,它吸取了KL-ONE的主要思想,是一階謂詞邏輯的一個(gè)可判定子集。它與一階謂詞邏輯不同的是,描述邏輯系統(tǒng)能提供可判定的推理服務(wù)。除了知識(shí)表示以外,描述邏輯還用在其它許多領(lǐng)域,它被認(rèn)為是以對(duì)象為中心的表示語(yǔ)言的最為重要的歸一形式。描述邏輯的重要特征是很強(qiáng)的表達(dá)能力和可判定性,它能保證推理算法總能停止,并返回正確的結(jié)果。在眾多知識(shí)表示的形式化方法中,描述邏輯在十多年來(lái)受到人們的特別關(guān)注,主要原因在于:它們有清晰的模型-理論機(jī)制;很適合于通過(guò)概念分類(lèi)學(xué)來(lái)表示應(yīng)用領(lǐng)域;并提供了很用的推理服務(wù)。

  • 第六層證明層和第七層信任層負(fù)責(zé)提供認(rèn)證和信任機(jī)制。