N層向量空間模型在Web信息檢索中的實(shí)現(xiàn)
出處:劉志為 何丕廉 孫越恒 鄭小慎 發(fā)布于:2011-08-31 14:19:32
隨著互聯(lián)網(wǎng)和萬(wàn)維網(wǎng)(World Wide Web)的快速繁榮發(fā)展,萬(wàn)維網(wǎng)逐漸成為人們生活中不可或缺的一種信息獲取來(lái)源。萬(wàn)維網(wǎng)給信息檢索技術(shù)帶來(lái)了極大的機(jī)遇和挑戰(zhàn)。經(jīng)過(guò)近十幾年的發(fā)展,信息檢索已經(jīng)由一個(gè)純粹的學(xué)術(shù)研究學(xué)科轉(zhuǎn)變成大多數(shù)人信息獲取的技術(shù)基礎(chǔ)。 隨著Web 2.0概念的普及和發(fā)展,萬(wàn)維網(wǎng)不再僅僅是一個(gè)巨大的信息庫(kù),更逐漸成為一個(gè)用戶(hù)參與和交流的平臺(tái)。Web 2.0應(yīng)用網(wǎng)站的蓬勃發(fā)展將再次推動(dòng)信息檢索技術(shù)的革新。在Web 2.0時(shí)代,信息檢索技術(shù)主要有以下三方面的發(fā)展趨勢(shì):1)更加靈活的個(gè)性化信息服務(wù)。隨著用戶(hù)的急劇增加,Web 2.0網(wǎng)站迫切需要滿(mǎn)足用戶(hù)的個(gè)性化信息需求。然而,傳統(tǒng)的Web信息檢索技術(shù)并不擅長(zhǎng)處理Web 2.0應(yīng)用的復(fù)雜結(jié)構(gòu)數(shù)據(jù)。Web 2.0需要更加靈活的個(gè)性化信息服務(wù),如信息推薦系統(tǒng)。2)更加有效的多媒體數(shù)據(jù)檢索技術(shù)。隨著Web 2.0的普及,用戶(hù)可以很方便地上傳和分享多媒體信息。多媒體數(shù)據(jù)的迅速增多使得多媒體信息檢索技術(shù)成為人們關(guān)注的焦點(diǎn)。
本文在傳統(tǒng)向量空間模型的基礎(chǔ)上提出一種新的檢索方法,將N層向量空間模型應(yīng)用在Web信息檢索上,使之能較好地適應(yīng)文檔集合的動(dòng)態(tài)擴(kuò)充。理論分析和實(shí)驗(yàn)結(jié)果表明,此方法能夠進(jìn)一步提高向量空間模型的性能,節(jié)省存儲(chǔ)空間,加快檢索速度,具有較高的和召回率。
1 向量空間模型
1.1 傳統(tǒng)向量空間模型
向量空間或稱(chēng)線性空間,是現(xiàn)代數(shù)學(xué)中的一個(gè)基本概念,是線性代數(shù)研究的基本對(duì)象。 向量空間是線性代數(shù)的主體,它是數(shù)學(xué)中基本又重要的概念,其概念是:設(shè)V為n維向量的集合,如果集合V非空,且集合V對(duì)于加法及乘數(shù)兩種運(yùn)算封閉,那么就稱(chēng)集合V為向量空間。其理論和方法已應(yīng)用到自然科學(xué)、工程技術(shù)及社會(huì)科學(xué)的諸多領(lǐng)域。向量空間的一個(gè)直觀模型是向量幾何,幾何上的向量及相關(guān)的運(yùn)算即向量加法,標(biāo)量乘法,以及對(duì)運(yùn)算的一些限制如封閉性,結(jié)合律,已大致地描述了"向量空間"這個(gè)數(shù)學(xué)概念的直觀形象。
向量空間模型的出發(fā)點(diǎn)是:每篇文檔和查詢(xún)都包含一些用概念詞表達(dá)的、揭示其內(nèi)容的獨(dú)立屬性,而每個(gè)屬性都可以看成是概念空間的一個(gè)維數(shù)。因此,文檔和查詢(xún)就可以表示為這些屬性的集合,從而忽略了文本結(jié)構(gòu)中段落、句子及詞語(yǔ)之間的復(fù)雜關(guān)系。這樣,文檔和查詢(xún)可以分別用空間的一個(gè)點(diǎn)表示,并且文檔矢量與查詢(xún)矢量之間就存在空間上的不同距離,而這種距離關(guān)系在信息檢索中的意義就是文檔與查詢(xún)之間的相似度。所以,文檔與查詢(xún)之間的相似度可以用矢量間的距離來(lái)衡量。相似度的計(jì)算方法有很多種,本文采用余弦系數(shù)法,即用二個(gè)矢量之間的夾角的余弦來(lái)表示文檔與查詢(xún)間的相關(guān)度。夾角越大,距離越遠(yuǎn),余弦越小,相關(guān)度越小,反之相關(guān)度越大。下面介紹向量空間模型的量化方法。
tfij為特征項(xiàng)tj在文檔di中出現(xiàn)的頻率;dfj為在整個(gè)文檔集中,包含特征項(xiàng)tj的文檔數(shù);idfj為反轉(zhuǎn)文檔頻數(shù),其值為:

可見(jiàn),傳統(tǒng)的向量空間模型是以文本特征項(xiàng)的頻率tf和反轉(zhuǎn)文檔頻率idf作為其量化基礎(chǔ)的。其乘積作為特征項(xiàng)的權(quán)重,再通過(guò)計(jì)算文檔與查詢(xún)之間的相似度即可判斷文檔與查詢(xún)是否相關(guān)。權(quán)重值大的特征項(xiàng)是那些在文檔中出現(xiàn)頻率足夠高,但在整個(gè)文檔集的其他文檔中出現(xiàn)頻率足夠少的詞語(yǔ),也是對(duì)區(qū)別文檔有意義的詞語(yǔ)。
1.2 N層向量空間模型
將一篇文檔從組織結(jié)構(gòu)上劃分為N層,基于每層的文本內(nèi)容建立相應(yīng)的特征項(xiàng)向量和權(quán)值。其中特征項(xiàng)抽取和權(quán)重計(jì)算等同傳統(tǒng)向量空間模型相同。這樣,對(duì)于文檔進(jìn)行N層劃分得到的向量空間模型就成為N層向量空間模型。
本文針對(duì)Web信息檢索進(jìn)行考慮,由于Web頁(yè)面的特殊格式,要求一篇文檔少是由指向該文檔的鏈接、文檔標(biāo)題和文檔正文三部分組成。而這三部分的內(nèi)容對(duì)于這篇文檔的表達(dá)能力是不同的。鏈接的文字是吸引別人點(diǎn)擊文檔進(jìn)行閱讀的通道,所以鏈接的內(nèi)容表達(dá)文檔的能力強(qiáng),其次是標(biāo)題,正文的內(nèi)容表達(dá)文檔的能力弱。
因此,將N層向量空間模型應(yīng)用在Web信息檢索時(shí),可將一篇Web文檔按照指向文檔的鏈接、標(biāo)題和正文劃分成3層(若Web頁(yè)面中有<meta keyword>等標(biāo)記的關(guān)鍵字部分,則可劃分為4層向量空間模型。)。
2 應(yīng)用N層向量空間模型進(jìn)行Web信息檢索
2.1 文本向量表示形式的改進(jìn)
向量空間模型在建完索引以后,要根據(jù)每一個(gè)特征項(xiàng)求其對(duì)于每一篇文檔和查詢(xún)的權(quán)重值。其計(jì)算量非常大,并且每一篇文檔和查詢(xún)的向量表示式為
,其中大多數(shù)項(xiàng)都為零,所以導(dǎo)致了數(shù)據(jù)稀疏現(xiàn)象。另外由于Web頁(yè)面的超鏈性(hyperlink),頁(yè)面上顯示的信息有很多是和本頁(yè)內(nèi)容無(wú)關(guān)的,例如別的頁(yè)面的鏈接、版權(quán)信息、欄目導(dǎo)航等,在每個(gè)頁(yè)面上都有重復(fù)出現(xiàn),這干擾了相似度計(jì)算。為解決這些問(wèn)題,首先引入停用詞表,例如文檔中很多不能說(shuō)明文檔內(nèi)容的語(yǔ)法詞,還有虛詞、感嘆詞、連詞等或各個(gè)文檔共有的詞,所有這些詞作為描述文檔的向量效率是非常低的。因此可以考慮降維處理,把它們作為停用詞,不計(jì)算其權(quán)重;其次,采用壓縮矩陣的辦法來(lái)解決數(shù)據(jù)稀疏問(wèn)題,定義文檔和查詢(xún)的向量表示形式為:<……,(ti,ωdi),……>,其中ti為第i個(gè)特征項(xiàng),ωdi為其對(duì)應(yīng)的權(quán)重值且ωdi≠0.這樣既減少了計(jì)算量,又加快了計(jì)算速度,同時(shí)節(jié)省了存儲(chǔ)空間。
2.2 特征項(xiàng)頻率統(tǒng)計(jì)的改進(jìn)
在統(tǒng)計(jì)每個(gè)區(qū)域的特征項(xiàng)頻率得到tfij后,要乘以一個(gè)反映其重要程度的比例系數(shù)來(lái)加以修正和調(diào)整,則特征項(xiàng)tj在文檔di中出現(xiàn)的頻率為:
![]()
其中:tfiji為第i個(gè)區(qū)域的頻率(i為1、2、3時(shí)分別對(duì)應(yīng)鏈接區(qū)域、標(biāo)題區(qū)域、正文區(qū)域),α>β>γ≥1為比例系數(shù)。
同樣,在文檔同一區(qū)域中,不同的特征項(xiàng)所表達(dá)文檔內(nèi)容的能力也是有差別的。例如同在正文區(qū)域的不同的特征項(xiàng)所代表文檔的內(nèi)容就有可能不同。在計(jì)算特征項(xiàng)頻率tfij時(shí)再乘以一個(gè)比例因子log2(M/mi),其中M為該特征項(xiàng)在本文檔中共出現(xiàn)的次數(shù),mi為該特征項(xiàng)在文檔第i次出現(xiàn)的次數(shù)。這樣,特征項(xiàng)tj在文檔di中出現(xiàn)的頻率調(diào)整為:

2.3 傳統(tǒng)向量空間模型與N層向量空間模型的算法復(fù)雜度比較
表1為傳統(tǒng)向量空間模型與N層向量空間模型的算法復(fù)雜度比較結(jié)果。

3 實(shí)驗(yàn)設(shè)置
(1)信息檢索實(shí)驗(yàn)系統(tǒng)。信息檢索實(shí)驗(yàn)系統(tǒng)選用了Smart系統(tǒng)。SMArt系統(tǒng)是基于向量空間檢索模型實(shí)現(xiàn)的信息檢索系統(tǒng)。在本實(shí)驗(yàn)中,為便于實(shí)現(xiàn)對(duì)向量空間模型算法的修改,使用的是經(jīng)過(guò)修改的Smart信息檢索系統(tǒng)。
(2)測(cè)試集。測(cè)試集分為文檔和查詢(xún)(query)二部分:文檔部分采用新浪網(wǎng)站(www.sina.com.cn)的新聞部分Web版(32,145篇)。查詢(xún)部分使用新浪網(wǎng)站的新聞?dòng)懻摌?biāo)題,共50個(gè)。
(3)評(píng)價(jià)方法。本系統(tǒng)使用和召回率來(lái)評(píng)價(jià)。是檢索出來(lái)的相關(guān)文檔數(shù)和檢索出來(lái)的總文檔數(shù)的比值;召回率是檢索出來(lái)的相關(guān)文檔數(shù)和總的相關(guān)文檔數(shù)的比值。通常,召回率越高,越低;反之越高,召回率越低。所以有說(shuō)服力的是11個(gè)點(diǎn)的平均。世界上權(quán)威的文本檢索評(píng)測(cè)會(huì)議TREC(Text Retrieval Conference)的評(píng)測(cè)依據(jù)就是這個(gè)值。本系統(tǒng)將只提供這個(gè)值。
4 實(shí)驗(yàn)結(jié)果
這里對(duì)傳統(tǒng)的向量空間模型算法和改進(jìn)后的向量空間算法進(jìn)行了比較,并統(tǒng)計(jì)了對(duì)應(yīng)于每一條查詢(xún)的11個(gè)點(diǎn)處的平均值。其結(jié)果如表2所示。

因?yàn)槠骄祪H僅是11個(gè)點(diǎn)處的值的平均值,為了進(jìn)一步說(shuō)明問(wèn)題,圖1給出了這幾次檢索的-召回率曲線。

從圖1中可以看出,改進(jìn)向量空間模型在索引時(shí)間和上都要優(yōu)于傳統(tǒng)向量空間,性能有了很大的提高。
本文提出了一種應(yīng)用N層向量空間模型算法用于Web信息檢索的辦法。理論分析和實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的方法大大提高了Web信息檢索的性能,節(jié)省了存儲(chǔ)空間,加快了計(jì)算速度,具有較高的和召回率。
版權(quán)與免責(zé)聲明
凡本網(wǎng)注明“出處:維庫(kù)電子市場(chǎng)網(wǎng)”的所有作品,版權(quán)均屬于維庫(kù)電子市場(chǎng)網(wǎng),轉(zhuǎn)載請(qǐng)必須注明維庫(kù)電子市場(chǎng)網(wǎng),http://hbjingang.com,違反者本網(wǎng)將追究相關(guān)法律責(zé)任。
本網(wǎng)轉(zhuǎn)載并注明自其它出處的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性,不承擔(dān)此類(lèi)作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)轉(zhuǎn)載時(shí),必須保留本網(wǎng)注明的作品出處,并自負(fù)版權(quán)等法律責(zé)任。
如涉及作品內(nèi)容、版權(quán)等問(wèn)題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。
- 工業(yè)5G技術(shù)在智能制造中的應(yīng)用與實(shí)踐解析2025/12/31 10:57:21
- 工業(yè)以太網(wǎng)交換機(jī)選型與現(xiàn)場(chǎng)應(yīng)用技術(shù)指南2025/12/18 10:48:14
- 無(wú)線傳輸電路基礎(chǔ),射頻前端設(shè)計(jì)、天線匹配與鏈路預(yù)算計(jì)算2025/10/27 13:55:50
- ASK 解調(diào)的核心要點(diǎn)與實(shí)現(xiàn)方式2025/9/5 16:46:17
- 雙偶極子天線:結(jié)構(gòu)、特性與應(yīng)用全解析2025/9/3 10:29:21
- 編碼器的工作原理及作用1
- 超強(qiáng)整理!PCB設(shè)計(jì)之電流與線寬的關(guān)系2
- 三星(SAMSUNG)貼片電容規(guī)格對(duì)照表3
- 電腦藍(lán)屏代碼大全4
- 國(guó)標(biāo)委發(fā)布《電動(dòng)汽車(chē)安全要求第3部分:人員觸電防護(hù)》第1號(hào)修改單5
- 通俗易懂談上拉電阻與下拉電阻6
- 繼電器的工作原理以及驅(qū)動(dòng)電路7
- 電容單位8
- 跟我學(xué)51單片機(jī)(三):?jiǎn)纹瑱C(jī)串口通信實(shí)例9
- 一種三極管開(kāi)關(guān)電路設(shè)計(jì)10
- 高速PCB阻抗控制核心實(shí)操規(guī)范
- 高速數(shù)字系統(tǒng)(如DDR、SerDes)中的信號(hào)完整性濾波
- MOSFET在UPS電源中的應(yīng)用解析
- 電源管理IC在物聯(lián)網(wǎng)設(shè)備中的應(yīng)用
- SMT連接器焊接缺陷分析
- MOSFET在汽車(chē)電子中的應(yīng)用要求
- 通信設(shè)備電源管理IC應(yīng)用解析
- 通信設(shè)備連接器選型與設(shè)計(jì)
- PCB電磁兼容性(EMC)設(shè)計(jì)核心實(shí)操規(guī)范
- 物聯(lián)網(wǎng)節(jié)點(diǎn)低功耗設(shè)計(jì):信號(hào)鏈中的濾波與功耗管理









