日韩欧美自拍在线观看-欧美精品在线看片一区二区-高清性视频一区二区播放-欧美日韩女优制服另类-国产精品久久久久久av蜜臀-成人在线黄色av网站-肥臀熟妇一区二区三区-亚洲视频在线播放老色-在线成人激情自拍视频

概念網(wǎng)絡(luò)在文本分類中的應(yīng)用

出處:李小兵1,楊一平2,劉曙光1 發(fā)布于:2011-08-28 09:26:54

 

  隨著信息技術(shù)的不斷發(fā)展,特別是Internet應(yīng)用的普及,網(wǎng)上信息成指數(shù)級(jí)增長(zhǎng),如何自動(dòng)處理這些海量的信息,以有效地保留大的文本集合就成為了目前重要的研究課題。對(duì)文本進(jìn)行有效管理的方法之一,就是將它們進(jìn)行系統(tǒng)地分類,即文本自動(dòng)分類問題。文本自動(dòng)分類是一項(xiàng)重要的智能信息處理技術(shù),是文本檢索技術(shù)的基礎(chǔ),在新聞自動(dòng)分類、電子會(huì)議、電子郵件自動(dòng)分類和信息過濾等方面極具應(yīng)用價(jià)值。本文試圖用一種新的工具,即概念網(wǎng)絡(luò)和主題概念樹來解決文本分類的問題,它在一定程度上考慮了上下文對(duì)文本歸類的影響。

  1  概念網(wǎng)絡(luò)和主題概念樹

  1.1 概念網(wǎng)絡(luò)

  概念網(wǎng)絡(luò)是中國(guó)科學(xué)院自動(dòng)化所綜合信息系統(tǒng)研究中心在理論和實(shí)踐的基礎(chǔ)上對(duì)人工智能研究的一種探索,是面向多領(lǐng)域并以解決人工智能基礎(chǔ)問題為目標(biāo)所開發(fā)的知識(shí)表達(dá)框架體系。它從認(rèn)知心理學(xué)的角度解釋了思維活動(dòng)的基礎(chǔ)結(jié)構(gòu),提出了思維活動(dòng)的心理模型假說。概念網(wǎng)絡(luò)將概念作為意義的基本表達(dá)單元,依靠概念之間的各種關(guān)系形成意義主體相互作用的網(wǎng)絡(luò)。從概念網(wǎng)絡(luò)的構(gòu)造方式來說,概念網(wǎng)絡(luò)本身是一個(gè)知識(shí)表達(dá)框架體系。

  概念網(wǎng)絡(luò)理論使用屬性、關(guān)系和行為三個(gè)元素組來表達(dá)概念的內(nèi)涵。屬性是描述概念自身的固有特性,包括屬性類型、屬性名稱和屬性值,用來刻畫不同概念之間的區(qū)別;關(guān)系體現(xiàn)概念之間的聯(lián)系,在關(guān)系的作用下,由簡(jiǎn)單概念組成復(fù)雜概念,由具體概念得到抽象概念。關(guān)系的內(nèi)容包括關(guān)系的類型、關(guān)系的主體和關(guān)系的客體;行為的內(nèi)容包括行為的名稱、行為的類型、行為產(chǎn)生的前提條件和滿足前提條件下的作用。行為的結(jié)果是改變特定語(yǔ)義環(huán)境下,概念網(wǎng)絡(luò)中相關(guān)概念的狀態(tài)。行為是將概念網(wǎng)絡(luò)和其他語(yǔ)義網(wǎng)絡(luò)區(qū)分開的標(biāo)志,也是整個(gè)概念網(wǎng)絡(luò)認(rèn)知的源動(dòng)力。

  利用在概念網(wǎng)絡(luò)理論框架下開發(fā)出的概念網(wǎng)絡(luò)平臺(tái)--概念網(wǎng)絡(luò)管理中心(CMC),可以很方便地完成搭建領(lǐng)域知識(shí)概念網(wǎng)絡(luò)的工作。概念網(wǎng)絡(luò)平臺(tái)提供了概念的管理、概念關(guān)系的管理、概念行為的建立、概念檢索等與概念網(wǎng)絡(luò)有關(guān)的處理。目前它已經(jīng)將內(nèi)核組件化,可以方便于其他系統(tǒng)調(diào)用。在概念網(wǎng)絡(luò)平臺(tái)上,可以裝載某個(gè)領(lǐng)域,并定義領(lǐng)域中各個(gè)概念的屬性、行為以及概念與其他概念之間的關(guān)系。

  1.2 主題概念樹

  主題概念樹是針對(duì)傳統(tǒng)的主題詞分析法或整詞匹配法提出的。它以概念網(wǎng)絡(luò)中的知識(shí)表達(dá)方法為基礎(chǔ),把與某個(gè)主題概念相關(guān)的概念組織成一棵樹,稱為主題概念樹。它把原來分散的無(wú)關(guān)聯(lián)的詞匯在概念的層次上聯(lián)系起來,從而解決了文本內(nèi)容分析的語(yǔ)義基礎(chǔ)。主題概念樹中每一個(gè)葉節(jié)點(diǎn)都由一個(gè)概念或復(fù)合概念組成,由概念組成的葉節(jié)點(diǎn)如"雷達(dá)"、"細(xì)菌"等,而復(fù)合概念如"無(wú)線網(wǎng)絡(luò)"、"納米材料"等。這樣,在一篇文章中,如果并不經(jīng)常出現(xiàn)"納米材料"這樣的詞匯,而是常常討論納米和材料方面的內(nèi)容,則仍然會(huì)在"納米材料"這樣的節(jié)點(diǎn)上取得比較高的關(guān)聯(lián)度。主題概念樹的樹杈有二種類型,它們代表了上位概念與下位概念之間的關(guān)系:一是父-子繼承關(guān)系,二是屬主-成員的隸屬關(guān)系。由于這二類關(guān)系的性質(zhì)不同,故它們的上位概念受下位概念的語(yǔ)義影響也不同。

  以"計(jì)算機(jī)"為例,可以建立如圖1所示的主題概念樹。

  從圖1中可以看到,每一個(gè)葉節(jié)點(diǎn)都是一個(gè)概念(如:計(jì)算機(jī),軟件等)或復(fù)合概念(如應(yīng)用軟件,支撐軟件等)。主題概念樹是在概念網(wǎng)絡(luò)的基礎(chǔ)上,根據(jù)分類的主概念生成的。它的生成過程為:(1)建立某個(gè)領(lǐng)域的概念網(wǎng)絡(luò);(2)確定分類的主概念,與概念網(wǎng)絡(luò)建立連接;(3)分別取主概念的m層成員概念節(jié)點(diǎn)、下位概念節(jié)點(diǎn)、語(yǔ)義場(chǎng)概念節(jié)點(diǎn)(現(xiàn)在主要考慮同義和近義概念),把它們存儲(chǔ)到一張表中,這就是主題概念樹。層數(shù)m是個(gè)經(jīng)驗(yàn)值,考慮到概念網(wǎng)絡(luò)的構(gòu)造和文本分類的實(shí)際需要,一般層數(shù)m取為4.

  2  分類算法

  分類是一種重要的數(shù)據(jù)挖掘技術(shù)。分類的目的是根據(jù)數(shù)據(jù)集的特點(diǎn)構(gòu)造一個(gè)分類函數(shù)或分類模型(也常常稱作分類器),該模型能把未知類別的樣本映射到給定類別中的某一個(gè)。分類和回歸都可以用于預(yù)測(cè)。和回歸方法不同的是,分類的輸出是離散的類別值,而回歸的輸出是連續(xù)或有序值。構(gòu)造模型的過程一般分為訓(xùn)練和測(cè)試兩個(gè)階段。在構(gòu)造模型之前,要求將數(shù)據(jù)集隨機(jī)地分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。在訓(xùn)練階段,使用訓(xùn)練數(shù)據(jù)集,通過分析由屬性描述的數(shù)據(jù)庫(kù)元組來構(gòu)造模型,假定每個(gè)元組屬于一個(gè)預(yù)定義的類,由一個(gè)稱作類標(biāo)號(hào)屬性的屬性來確定。對(duì)未知文本關(guān)聯(lián)度的計(jì)算可分為圖2所示的幾部分。

  相關(guān)定義:(1)概念容量:文本經(jīng)過詞切分和去除停用詞后的概念總數(shù)。(2)關(guān)聯(lián)度:表示某個(gè)概念節(jié)點(diǎn)與未知文本之間的相關(guān)程度。(3)子模式:指未知文本中任意完整的標(biāo)題或句子。(4)激勵(lì)值:表示子模式對(duì)未知文本屬于某個(gè)主題類別的貢獻(xiàn)。

  2.1 關(guān)聯(lián)度計(jì)算

  基于概念網(wǎng)絡(luò)和主題概念樹的文本分類算法的步驟是:首先對(duì)未知文本進(jìn)行子模式化和分詞,然后利用概念網(wǎng)絡(luò)進(jìn)行概念定位,作初步統(tǒng)計(jì)后根據(jù)關(guān)聯(lián)度計(jì)算模型計(jì)算基礎(chǔ)關(guān)聯(lián)度、主題概念樹上復(fù)合概念的關(guān)聯(lián)度和關(guān)聯(lián)度在語(yǔ)義樹上的傳播。

  引入符號(hào)表示:未知文本Ti中包含Ni個(gè)概念和z個(gè)子模式,第j個(gè)子模式記為Sj.主題概念樹中所有概念和復(fù)合概念組成集合D.Rk為主題概念樹中第k個(gè)概念Ck的基礎(chǔ)關(guān)聯(lián)度,nk為Ck在Ti中出現(xiàn)的次數(shù)。用Rc表示復(fù)合概念的關(guān)聯(lián)度,Rb表示復(fù)合概念的約束概念的關(guān)聯(lián)度,Rl表示復(fù)合概念的概念的關(guān)聯(lián)度。Ru表示上位概念的關(guān)聯(lián)度,Rx表示下位概念的關(guān)聯(lián)度,Rxi表示第i個(gè)下位概念的關(guān)聯(lián)度。

  (1)概念節(jié)點(diǎn)的基礎(chǔ)關(guān)聯(lián)度計(jì)算模型。在文本中,若某主題概念及其相關(guān)概念節(jié)點(diǎn)出現(xiàn)的次數(shù)越多,則文本與該概念的相關(guān)度就越大;當(dāng)分類概念的呈現(xiàn)次數(shù)相同時(shí),文本中的概念容量越大,則該概念節(jié)點(diǎn)與文本之間的相關(guān)度就越小。它們之間存在著線性關(guān)系,即關(guān)聯(lián)度計(jì)算的基本公式:


  

  未知文本在分詞處理后,每個(gè)詞與主題概念樹中的概念節(jié)點(diǎn)之間可能存在三種關(guān)系:相等、相關(guān)或不相關(guān)。鑒于這三種不同的情況,在進(jìn)行基礎(chǔ)關(guān)聯(lián)度計(jì)算時(shí)應(yīng)作不同的處理。本算法采用的加權(quán)策略如表1所示。

  

  以上述計(jì)算機(jī)的主題概念樹為例,對(duì)概念節(jié)點(diǎn)"計(jì)算機(jī)"來說,如果在未知文本中出現(xiàn)"微型機(jī)",則給"計(jì)算機(jī)"的呈現(xiàn)次數(shù)加0.8.而如果未知文本中出現(xiàn)"軟件"這個(gè)概念,則將"計(jì)算機(jī)"的呈現(xiàn)次數(shù)加0.5.

  (2)復(fù)合概念的關(guān)聯(lián)度計(jì)算模型。復(fù)合概念的關(guān)聯(lián)度Rc可由參加復(fù)合的子概念的基礎(chǔ)關(guān)聯(lián)度計(jì)算得到。以概念約束為例:

  

  (3)主題概念樹上語(yǔ)義關(guān)聯(lián)度的傳播。主題概念樹上的語(yǔ)義關(guān)聯(lián)度的傳播模型主要考慮父-子繼承關(guān)系的語(yǔ)義關(guān)聯(lián)度傳播與屬主-成員的隸屬關(guān)系的語(yǔ)義傳播。父子繼承關(guān)系語(yǔ)義計(jì)算模型來自于形式邏輯關(guān)于概念的定義:概念=屬+種差,這里屬就是上位概念,種差就是下位概念的屬性。因此,繼承型語(yǔ)義傳播模型為:


  

  其中:n是種差總數(shù),通常,在復(fù)合概念中n=1.

  例如,當(dāng)以"支撐軟件"為下位概念來計(jì)算上位概念"軟件"的關(guān)聯(lián)度時(shí),如果"支撐軟件"與未知文本之間的關(guān)聯(lián)度為0.03,則可得到"軟件"與未知文本之間的關(guān)聯(lián)度為0.015.

  2.2 局部激勵(lì)修正

  上述的基礎(chǔ)關(guān)聯(lián)度計(jì)算模型中沒有考慮上下文的因素。事實(shí)上,在自然語(yǔ)言中,詞作為概念的載體,如果在某個(gè)詞鄰近的上下文中經(jīng)常出現(xiàn)某個(gè)類別的詞,則該詞屬于該類別的可能性也就越大。例如,在一個(gè)包含"計(jì)算機(jī)"、"軟件"、"磁盤"等詞匯的子模式中,"病毒"代表生物學(xué)上病毒含義的概率很小,而在包含"基因"、"生物"、"細(xì)菌"等詞匯的子模式中,"病毒"代表生物學(xué)上病毒含義的概率就比較大。也就是說,在小范圍內(nèi)存在著詞義的互相激勵(lì),在這里稱之為"局部激勵(lì)".

  下面用局部激勵(lì)的原則對(duì)基礎(chǔ)關(guān)聯(lián)度進(jìn)行修正。將未知文本中的每個(gè)子模式對(duì)該文本屬于某個(gè)類別所作的貢獻(xiàn),稱為子模式的激勵(lì)值,第j個(gè)子模式Sj的激勵(lì)值記為u(Sj)。

  子模式的激勵(lì)值與下面二個(gè)因素有關(guān):①子模式中與主題概念樹上的概念節(jié)點(diǎn)相匹配的詞的個(gè)數(shù),記為w(Sj);②每個(gè)匹配成功的概念節(jié)點(diǎn)在該子模式中的次數(shù),記為qk(k=1,2,……w(Sj))。

  綜合上面的二個(gè)因素,子模式激勵(lì)值可表示為:


  其中:z為子模式的個(gè)數(shù),?姿為可以調(diào)整的常系數(shù)。式(6)即為得到的未知文本與概念節(jié)點(diǎn)之間的關(guān)聯(lián)度。用它可進(jìn)行復(fù)合概念的關(guān)聯(lián)度計(jì)算,并可通過語(yǔ)義關(guān)聯(lián)度傳播模型計(jì)算關(guān)聯(lián)度在主題概念樹上的傳播。可得到未知文本與主題概念樹各概念節(jié)點(diǎn)之間的關(guān)聯(lián)度。

  可以看出,在同一篇文本中,通過公式(6)的修正,每個(gè)概念節(jié)點(diǎn)的基礎(chǔ)關(guān)聯(lián)度得到了相同倍數(shù)的增強(qiáng)。所以,它并不會(huì)影響基礎(chǔ)關(guān)聯(lián)度的大小順序,與原基礎(chǔ)關(guān)聯(lián)度存在著一致性。同時(shí),不同的文本,如果信息容量和主題概念樹上的每個(gè)概念節(jié)點(diǎn)的呈現(xiàn)次數(shù)相同,而同類概念在文本中出現(xiàn)的上下文位置不同時(shí),由局部激勵(lì)原則進(jìn)行的修正能使同類概念聚集度高的文本呈現(xiàn)出更高的基礎(chǔ)關(guān)聯(lián)度,即修正后的基礎(chǔ)并聯(lián)度能夠反映同類詞義互相激勵(lì)的效果。

  2.3 按關(guān)聯(lián)度進(jìn)行分層次識(shí)別

  按前述關(guān)聯(lián)度計(jì)算模型得到的關(guān)聯(lián)度進(jìn)行排序。在計(jì)算過程中,對(duì)每一個(gè)未知文本,得到了主題概念樹上的每個(gè)概念節(jié)點(diǎn)與未知文本的關(guān)聯(lián)度。這樣,對(duì)于M個(gè)未知文本來說,它們關(guān)于概念節(jié)點(diǎn)Ck(主題概念樹上的第k個(gè)概念節(jié)點(diǎn))的關(guān)聯(lián)度的大小可以進(jìn)行比較。按關(guān)聯(lián)度大小將它們進(jìn)行排序,就得到未知文本關(guān)于某個(gè)概念節(jié)點(diǎn)的關(guān)聯(lián)度。以此作為識(shí)別的標(biāo)識(shí),按一定的關(guān)聯(lián)度閾值進(jìn)行提交。

  同時(shí),由于在算法中下位概念的呈現(xiàn)對(duì)上位概念有貢獻(xiàn),所以與下層概念節(jié)點(diǎn)關(guān)聯(lián)度較高的文本,與上層概念也有比較高的關(guān)聯(lián)度。如:"微型機(jī)"和"計(jì)算機(jī)軟件"方面的文本將都屬于"計(jì)算機(jī)"類別,但屬于計(jì)算機(jī)類別的文本卻不一定屬于微型機(jī)或者計(jì)算機(jī)軟件類別。對(duì)每個(gè)層次的概念節(jié)點(diǎn)與未知文本的關(guān)聯(lián)度大小進(jìn)行排序,在同屬某個(gè)大類的情況下,可得到未知文本屬于某個(gè)小類的關(guān)聯(lián)度。

  3  結(jié)束語(yǔ)

  本文提出了一種利用概念網(wǎng)絡(luò)進(jìn)行語(yǔ)義擴(kuò)展的自動(dòng)文本分類算法。提出了主題概念樹的概念,對(duì)每個(gè)主題,利用主題概念樹作為分類的基礎(chǔ)。文中給出了基礎(chǔ)關(guān)聯(lián)度的計(jì)算模型以及對(duì)之進(jìn)行修正的方法。初步的實(shí)驗(yàn)結(jié)果表明,這種分類方法能夠有效地提高與主題概念相關(guān)度較高的文本的關(guān)聯(lián)度系數(shù)。同時(shí),對(duì)于僅有少量關(guān)鍵詞出現(xiàn),卻與主概念相關(guān)度不高的文本,能夠降低其關(guān)聯(lián)度系數(shù)。

 


  

版權(quán)與免責(zé)聲明

凡本網(wǎng)注明“出處:維庫(kù)電子市場(chǎng)網(wǎng)”的所有作品,版權(quán)均屬于維庫(kù)電子市場(chǎng)網(wǎng),轉(zhuǎn)載請(qǐng)必須注明維庫(kù)電子市場(chǎng)網(wǎng),http://hbjingang.com,違反者本網(wǎng)將追究相關(guān)法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明自其它出處的作品,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性,不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。其他媒體、網(wǎng)站或個(gè)人從本網(wǎng)轉(zhuǎn)載時(shí),必須保留本網(wǎng)注明的作品出處,并自負(fù)版權(quán)等法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

廣告
OEM清單文件: OEM清單文件
*公司名:
*聯(lián)系人:
*手機(jī)號(hào)碼:
QQ:
有效期:

掃碼下載APP,
一鍵連接廣大的電子世界。

在線人工客服

買家服務(wù):
賣家服務(wù):
技術(shù)客服:

0571-85317607

網(wǎng)站技術(shù)支持

13606545031

客服在線時(shí)間周一至周五
9:00-17:30

關(guān)注官方微信號(hào),
第一時(shí)間獲取資訊。

建議反饋

聯(lián)系人:

聯(lián)系方式:

按住滑塊,拖拽到最右邊
>>
感謝您向阿庫(kù)提出的寶貴意見,您的參與是維庫(kù)提升服務(wù)的動(dòng)力!意見一經(jīng)采納,將有感恩紅包奉上哦!