国产白浆流出一区二区-精品日韩欧美一区二区-亚洲欧美精品一区久久-久草精品在线播放视频

全國服務(wù)熱線:400-603-3310 廣州熱線:020-85201720   網(wǎng)站專線:020-85201717

專題中心 聯(lián)系我們

廣州網(wǎng)站建設(shè) 網(wǎng)站制作 網(wǎng)站設(shè)計(jì)公司 廣州騰虎網(wǎng)絡(luò)科技有限公司

WHAT'S NEW?

新聞動(dòng)態(tài)

致力提供國內(nèi)性價(jià)比高的建站資訊

當(dāng)前位置: > 騰虎新聞 > 近期動(dòng)態(tài) >

淺談互聯(lián)網(wǎng)信息挖掘技術(shù)

騰虎網(wǎng)絡(luò):2010-03-24  閱讀數(shù):  分享到:
摘 要 本文就互聯(lián)網(wǎng)信息挖掘技術(shù)進(jìn)行了簡介,對(duì)網(wǎng)絡(luò)信息挖掘中的關(guān)鍵技術(shù)、系統(tǒng)流程進(jìn)行了闡述,結(jié)合農(nóng)業(yè)網(wǎng)絡(luò)信息挖掘系統(tǒng)的開發(fā)及應(yīng)用,指出網(wǎng)絡(luò)信息挖掘的應(yīng)用前景。關(guān)鍵詞 數(shù)據(jù)挖掘 互聯(lián)網(wǎng) 網(wǎng)頁 信息提取 About the WDM Technology Zhang Chengzhi (Department of Information Management,Nanjing Agriculturl University,Nanjing 210095)Abstract This paper introduces the WEB Data Mining (WDM) expoundes the key technology,the system process of the WDM,then use the Agricultural WEB Data Mining (AWDM) as a example,declare that the WDM has good foreground in the practice.Keywords Data Mining, Internet,WEB pages,Information Extration一、概 述隨著互聯(lián)網(wǎng)的快速發(fā)展,越來越豐富的信息呈現(xiàn)在用戶面前,但同時(shí)伴隨的問題是用戶越來越難以獲得其更需要的信息。早期為了解決此問題,出現(xiàn)了以雅虎( Yahoo)為代表的 半自動(dòng)化的網(wǎng)絡(luò) 搜索引擎(Search Engine)。網(wǎng)絡(luò)搜索引擎主要由網(wǎng)絡(luò)機(jī)器人(Robot)、索引數(shù)據(jù)庫和查詢服務(wù)三個(gè)部分組成[1]。網(wǎng)絡(luò)機(jī)器人對(duì)互聯(lián)網(wǎng)資源進(jìn)行遍歷,盡可能多地發(fā)現(xiàn)并采集新的信息;采用全文檢索技術(shù)對(duì)采集到的信息建立索引存到索引數(shù)據(jù)庫中,能夠極大地提高信息檢索的速度;查詢服務(wù)接收并分析用戶的查詢,即將用戶查詢作為數(shù)據(jù)庫提問式,根據(jù)一定的的匹配策略,如布爾模型、模糊布爾模型等方法遍歷索引數(shù)據(jù)庫,更后將達(dá)到一定的匹配程度的結(jié)果(包括標(biāo)題項(xiàng),簡單文摘和鏈接地址)集合返回給用戶。由于人工智能研究還未達(dá)到實(shí)用化水平,目前網(wǎng)絡(luò)機(jī)器人還無法實(shí)現(xiàn)信息的準(zhǔn)確分類,使得檢索的結(jié)果不盡人意,例如,某一用戶利用“棉花種植”進(jìn)行檢索時(shí),其本意是想得到有關(guān)棉花種植的地區(qū)分布情況的資料,但搜索引擎大多是返回大量的關(guān)于棉花種植技術(shù)的文章,造成這樣情況的原因是現(xiàn)有的搜索引擎大多是基于簡單的關(guān)鍵詞匹配,不能真正理解用戶的檢索意圖所造成的。另外,目前多數(shù)搜索站點(diǎn)都是通過人工方式對(duì)信息進(jìn)行再一次處理,這樣使得信息整理的速度遠(yuǎn)遠(yuǎn)落后于網(wǎng)絡(luò)信息的膨脹。為了實(shí)現(xiàn)個(gè)性化的主動(dòng)信息服務(wù),網(wǎng)絡(luò)信息挖掘(Web Mining)技術(shù)成為近年來的一個(gè)新的研究課題,它是數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)信息處理中的應(yīng)用[2]。網(wǎng)絡(luò)信息挖掘是指在大量訓(xùn)練樣本的基礎(chǔ)上,得到數(shù)據(jù)對(duì)象間的內(nèi)在特征,并以此為依據(jù)進(jìn)行有目的的信息提取。例如,當(dāng)信息挖掘系統(tǒng)系統(tǒng)發(fā)現(xiàn)用戶的興趣是“棉花種植分布”時(shí),它就會(huì)自動(dòng)過濾掉棉花種植技術(shù)等無關(guān)的數(shù)據(jù),這樣可以大大減少用戶的檢索時(shí)間和成本。網(wǎng)絡(luò)信息挖掘與網(wǎng)絡(luò)信息檢索所采用的技術(shù)有很多相似之處,但也有本質(zhì)的區(qū)別。網(wǎng)絡(luò)信息挖掘技術(shù)沿用了Robot,全文檢索等網(wǎng)絡(luò)信息檢索中的優(yōu)秀成果,同時(shí)綜合運(yùn)用人工智能、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)領(lǐng)域的各種技術(shù)。網(wǎng)絡(luò)信息挖掘系統(tǒng)與網(wǎng)絡(luò)信息檢索的更大不同在于它能夠獲取用戶個(gè)性化的信息需求,根據(jù)目標(biāo)特征信息在網(wǎng)絡(luò)上或者信息庫中進(jìn)行有目的的信息搜尋。本文就網(wǎng)絡(luò)信息挖掘技術(shù)的總體流程、技術(shù)實(shí)現(xiàn)進(jìn)行了闡述,指出網(wǎng)絡(luò)信息挖掘農(nóng)業(yè)信息領(lǐng)域中的應(yīng)用的可行性及其發(fā)展前景。二、網(wǎng)絡(luò)信息挖掘技術(shù)中的關(guān)鍵技術(shù)及系統(tǒng)流程1.網(wǎng)絡(luò)信息挖掘中的關(guān)鍵技術(shù)(1)目標(biāo)樣本的特征提取網(wǎng)絡(luò)信息挖掘系統(tǒng)采用向量空間模型(Vector Space Modal,VSM),用特征詞條(T1,T2,…,Tn)及其權(quán)值Wi代表目標(biāo)信息,在進(jìn)行信息匹配時(shí),使用這些特征項(xiàng)評(píng)價(jià)未知文本與目標(biāo)樣本的相關(guān)程度。特征詞條及其權(quán)值的選取稱為目標(biāo)樣本的特征提取,特征提取算法的優(yōu)劣將直接影響到系統(tǒng)的運(yùn)行效果。詞條在不同內(nèi)容的文檔中所呈現(xiàn)出的頻率分布是不同的,因此可以根據(jù)詞條的頻率特性進(jìn)行特征提取和權(quán)重評(píng)價(jià)。一個(gè)有效的特征項(xiàng)集應(yīng)該既能體現(xiàn)目標(biāo)內(nèi)容,也能將目標(biāo)同其它文檔相區(qū)分,因此詞條權(quán)重的正比于詞條的文檔內(nèi)頻數(shù),反比于訓(xùn)練文本內(nèi)出現(xiàn)該詞條的文檔頻數(shù)。構(gòu)造如下特征項(xiàng)權(quán)值評(píng)價(jià)函數(shù):Weight(word)= tfik*IDFi= tfik*log(N/nk+1)其中tfik表示詞條Tk在文檔Di中的出現(xiàn)頻數(shù),IDFi為逆文檔頻數(shù),N表示全部目標(biāo)樣本的文檔數(shù),nk表示出現(xiàn)詞條Tk的文檔數(shù)。若考慮詞長因素,可進(jìn)行標(biāo)準(zhǔn)化處理可得:Weight(word)=tfik*log(N/nk+1)/ 與普通的文本文件相比,HTML文檔中有明顯的標(biāo)識(shí)符,結(jié)構(gòu)信息更加明顯,對(duì)象的屬性更為豐富。系統(tǒng)在計(jì)算特征詞條權(quán)值時(shí),充分考慮HTML文檔的特點(diǎn),對(duì)于標(biāo)題和特征信息較多的文本賦予較高權(quán)重。為了提高運(yùn)行效率,系統(tǒng)對(duì)特征向量進(jìn)行降維處理,僅保留權(quán)值較高的詞條作為文檔的特征項(xiàng),從而形成維數(shù)較低的目標(biāo)特征向量。(2)中文分詞處理英文的句子以空格作為固定的分隔符,而中文中沒有,這給中文信息處理帶來很大障礙,例如計(jì)算機(jī)無法區(qū)分“球拍買了”到底是“球拍,買了”,還是“球,拍賣了”,因此在進(jìn)行詞頻統(tǒng)計(jì)等處理前先要進(jìn)行詞條切分處理。比較簡單有效的分詞方法是基于大型詞庫的機(jī)器分詞法。通用詞庫包含了大量不會(huì)成為特征項(xiàng)的常用詞匯,為了提高系統(tǒng)運(yùn)行效率,系統(tǒng)根據(jù)挖掘目標(biāo)建立專業(yè)的分詞表,這樣可以在保證特征提取準(zhǔn)確性的前提下,顯著提高系統(tǒng)的運(yùn)行效率。進(jìn)行詞條切分時(shí),先根據(jù)標(biāo)點(diǎn)進(jìn)行粗切分,然后再分別使用正向和逆向更大匹配法進(jìn)行細(xì)切分。在進(jìn)行詞頻統(tǒng)計(jì)時(shí),考慮到自然語言的多樣性,系統(tǒng)建立并使用相應(yīng)的同義詞典、相關(guān)詞詞典等輔助詞典,以提高信息匹配的準(zhǔn)確度。(3)獲取網(wǎng)絡(luò)中的動(dòng)態(tài)信息Robot是傳統(tǒng)搜索引擎的重要組成部分,它依照HTTP協(xié)議讀取Web頁面并根據(jù)HTML文檔中的超鏈在WWW上進(jìn)行自動(dòng)漫游,Robot也被稱為Spider、Worm或Crawler。但Robot只能獲取Web上的靜態(tài)頁面,而有價(jià)值的信息往往存放在網(wǎng)絡(luò)數(shù)據(jù)庫中,人們無法通過搜索引擎獲取這些數(shù)據(jù),只能登錄專業(yè)信息網(wǎng)站,利用網(wǎng)站提供的查詢接口提交查詢請(qǐng)求,獲取并瀏覽系統(tǒng)生成的動(dòng)態(tài)頁面。網(wǎng)絡(luò)信息挖掘系統(tǒng)則通過網(wǎng)站提供的查詢接口對(duì)網(wǎng)絡(luò)數(shù)據(jù)庫中的信息進(jìn)行遍歷,并根據(jù)專業(yè)知識(shí)庫對(duì)遍歷的結(jié)果進(jìn)行自動(dòng)的分析整理,更后導(dǎo)入本地的信息庫。2.網(wǎng)絡(luò)信息挖掘技術(shù)實(shí)現(xiàn)流程圖1給出了網(wǎng)絡(luò)信息挖掘技術(shù)實(shí)現(xiàn)的總體流程圖,分別對(duì)其中的每個(gè)步驟解釋如下:第一步:確立目標(biāo)樣本,即由用戶選擇目標(biāo)文本,作為提取用戶的特征信息;第二步:提取特征信息,即根據(jù)目標(biāo)樣本的詞頻分布,從統(tǒng)計(jì)詞典中提取出挖掘目標(biāo)的特征向量并計(jì)算出相應(yīng)的權(quán)值;第三步:網(wǎng)絡(luò)信息獲取,即先利用搜索引擎站點(diǎn)選擇待采集站點(diǎn),再利用Robot程序采集靜態(tài)Web頁面,更后獲取被訪問站點(diǎn)網(wǎng)絡(luò)數(shù)據(jù)庫中的動(dòng)態(tài)信息,生成WWW資源索引庫;第四步:信息特征匹配,即提取索引庫中的源信息的特征向量,并與目標(biāo)樣本的特征向量進(jìn)行匹配,將符合閾值條件的信息返回給用戶。三、網(wǎng)絡(luò)信息挖掘技術(shù)的應(yīng)用前景互聯(lián)網(wǎng)為用戶提供了豐富的資源,但沒有一個(gè)很好的信息挖掘工具是很難以獲取其中的有用信息的。筆者以網(wǎng)絡(luò)信息挖掘技術(shù)在農(nóng)業(yè)信息領(lǐng)域中的應(yīng)用為例進(jìn)行簡單說明。隨著我國電信事業(yè)的進(jìn)一步發(fā)展,網(wǎng)絡(luò)信息也正在加倍增長,特別地,農(nóng)業(yè)是我國第一大產(chǎn)業(yè),農(nóng)業(yè)的信息化必然要求我們要建立一個(gè)農(nóng)業(yè)領(lǐng)域內(nèi)的信息挖掘系統(tǒng),以滿足各層次用戶對(duì)農(nóng)業(yè)信息的需求。構(gòu)建一個(gè)農(nóng)業(yè)網(wǎng)絡(luò)信息挖掘系統(tǒng),應(yīng)以現(xiàn)有的成熟理論為基礎(chǔ),結(jié)合當(dāng)前WWW農(nóng)業(yè)信息資源的分布特色來逐步完成,可以將統(tǒng)計(jì)詞典細(xì)分為農(nóng)業(yè)基礎(chǔ)科學(xué)、農(nóng)業(yè)工程、農(nóng)學(xué)、植物保護(hù)、農(nóng)作物、園藝、林業(yè)、畜牧、水產(chǎn)、漁業(yè)等幾個(gè)專業(yè)詞典。這樣有利于提高匹配時(shí)的準(zhǔn)確度,從而提高檢索的準(zhǔn)確率。在系統(tǒng)的構(gòu)建過程中,涉及到三個(gè)比較關(guān)鍵的問題,分別闡述如下:1. 目標(biāo)樣本確定中問題用戶特征信息的提取來源于其所瀏覽的網(wǎng)絡(luò)資源(一般是HTML文本),將用戶瀏過的網(wǎng)頁提交給服務(wù)器,以此作為用戶的目標(biāo)樣本,目標(biāo)樣本的數(shù)量以50條為宜,過少會(huì)因?yàn)樘崛〉年P(guān)鍵詞過于稀疏而不足以表達(dá)用戶的特征興趣,若過多,會(huì)增加系統(tǒng)開銷,需要較長的運(yùn)算時(shí)間。在用戶特征信息提取算法中,衡量詞條的權(quán)重,我們主要考慮詞頻(tfik)、逆文檔頻數(shù)(IDFi)以及位置因素。為了提高關(guān)鍵詞的特征表達(dá)能力,我們還可以進(jìn)一步考慮詞長、詞的分布性作為權(quán)重衡量因素。一般說來,詞長較長的詞能表達(dá)較為專指的概念,如“農(nóng)作物栽培”要專指于“農(nóng)作物”,相應(yīng)的,要給“農(nóng)作物栽培”較高的權(quán)重。詞的分布性是指詞在某一個(gè)文本中分布的情況,某一詞A非停用詞)在文章中每個(gè)段落都出現(xiàn),而另外一個(gè)詞B出現(xiàn)在其中一個(gè)段落中,就認(rèn)為A比B更具有特征表達(dá)能力,因此給A賦予較高的權(quán)重。2. 統(tǒng)計(jì)詞典的構(gòu)造問題用戶特征信息的提取和互聯(lián)網(wǎng)信息的自動(dòng)索引都要涉及到分詞的問題。分詞效果的優(yōu)劣與分詞算法和分詞中所用到的統(tǒng)計(jì)詞典有很大關(guān)系。本系統(tǒng)中的中文分詞處理模塊中采用“更長匹配法”(MM匹配法)作為分詞算法,用到的統(tǒng)計(jì)詞典主要由關(guān)鍵詞詞典、同義詞詞典、相關(guān)詞詞典。其中關(guān)鍵詞詞典中的數(shù)據(jù)主要來自《中國圖書館分類法》(第四版)、《中國分類主題詞表》、《農(nóng)業(yè)專業(yè)分類表》、《中文MARC》中的S類數(shù)據(jù)、《中文科技期刊數(shù)據(jù)庫》中的S類數(shù)據(jù)。數(shù)據(jù)的具體處理過程由于篇幅所限,將另文介紹。同義詞詞典的數(shù)據(jù)主要根據(jù)以上的數(shù)據(jù)資源和《同義詞詞林》來構(gòu)造。在處理用戶查詢和文本分類等問題時(shí),同義詞詞典會(huì)顯示很大的作用。相關(guān)詞詞典由上下位類詞(如植物檢驗(yàn)與果實(shí)檢驗(yàn))和蘊(yùn)涵關(guān)系詞(如嫁接與矮化砧木、嫁接苗、接穗、橋接、中間砧、砧木、嫁接親和性等詞的關(guān)系)組成。此詞典的構(gòu)造可由以上的數(shù)據(jù)資源及基于詞共現(xiàn)的統(tǒng)計(jì)算法來確定。農(nóng)業(yè)網(wǎng)絡(luò)信息挖掘系統(tǒng)的設(shè)計(jì)中還應(yīng)考慮到對(duì)用戶興趣的挖掘,如發(fā)現(xiàn)某一用戶的檢索生成的特征向量中包含“蘆薈、種植”,則挖掘系統(tǒng)通過學(xué)習(xí)后應(yīng)能加大特征項(xiàng)“蘆薈、種植”的權(quán)重,并且利用反饋機(jī)制(user feed-back)實(shí)現(xiàn)數(shù)據(jù)的及時(shí)推送(Push)。此外可以通過群體用戶的興趣挖掘更深的知識(shí),如發(fā)現(xiàn)某一地區(qū)的許多用戶檢索時(shí)生成的特征向量中有“蘆薈”,則可推斷這個(gè)地區(qū)可能存在需求蘆薈這一現(xiàn)象,以此為依據(jù),挖掘系統(tǒng)可以分析處蘆薈市場(chǎng)的地區(qū)需求情況,從而為蘆薈的流通提供一定的科學(xué)依據(jù)。當(dāng)前,在人工智能等技術(shù)等發(fā)展還不成熟,利用統(tǒng)計(jì)數(shù)學(xué)模型來構(gòu)建一個(gè)農(nóng)業(yè)信息網(wǎng)絡(luò)挖掘系統(tǒng)具有一定的啟發(fā)意義,該系統(tǒng)的各部分還有待于進(jìn)一步改進(jìn)與提高。參 考 文 獻(xiàn)1. Gudivada V N.Information retrieval on the World Wide Web.IEEE Internet Computing,11997,1(5):58~682. 李水平.?dāng)?shù)據(jù)采掘技術(shù)回顧.小型微型計(jì)算機(jī)系統(tǒng),1998,19(4):74~81 

官方微信

公司地址:廣州市天河區(qū)福元南路4號(hào)達(dá)維商務(wù)中心2305
銷售熱線:020-85201720  85201717  或 400-603-3310

版權(quán)所有:廣州騰虎網(wǎng)絡(luò)科技有限公司
粵ICP備13073147號(hào) 

粵公網(wǎng)安備 44010602001101號(hào)