第三代搜索引擎何去何從?搜索下一個Google
-
騰虎網絡:2010-03-24 閱讀數: 分享到:
一度被冷落的搜索引擎終于走到了前臺,盡管如此,新一代搜索引擎取代舊搜索引擎的歷史依然會繼續(xù)演繹,以Google為代表的第二代搜索引擎似乎又走到了這個當口。第三代搜索引擎將向何處去?而在技術過渡的進程中,那些曾經跨過前一個關口的勝利者們,這一次是否也能取得同樣的輝煌? 很長一段時間以來,和光彩奪目的門戶網站相比,搜索技術公司顯得倍受冷落。盡管美國硅谷更早出現的互聯(lián)網公司都是由搜索引擎技術起家的,然而他們或者偏離搜索技術的發(fā)展軌道轉型為門戶網站,或者干脆就已經倒閉,即使能夠堅持下來的,也一直在為如何賺錢而困擾。多年來的經驗似乎已經證明,搜索并不是一個有利可圖的行業(yè)! 《訥oogle為代表的新一代似乎正在創(chuàng)造奇跡。正像ebay引發(fā)了很多人在網上拍賣的想法一樣,Google等搜索引擎顯示的力量促使很多人動腦筋研究在網上做生意,或者通過網站宣傳自己的生意,《紐約時報》甚至把這種現象稱為“Google經濟”! 舊貌換新顏 如果把搜索比喻成是一種生活方式毫不為過。人們使用它尋找舊的歌曲電影、為論文查找有用的資料、給旅行作準備,甚至在挽救生命時也能派上用場。越來越多的公司依賴于帶給客戶的查詢結果,越來越多的研究者依賴于通過搜索引擎獲得的信息,甚至出現了新的公司形態(tài)——專業(yè)提供有償排名提升的市場營銷公司。很多人的每一天都是這樣度過的:一半時間花在搜索上,另一半時間花在收發(fā)電子郵件上! ]有幾個人會記起五年以前的搜索引擎是什么樣的,用起來有多么的蹩腳,但這又有什么關系?重要的是現在的搜索引擎確確實實融入了人們的生活。拉坦德拉女士就是一個很好的證明。她是一個普通人,四年來一直經營著維爾京群島上一個租借游艇的生意,基本上是通過自己的網站做宣傳。自從她的網站列在Google的免費搜索引擎上之后,每天通過Google網站到訪拉坦德拉女士網站的人數多達三千多人,從Google網站進入她的網站得知其租借游船生意的客戶數量占所有客戶的百分之八十五。拉坦德拉女士坦率地說,她的收入幾乎完全依賴于Google網站! ebSideStory公司更近的一項調查顯示,網上沖浪的時代即將成為過去。在接受調查的上網者中,有64%的人通常是直接進入自己想去的網站,比一年前的53%高出了許多。盡管表面上看來,這一現象似乎表明了搜索引擎正在失去市場。恰恰相反,其實在很大程度上,可以說是搜索引擎越來越普及的結果。該公司的一名負責人約翰斯通指出,在上網時使用搜索引擎找到網站的網民比例也從一年前的8%提高到了13%! “l(fā)生轉變的不但是用戶的態(tài)度,市場的態(tài)度也噶然聲轉,表現非常明顯的是門戶網站。就像Yahoo!,如果搜索服務沒有成為其一項非常重要的收入來源,Yahoo!也不會在搜索領域方面屢有動作。不似以前,搜索服務只不過是吸引眼球的一種手段。而對于提供搜索技術的公司來說更是如此,2002年他們中的很多人已經可以對投資者大聲的說,“我們掙到錢了”。 如果說以前的搜索引擎一直是處于配角的地位,壓根算不上是一個產業(yè),現在可能就要以對待一個產業(yè)的態(tài)度來對待它。搜索服務到底創(chuàng)造了多少價值,現在并沒有一個數據具體說明,但拉坦德拉女士的話頗有回味,“我根本沒辦法猜測Google帶來了多少銷售額,不過按我的想象,這些銷售額加起來足夠養(yǎng)活一個不小的國家了吧”! 淘汰的歷史 這些轉變更終還是歸結于搜索技術的發(fā)展,而技術的前行才能不斷滿足大眾的需要。如今,查找資料已經變得很容易,只要打開Google的搜索引擎,鍵入任何一個“關鍵字”,不到半秒,符合條件的信息就從30億個網頁中被挑選顯示出來。如果沒有這個工具,若想從打印出來有110英里高的資料推中提取完整有用的信息,簡直是不可能完成的任務,更不要說在非常有限的時間里,F在,不僅是Google,包括其他的提供搜索服務的公司都盡力在使看起來相當繁瑣的檢索工作簡單化! 』ヂ(lián)網搜索可以追溯到多年以前的情報檢索課題,世界上很多所有名的大學都專門設立了該項研究課程。國內中文搜索引擎技術的領線百度在線,其創(chuàng)始人及現任總裁李彥宏更早是在北京大學接觸到這門科學,現在的他仍然沒有離開這個領域,可以說見證了互聯(lián)網搜索技術的整個變遷過程!皬1994年出現的普遍意義上的互聯(lián)網搜索引擎開始,到現在已經有8年多了,實際上,這整個歷史可以看成是一代搜索引擎淘汰上一代搜索引擎的歷史”。 Google的出現正好印證了這種趨勢。投資者非?春肎oogle,“我們在幾年前所公認的搜索技術已經跟不上互聯(lián)網成長的腳步,我們需要一種新的搜索方式和搜索技術”。Yahoo!等在早期采用由編輯來提供索引目錄的檢索方式,信息量小,并容易遺漏掉許多有用的網站!斑@些門戶網站所提供的搜索服務所采用的并不是真正的信息搜索技術”! 〔还苁悄囊粋搜索引擎,有一個關鍵性的問題必須解決:如何對搜索結果進行排序?尤其是對海量數據進行檢索時,那些被排在一千位之外的信息,被讀到的機會幾乎為零。這個問題在情報檢索領域已被研究多年,而“按照目標詞語出現的次數和頻率排序”是該領域多年以來形成的慣性思維,但當Internet出現以后,這種思路完全不適合于網頁的排序! ∫驗榛ヂ(lián)網檢索還有一個更本質的因素:超鏈,也就是說網頁是通過相互的鏈接指向連接的!皩Α湣M行分析能夠為檢索的效率和品質找到依據”,這是李彥宏1996年為華爾街做金融新聞的檢索系統(tǒng)時邊實踐邊思考的結果,“完全是一種觀念上的改變”! 〗裉煲斫膺@種思路并不難。然而,正如其他的技術創(chuàng)新剛剛出現時一樣,當李彥宏向人們傳遞這個觀念時,并未立刻獲得理解和認可,直到1997年他按照這個思路做出演示版本“以事實說話”。比如檢索“中國時報”網站,使用當時的搜索引擎,檢索結果是“www.chinatime.com”,但這個結果是錯誤的。而使用他的演示版本,檢索出的才是“www.chinatime.com.tw”這個正確的結果。原因很簡單,因為互聯(lián)網上有大量的詞通過“中國時報”指向了“www.chinatime.com.tw”,說明這個網站是更相關的。而不是像過去,去數哪個網頁中“中國時報”出現的次數更多,結果當然不準確! oogle創(chuàng)始人佩杰和博潤也看到了第一代搜索引擎的這個弊端,并在1997年公布了被稱為PageRank的新算法。PageRank不僅僅考慮Web網站上的標題或文本,還考慮了與之相連接的其他網站。它將“重要性”的概念引入到搜索的世界中,“這是用來衡量該網站是否有用的指標”,佩杰表示,“我們這樣進行完全排列的目的是,用戶應當能夠找到所希望找到的網站。這一系統(tǒng)基本上利用了Web本身令人眼花繚亂的復雜連接和數以百萬計的網民的集體智慧”。如果其他“Rank(等級)”高的網站指向了你的網站,如Yahoo!,則該網站將獲得很高的等級! nfoseek是當時更早嗅到互聯(lián)網搜索技術即將發(fā)生轉變的公司之一,在1998年4月推出了以‘超鏈分析’為基礎的新一代搜索引擎,成為當時第一個實現這種技術的主流搜索引擎。以后的一年時間里,各路主流搜索引擎紛紛采用了類似的技術,到了2000年,幾乎所有的搜索引擎都從第一代邁進了第二代。 新一代搜索走向何處 “不過,以‘超鏈’為基礎的當前搜索引擎技術并非十全十美,像信息的滯后性問題,比如前幾年的一些非常知名的網站,現在的知名度和影響力都下降得很厲害,有些甚至已經倒閉了,但當今的網絡上仍然存在著大量的鏈接指向他們,當進行檢索時,他們仍然出現在很靠前的序列上。所以,單單依靠‘超鏈’,這些問題一時是反映不出來的”。曾經為“超鏈分析”申請了技術專利的李彥宏說,“從一開始的Lycos、Hotbot、Altavista到后來的Google,人們喜歡的搜索引擎已經換了四、五個,除了更換搜索引擎的成本比較低的因素外,其本質就在于用戶的行為發(fā)生了變化。雖然在一段時間內,你可能覺得某一個搜索引擎很好、很習慣了,其實每一個引擎的使用方法都差不多,如果發(fā)現更好的一定會換掉,這是我這么多年得出的經驗”。 第二代搜索引擎雖然比第一代在搜索速度、針對多種語言信息的擴展等方面有所改進,在以自然語言為查詢語言方面也做了一些探索。然而,隨著Internet的強勢發(fā)展,網上龐大的數字化信息和人們獲取所需信息能力之間的矛盾益突出。IDC在2001年下半年公布的一份報告表明,前期被大肆宣傳為“使用簡便易用,搜索結果豐富”的搜索引擎技術正在被信息更集中的局域網取代,因為大多數搜索系統(tǒng)的表現與用戶的期望值相差太大,諸如數據量高速增長的視頻、音頻等多媒體信息的檢索,現在仍然是無法突破的難題! ∫话愕墓菜阉饕嬷荒懿榈紿TML格式,主要的原因是搜索引擎的自動排序軟件Spiders蜘蛛程序,只能接受這種格式的網頁。這意味著,在企業(yè)內部的局域網上,任何沒有使用HTML格式的信息將無法被外部的搜索引擎查到。這就是為什么像PPT、Word、PDF、電子郵件等文件,以及ERP、CRM等應用軟件的數據庫的信息會長期的“沉沒”在信息的海底中! ∪绾谓鉀Q這些難題已成為第三代搜索引擎探索的方向。一個好的搜索引擎不再僅憑借數據庫大小、更新頻率、檢索速度、對多語言的支持這幾個基本特性來衡量,隨著數據庫容量的不斷膨脹,如何從龐大的資料庫中精確地找到正確的資料,被公認為是下一代搜索技術的競爭要點。比如在某搜索引擎中查詢“旅游”這個詞,返回的信息超過一百萬條,假定一個人3秒鐘查看一個網頁,就算只查看其中10%的網頁,一刻不停地看下去也需要十多個小時! 『迷谒阉饕婕夹g發(fā)展迅速,諸如智能化、個性化特色的新型引擎與過去的搜索引擎相比有了很大的區(qū)別。智能搜索可以通過對搜索內容相關性的自動學習,來提高搜索結果的準確度。不過,現在還沒有一種可行的方式真正實現智能化,很難將所需信息一定顯示在前兩三頁的搜索結果之中。 另一個頗受矚目的搜索技術就是將P2P技術應用到網頁的檢索中。通過共享所有硬盤上的文件、目錄乃至整個硬盤,用戶搜索時無需通過Web服務器,不受信息文檔格式的限制,即可達到傳統(tǒng)目錄式搜索引擎無可比擬的深度(傳統(tǒng)引擎只能達到20%~30%的網絡資源)。美國一家新興搜索引擎設計公司i5 Digital在兩年前已正式推出了依據對等搜索理念的商業(yè)性搜索引擎Pandango(www.pandango.com),但至今仍未進入主流搜索引擎陣容的事實,則說明P2P搜索目前也只能稱為是未來的技術! 癙2P搜索這個理念我更早是1997年底在Infoseek聽到的,當時的Infoseek里已經有人提出并開始考慮這種搜索技術了”,李彥宏表示,“各個網站上都有一個自己的小的搜索引擎,大家相互之間可以進行溝通,如果這個引擎查不到,可以通過其他的引擎查,就是這樣的一個概念。但是到目前為止,它離實際的應用還差得非常遠,主要是違反了關鍵性指標中有關速度的問題。由于有很多這種小的相互獨立又相互鏈接的引擎,其速度與集中式管理的搜索引擎相比肯定會差很多”! ∩虡I(yè)應用與學術研究之間總會存在一定的距離,但這并不是表示商業(yè)界不重視對技術的追求,尤其是像Google這些已經處于該領域金字塔塔尖的公司。Google擁有一個開放性數據庫,內含一百多個未來需要實施的項目,這些項目由五十位計算機科學博士負責推進。2002年6月,Google專門成立了“實驗室”,以展示他們在互聯(lián)網搜索領域里更新研究的技術,并發(fā)布在互聯(lián)網(labs.google.com)上供公眾試用,廣泛收集用戶的反饋意見。實驗室里已經展示的項目,包括鍵盤檢索、語音檢索等等! 』蛟S有些人會認為,這些所謂的實驗項目似乎看不出搜索引擎技術將在觀念上進行大的轉變,實際上,搜索引擎技術在8年多的時間里一直是以一個漸變的過程在發(fā)展!耙粋搜索引擎并不是說某一方面好就能受大眾喜歡,必須方方面面做到了才行”,李彥宏這么認為,“現在搜索還不能完全滿足人們的需求,因為需求太多樣化,很難一一滿足”。這也是主流搜索引擎目前更重視在細節(jié)上下功夫的原因! o論如何,包括Google的佩杰在內的搜索技術領域的領線都認為,更終的搜索引擎將是智能化的,能夠理解世界上的所有事物。佩杰還是Web服務技術領域積極的參與者,他正在嘗試將Web服務技術應用到搜索當中,以解決跨平臺、多格式的信息檢索。而我們現在所見到的,主流搜索技術把注意力集中在提升自身搜索引擎質量、擴展應用范圍,比如支持圖片檢索、PDA等移動手持設備的檢索,這些都將成為下一代技術實現過程中必不可少的步驟。 ■ 不得不趟的資本渾水 如果搜索技術領域又一次需要新的能“改變人們觀念”的技術革新,那么,轉變的重任不再只由學術領域擔當,以Yahoo!、Google、MSN、AOL為代表的商業(yè)領域也必須直面! ≌鏨ahoo!在2000年6月宣布用Google公司的搜索產品來替代Inktomi公司的產品,實際上是新技術代替舊技術的體現,Yahoo!用了這樣一種方式使自己的搜索引擎技術成功的向下一代過渡。當然,更說明了市場競爭的殘酷性,李彥宏曾對此表示,“你的公司如果在技術上沒有創(chuàng)新,就會被其它做得好的公司替代,這就是市場競爭的游戲規(guī)則”! 榱诉_到這個目的,即使清高的標榜自己是“技術創(chuàng)新”的公司,資本的混水也不得不去趟! ∪欢,并不是所有的公司都能順利的跨過這道關卡!1998年之前的Infoseek可以說是當時更好的搜索引擎,更終的結局卻不是那么令人欣慰。受當時互聯(lián)網風潮的影響,Infoseek也陷入到資本的運作當中”,李彥宏對此一直非常感慨,“以至于忽視了技術本身的發(fā)展,做了很多力所不能及的事情,更后被迪斯尼并購,精英都先后離開了”! ≌驗槿绱,也才有1999年以后業(yè)界有關Google的報道中大部分是質疑其贏利模式的和關注其何時上市的;也才有了Yahoo!與Google之間若即若離的關系、百度與新浪的摩擦這樣的搜索技術公司與門戶網站之間的激烈碰撞! 〖词共皇撬械娜硕紝雌饋砜梢話甑藉X的、被稱為搜索引擎第三定律的“自信心定律”(客戶可以購買在搜索結果中的排位。即客戶對自己有信心,才會花錢購買搜索結果,而花了錢的客戶,也會給用戶以信心。)抱支持態(tài)度,認為它更多的是商業(yè)模式上的改進,與所推崇的先進技術是相互抵觸的,但它確實給以Overture、百度為代表的一批搜索引擎帶來了實際的利益!皼]有資金,拿什么投入到技術的創(chuàng)新研究當中?”有了這個前提,不難理解李彥宏為什么會把“賺到了錢”作為2002年更有感觸的事情。交互媒介SiteLab的創(chuàng)始人戴納·托德的話也不無道理,“任何東西都可以賣錢。作為消費者,我很震驚,但作為廣告客戶,我很高興”! 〔还茉鯓樱拖窭顝┖暾f的那樣,“這種既合作又競爭的關系恰恰說明了現在的搜索技術或者說提供搜索服務是能夠賺到錢的”,相信Yahoo!如果不是看到了這一點也絕對不會收購搜索引擎巨頭Inktomi,就算現在還看不到更多的好處,擁有Inktomi也肯定會使雅虎多了一種新的很有前景的收入來源,在競爭趨激烈的市場上處于更有利的地位。況且,搜索引擎的攻城略地之勢正在不斷的蔓延。