如果說有什么發(fā)明拯救了互聯(lián)網(wǎng)?那一定是搜索引擎,否則互聯(lián)網(wǎng)中的信息越多,它本身崩潰得越快,因為人們找到自己需要的信息也就越難,使用體驗也就越差。搜索的早期形態(tài)是啥?搜索經(jīng)歷的多少次變革?未來的搜索引擎將變成怎樣?不妨總結(jié)一下搜索引擎發(fā)展的歷史,發(fā)現(xiàn)其中的脈絡(luò)。
其實,搜索的需求——從眾多東西(主要是信息)中尋找自己要的,人類一直都有,只不過在IT技術(shù)發(fā)展之前,所有信息都沒有數(shù)字化,搜索唯一可行的表現(xiàn)形式是紙質(zhì)的目錄、索引、電話簿。廣域網(wǎng)產(chǎn)生以后,搜索的需求存在,但技術(shù)沒有對應(yīng)的迅速發(fā)展,因此互聯(lián)網(wǎng)搜索的最早形式是網(wǎng)址簿。具體形式和電話簿、黃頁相似,記錄很多知名網(wǎng)站網(wǎng)址的一本書,大小視專業(yè)程度而定。筆者自己就買過一本普通網(wǎng)民適用的,大小薄厚類似一本新華字典,按網(wǎng)站內(nèi)容的不同分類。
紙質(zhì)的有了,網(wǎng)絡(luò)版的很快跟上。1994年,楊致遠創(chuàng)建雅虎,并開始人工搜集各類網(wǎng)站的網(wǎng)址,并將它們按一定規(guī)律分類、排序,網(wǎng)民可以只記住雅虎的網(wǎng)址,之后通過雅虎進入各個門類的網(wǎng)站,紙質(zhì)的網(wǎng)址簿立即變得多余。部分互聯(lián)網(wǎng)業(yè)內(nèi)人士將雅虎用人工搜集網(wǎng)址并分類呈現(xiàn)的目錄式搜索稱為第一代搜索引擎,也有部分互聯(lián)網(wǎng)專家認為雅虎這類做法并不能嚴(yán)格稱為搜索引擎,而應(yīng)算作最早的網(wǎng)址導(dǎo)航。筆者傾向于將其算作搜索實現(xiàn)形式中的一種,甚至包括網(wǎng)址導(dǎo)航也是如此。
但雅虎畢竟只是將紙質(zhì)目錄搬到了互聯(lián)網(wǎng)網(wǎng)頁上,肉眼查找和不同人對網(wǎng)站分類的理解都降低了這類搜索的使用效率。于是根據(jù)關(guān)鍵詞進行自動查找的功能也被應(yīng)用進搜索引擎,這其實并不難實現(xiàn),因為根據(jù)關(guān)鍵詞進行全文檢索的技術(shù)甚至早在計算機剛剛被發(fā)明的上世紀(jì)50年代就已經(jīng)出現(xiàn)(國內(nèi)的中文全文檢索技術(shù)最早被作為748工程的一部分,于80年代后期基本完成,但被廣泛應(yīng)用已經(jīng)是90年代的事了)。
第一代搜索引擎唯一的問題是,網(wǎng)址仍然由人工收集,效率低、易出錯、不全面。于是互聯(lián)網(wǎng)急需一種替代人工收集網(wǎng)址的技術(shù),而說到替代人工,人們必然會聯(lián)想到的是機器人,于是第二代搜索引擎所依仗的就是機器人,用程序鑄造、組裝的游走在互聯(lián)網(wǎng)中的機器人,現(xiàn)在它被人們熟知的名字是搜索爬蟲或者搜索引擎蜘蛛。事實上,這種技術(shù)的出現(xiàn)還早于楊致遠的雅虎,甚至早于萬維網(wǎng)的誕生。
1990蒙特利爾大學(xué)學(xué)生Alan Emtage發(fā)明的Archie。雖然當(dāng)時World Wide Web還未出現(xiàn),但網(wǎng)絡(luò)中文件傳輸還是相當(dāng)頻繁的,而且由于大量的文件散布在各個分散的FTP主機中,查詢起來非常不便,因此Alan Emtage想到了開發(fā)一個可以以文件名查找文件的系統(tǒng),于是便有了Archie。Archie工作原理與現(xiàn)在的搜索引擎已經(jīng)很接近,它依靠腳本程序自動搜索網(wǎng)上的文件,然后對有關(guān)信息進行索引,供使用者以一定的表達式查詢。由于Archie深受用戶歡迎,受其啟發(fā),美國內(nèi)華達System ComputingServices大學(xué)于1993年開發(fā)了另一個與之非常相似的搜索工具,不過此時的搜索工具除了索引文件外,已能檢索網(wǎng)頁。
現(xiàn)在的主流搜索引擎:谷歌、必應(yīng)、百度等均采用了搜索爬蟲抓取、下載網(wǎng)頁,以取代人工,這些搜索爬蟲每一定天數(shù)(例如谷歌是28天)進行一次全互聯(lián)網(wǎng)的抓取,將所有網(wǎng)頁結(jié)果下載至自己的服務(wù)器,等待再由人們通過輸入關(guān)鍵詞提起搜索申請。
機器人抓取網(wǎng)頁的工作效率明顯高于人工,再加上用關(guān)鍵詞進行檢索,新一代搜索引擎的登場時間理應(yīng)早于目錄式搜索和網(wǎng)址導(dǎo)航才對。但問題在于:互聯(lián)網(wǎng)中的信息實在太多了,搜索爬蟲拿回來的網(wǎng)頁,人幾乎無法再次進行分類,而僅僅經(jīng)由關(guān)鍵詞進行檢索,人們依然要從一團亂麻中肉眼查找自己想要的內(nèi)容,這個使用體驗還不如直接使用目錄。
這個問題的解決誕生了現(xiàn)今搜索領(lǐng)域的最強者,也是世界上最偉大的公司之一——谷歌。上世紀(jì)90年代后期,就在雅虎取得成功,讓人們看到搜索的巨大需求之后,當(dāng)時在斯坦福大學(xué)攻讀理工博士的Larry Page 和 Sergey Brin開發(fā)出PageRank算法,用于衡量特定網(wǎng)頁相對于搜索引擎索引中的其他網(wǎng)頁而言的重要程度。這項算法基本可以理解為投票,最重要的部分是計算每個網(wǎng)頁與其他網(wǎng)頁之間鏈接的多少,鏈向某個搜索結(jié)果的網(wǎng)頁越多且權(quán)重越高,那么這個搜索結(jié)果也就越重要。谷歌用這個辦法解決了搜索結(jié)果排序的問題,以此取代了目錄式的分類,也用搜索爬蟲加PageRank的辦法取代了雅虎最早提出的搜索引擎解決方案。部分業(yè)內(nèi)人士把谷歌為代表的這一代搜索引擎稱為第二代搜索引擎,也有人認為這才是真正意義上的搜索引擎,筆者比較支持前一種說法。
中國的搜索引擎歷史基本是直接從第二代搜索引擎開始的,時間是1999年,百度、中搜等老牌搜索引擎廠商從一開始就采用了搜索爬蟲和排序算法的組合(當(dāng)時還有3721提供網(wǎng)址導(dǎo)航服務(wù),但時間與百度、中搜等幾乎重合)。與谷歌、雅虎不同,當(dāng)時的百度、中搜,都主要為門戶網(wǎng)站提供搜索技術(shù)的后臺服務(wù),而沒有自己的呈現(xiàn)網(wǎng)站。直到谷歌和雅虎在本世紀(jì)初進入中國,百度、中搜以及后來的搜搜、搜狗和再后來的360才開始有了自己的搜索引擎網(wǎng)站。
歷史似乎到此結(jié)束,但以上說到的最晚時間點距現(xiàn)在還有十年之久,搜素引擎在這十年也并非一成不變。