跳至內容

Google搜尋

本頁使用了標題或全文手工轉換
維基百科,自由的百科全書

這是本頁的一個歷史版本,由Someone's Moving Castle留言 | 貢獻2013年10月23日 (三) 03:26 (既然你见不得搜索框,那就去掉好了。)編輯。這可能和當前版本存在着巨大的差異。

Google搜尋
Logo
[[File:File:Google搜索(台湾,2013).png|300px]]
網站類型
搜索引擎
語言多國語言 (~100)
持有者Google公司
創始人拉里·佩奇謝爾蓋·布林
營業額來自廣告
網址google.com
商業性質
註冊選擇性
本條目屬於網路搜索引擎系列
網路搜索引擎
元搜索引擎
國際性搜索引擎(多語言)
Google
Yahoo! Search
Bing
僅中文搜索引擎
百度
360搜索
搜狗
yam蕃薯藤
其他搜索引擎
DuckDuckGo
Ecosia
Exalead
Naver
Yandex
Alexa Internet
AOL
Ask.com
Qwant英語Qwant
其他鏈接

Google搜尋是由Google公司推出的一個互聯網搜索引擎,它是互聯網上最大、影響最廣泛的搜索引擎的首位。Google每日透過不同的服務,處理來自世界各地超過2億次的查詢。

除了搜尋網頁外,Google亦提供搜尋圖像、新聞組、新聞網頁、影片的服務。2005年6月,Google已儲存超過80億的網頁,1億3千萬張圖片,以及超過1億的新聞組訊息 - 總計大概10億4千萬個項目。它也緩存了編入索引中的絕大多數網頁的內容。

因為Google的名聲,「Google」一個事物做動詞表示的是「在Google上搜索」。它還有引申義「在互聯網上搜索」,甚至「(在實際環境中)搜索」的意思。Google官方通過律師信強烈反對這種濫用他們公司名字的習慣,因為它可能會導致Google變成一個通用商標名。[3]

搜索引擎

物理構造

Google於全球數個地方,僱用伺服器中心來存放較低成本的普通電腦,運行Red Hat Linux作業系統來回應搜索要求和索引網頁。這個於伺服器中心建立的「伺服器園地」以Shared nothing architecture(分佈式資料庫結構)建造。索引是由程序Googlebot執行,它會定期地請求訪問已知的索引建立新頁面。頁面更新愈快,Googlebot訪問亦會愈多。再通過在這些已索引網頁上的連結來發現新頁面,並加入到資料庫。索引資料庫和網頁緩存大小是以兆位元組(terabyte)來衡量的。Google發展了一套檔案系統名為Google 檔案系統,儲存這些資料。

Google使用的這些機器的精確大小和位於何處至今未知;Google官方刻意含糊其詞。在John Hennessy和David A. Patterson所著的《計算機結構:走進大數》中,推測Google的服務器場群集計算機群形成的「搜尋場」在2000年大約應該有6000個處理器,12000個普通IDE硬盤(即每個機器2個硬盤1個處理器),他們位於四個地方:二個在矽谷和二個在維吉尼亞。每個都以OC 48的線路(2488 Mbit/s,參見帶寬)連接着因特網並且有一個OC 12(622 Mbit/s)線路連接着其他3個Google分站點。這些連接使用思科12000路由器(Gateway),用二個Foundry Networks BigIron 8000的以太網交換器分流成4 x 1 Gbit/s的線路連接到64個服務器夾,裡面前後各是40台電腦和1台惠普以太網交換機,所以一個架子共有80個機器和2個惠普交換機。

Google在2004年4月發布的IPO S-1表單後,大財政公司的英特網開發單位副總裁Tristan Louis估計了現在的服務器場包含下列各項 [1]

  • 719個服務器架
  • 63,272台機器
  • 126,544個處理器
  • 253,088 GHz的處理能力
  • 126,544 GB內存
  • 5,062 TB的硬盤空間

依照這一估計,Google服務器場組成了全球最強大的超級計算機,每秒運行速度至少三倍於地球模擬器

PageRank

Google使用一種名為PageRank的演算法,配合搜尋字串來排名網頁,PageRank是以公司創辦人拉里·佩奇命名。PageRank演算法根據加權係數,推斷該其他連結到網頁的價值來處理。PageRank如此取得由人所建立的鏈接,與及與人關聯的重要性。先前的排名搜尋方法,採用了許多搜尋器,以搜尋的關鍵詞和何時搜尋來排名頁面,或有多相關地關聯該搜尋。另外,Google亦採用其他秘密準則,決定排名網頁的結果。

Google不止索引和緩衝HTML檔案,亦索引13種其他檔案類型,例如PDFWord文件、Excel試算表,以及純文字檔案。除了文本文件,其他文件的是先轉換為HTML版本後緩存的。所以藉助Google可以不需要有這些文件的相應程序就可以看見這些非網頁文件,如Word或是Excel。

Google創新的搜索技術和典雅的用戶界面設計使Google從第一代搜索引擎中脫穎而出。Google並非只使用關鍵詞代理搜索技術,它將自身建立在高級 PageRank™(網頁級別)技術基礎之上。這項專利技術可確保始終將最重要的搜索結果首先呈現給用戶。網頁級別可對網頁的重要性進行客觀的分析。用於計算網頁級別的公式包含5億個變量和20多億個項。網頁級別利用巨大的網絡鏈接結構對網頁進行組織整理。當從網頁A鏈接到網頁B時,Google就認為「網頁A投了網頁B一票」。Google還對投票的網頁進行分析。Google複雜的自動搜索方法和結構設計被認為可以避免任何人為感情因素提供公正的搜索結果。隨着搜索引擎優化(SEO)和各種針對PageRank的交換鏈接的行為的流行,Google的PageRank及公正性也越來越受到人們的質疑。

使用者能自定義搜尋引擎。他們能設定一個缺省語言或使用 "SafeSearch" 過濾技術,設定在每頁上被顯示的結果多少。Google受爭議的放置永久cookie在用戶的機器上以儲存這些信息,這使他們能夠了解過去用戶的搜索內容。任何一次搜索請求(只有頭10個關鍵字被查詢),每次最多查詢頭1000個結果(以每一頁最多100個結果的方式顯示)。

儘管它有極大的索引數目,仍然有相當多數量的數據庫的數據只能是從網站訪問到,而不是藉由連接。這所謂的深網暫時不能被Google數據庫所覆蓋,舉例來說包含了圖書館目錄,官方的法定(政府)公文,電話簿等。

(關於 PageRank™ 的介紹,參見 Google的 Why Use Google 頁

Google跳舞

Google跳舞是一種經常被討論的現象,Google跳舞指的是Google月底大量更新數據庫和算法的幾天時間,因為可以發現,這幾天對Google搜索關鍵字如www.yahoo.com得到的結果數是不一樣的。在跳舞期間,一個站點的等級可能在短時間裡戲劇般的改變,而且不同的Google服務器(舉例來說:www.google.com,www2.google.com,www3.google.com,www.google.co.uk,www.google.com.tw等)可能為相同的關鍵字提供不同的結果。跳舞似乎當是googlebot機器人抓取網頁期間隨即發生的。快速更新的網站,高級別的網頁和新聞網站是最經常被檢查的,雖然新聞不一定如此。小的調節在每月里持續進行以確定網頁級別。在一些情況下,可能需要二到三個月讓新建頁面出現在搜索結果里。從2003年的夏季開始,每月的搜索,索引和等級更新被不間斷的持續更新所取代。這種改變大大減少了Google搜索結果的不穩定性。2003年11月15日,Google似乎進行了有史以來最重要的一次算法升級,後來被稱為「佛羅里達更新」。在這次更新中,幾乎所有商業領域的關鍵詞都受到了影響,尤其是一些熱門的關鍵詞,Google搜索的結果頁完全變了個樣兒,很多頭一天還排在首位的網站被遠遠甩到了500名之後。

Google目前的主要挑戰之一是,它的算法和結果越是得到網路使用者的信賴,商業網站為了利益而暗中破壞結果的風險就越戲劇般的增加。一些搜索引擎優化公司已經開始嘗試使用各種不同的技巧提升Google網頁評級,以使他們客戶的網站更多的被搜索到。Google已經設法減少了一些已知的使用這種方法的網站的Google頁面評級。

由於Google實際上已經成為國際上最流行的搜索引擎,很多網站管理員十分熱衷於跟蹤他們網站在Google上的左側排名,並試圖解釋他們排名變化的原因。現在已有不少網站提供排名Google搜索引擎優化(Search Engine Optimization,SEO)服務,如在一些高流量的討論區內加入商業網站的鏈接,從而使該網站在Google的排名提高。這種措施的確有一定成效,但這種收取客戶金錢,在第三者的討論區上展示廣告,對討論區的讀者造成困擾,也侵害了討論區的商業利益。

還有一種被普遍採用的技術是很多網站使用一個相同的關鍵字連接到某一個特定的網站,以使用戶在Google搜索這個關鍵字的時候,這個網站的排名會出現在結果的較前面。這種方法被稱為Google炸彈。現在Google算法更新的頻率非常快,據猜測,現在算法公式中涉及的變量有300多個,PageRank™在整個Google算法中的影響力已經下降到20%左右,最終平衡的算法中最重要的變量所占的比例不會超過10%,單純靠技術手段提升排名的網站已經禁不住時間的考驗。

Google發布了一系列的 文章 以指導站長們提升他們網站的頁面評級。

SearchWiki

SearchWiki是Google搜索引擎Web 2.0化的一個體現,讓登錄的用戶得以參與搜索結果的評等。在每個搜索結果中新增了「調升」、「移除」與「評論」的按鈕:「調升」允許用戶將某搜索結果提升到前方;「移除」則可以刪除某搜索結果;「評論」則可以針對某搜索結果留下意見。為防止惡作劇與破壞損害了搜索結果可信度,以上的變動都會記錄下登錄用戶名,而且其他登錄用戶也能看到誰做了什麼改變。

典型的Web 2.0概念網站維基百科創始人吉米·威爾士亦曾提出透過讓用戶參與評等以集用戶群力加強搜索結果有效度的想法,其具體實現即為Wikia Searchhttp://search.wikia.com ,曾暫稱「Wikiasari」)。

搜索產品

除了搜尋網頁工具,Google還提供搜尋圖像、網上論壇、新聞、影片、當地搜尋、地圖、桌面搜尋等服務。2006年,Google已經索引了250億個網頁與及13億張圖像。

Google還有並非直接與搜尋相關的產品。例如Gmail是一個電子郵件服務,但仍包括搜索功能;Google Browser Sync不提供任何搜索工具,旨在組織使用者的瀏覽時間。

Google 即搜即得

File:Google Instant Search for Wikipedia.png
Google 即搜即得會在用戶輸入文字時,聯想詞以灰色形式在其後補充出來,同時立即展現搜索結果。

Google即搜即得(Instant Search)是Google於2010年9月8日發布的一個新的搜索技術[4],是一項搜索增強功能,能夠使用戶在輸入內容的同時顯示搜索結果,而不需要點擊搜索按鈕或者按下回車鍵。這樣一來,用戶在輸入內容的同時就可瀏覽到相關的搜索結果頁,大大節約了搜索消耗的時間[5]

Google 即搜即得可以在用戶即使不知道要尋找什麼,其聯想查詢也對搜索操作有引導幫助,最熱門的聯想查詢詞語會以灰色的文字形式直接地顯示在搜索框裡,這樣當用戶一看到所需的搜索結果時,就可以停止輸入了。[6]而用戶也可以選擇停用這一功能。[7]

對移動設備的支持

對於大多區域、語言,Google 即搜即得可以在應用 Android 2.2+ 或者 iOS 4+ 系統的移動設備上作為測試版功能來使用。[8]

搜索結果即時預覽

Google在搜索結果中提供即時預覽功能,可在點擊搜索結果前預覽對應的網頁。用戶在搜索結果右側的灰色箭頭鼠標懸停,右側空白處便會以圖片的形式給出相應的網頁即時預覽。在部分預覽中,預覽圖片上的相關程度較高的部分文本會突顯於顯示網頁上,從而幫助用戶更好地了解查詢字詞在網頁中將要出現的位置。[9]

預覽中還包含兩個鏈接,一個是緩存網頁,另一個是類似結果。[10]

不過,有些搜索結果可能不會提供預覽。[11]

故障

File:Googlebug.jpg
Google搜尋錯誤頁面

2009年1月31日晚間10時46分(UTC+8)左右,Google搜索引擎的中英文等搜索的結果全部加上了「這個網站可能會損害您的電腦。」。其間,Google的網站管理員中心無法訪問,顯示「Server Error(服務器故障)」。並且有短暫的修復,之後問題仍然存在。此現象約至11時18分(UTC+8)結束,前後至少30分鐘。後Google在官方博客中證實,這是個人為失誤,由於惡意網址庫中不慎包含了地址「/」,導致所有包含「/」的網址皆被認為包含可能傷害電腦的軟體。[12] 在這個故障後,Google News也出現了一些微小的問題。

黑客襲擊

2013年8月26日,幾名巴勒斯坦的黑客劫持了「Google巴勒斯坦」的域名然後使其重定向至他們的網站,並在其網頁上寫了抗議文字。[13][14]

Google搜索在中國

Google.com曾經多次被中國官方以不明理由封鎖。2009年6月18日,中央電視台焦點訪談》節目宣稱谷歌的搜索詞語聯想的功能傳播所謂色情低俗信息。在輸入普通的詞語比如「母親」就會直接聯想到黃色詞語(但事實上在百度等中國大陸搜索引擎同樣存在這種情況)。實情據谷歌Trends功能證據顯示在6月10日里來自北京的IP惡意刷入近百次黃色詞語,使黃色詞彙搜索量猛增。在17日後,此關鍵詞慢慢回復至0,一時間谷歌備受中共喉舌媒體指責。2009年6月24日21時左右,北京的互聯網用戶無法訪問Google.com和Gmail,但使用代理服務器等手段(俗稱翻牆)可以正常訪問。這證明此次Google.com無法在大陸訪問並非Google技術原因而是被大陸官方惡意封鎖。約兩小時後,Google服務恢復訪問[15]

2010年1月14日,Google旗下的Gmail遭到可能來自中國的駭客入侵,並企圖下載中國人權活動人士的電郵。Google後來宣布,Google.cn的搜索服務將關閉,轉由香港域名面向中國大陸用戶提供簡體中文服務。

國際化

Google可以搜索很多的語言,並且提供了多種語言的界面[16]

為了達到幽默效果,Google還提供了以下幾種語言的界面:

參見

參考文獻

外部連結