維基百科:搜索引擎測試
本頁為操作指南,用於介紹中文維基百科社群的一些實作和操作方式。 本文只是論述,不屬於方針或指引。如果本指南與方針或指引起衝突或不一致,請以方針或指引的條文為準。 |
本頁簡而言之:
|
在維基百科,搜索引擎測試包括Google和其他任何搜索引擎。通過這個方法,部分種類的信息能夠被準確地收集。但值得強調的是,所有的搜索引擎,都不能得到確鑿的答案,而只是簡單的初級啟發或經驗推導。
- 不適合的標題。使用搜索引擎的關鍵詞搜索和搜索結果計量可以很好地檢測到一些維基收錄的不適合的標題。這個方法可以適度地清除一些欺騙、偽造和個人的臆測和假定。它可以用於確認標題是否可以全面地完整地概括條目的內容,當然這種方法也依然存在偏見(見下)。請參見Wikipedia:不適合維基百科的文章以獲得更全面的不準確標題的列表。
- 帶有版權的作品。大量的由新用戶或匿名用戶突然提交給維基的文檔,常常是來源於外部資源簡單的複製粘貼。他們中的一部分違背了版權。(見發現可能的侵權)通常,通過搜索摘錄可以查到這些來自於網絡資源的簡單的複製粘貼。
- 特殊用法。通常,一個單一的概念,尤其是區域性概念,在英語會有各種各樣的解釋。針對同一個姓名不同寫法的一系列調查表明,其中的一部分與其中最通行的寫法非常近似。為了對相關使用作一個快速的對比,可以使用搜索引擎判斷,例如comparing deoxyribose nucleic acid and deoxyribonucleic acid。注意,有一些場合下,搜索引擎測試不能被使用,例如,當一些國際標準已經被認定,像鋁。
- 相關的網站。對於一個高質量的文章(見典範條目),搜索引擎可以用於查詢與此相關的網站,而且確認後可能被鏈接至維基。
- 補充。當然,搜索引擎更利於找到更多補充材料資源。
技巧
編輯網頁搜索並不是搜索引擎的全部。進行某項搜索引擎測試的時候,試着搜索Groups(Usenet)。這是一個迥然不同的例子表示。
Alexa 測試
編輯儘管維基不是一個網頁目錄,但是我們收集那些滿足維基收錄條件的關於網站的文章。
如果你有興趣撰寫一篇關於某個特定網站的維基文章,不如在Alexa(http://www.alexa.com),查一下這個網站是否足夠重要。多數人認同維基應該收錄前100名的網站,當然也可能是前1000名。但是對於甚至沒有在前100000名的網站,一般認為我們將很難認證相關文章的準確性而不能收錄在維基之中。但是,這個中間的灰色區域則很難達成一致意見。
對於有些在前1000名內的網站(如microsoft.com),有必要對其指向進行一些調整,如Microsoft。(目前仍略有爭議)
我們也注意到,因為各種原因的影響,alexa排行也有很大的爭議。例如,alexa軟件僅對Microsoft Windows操作系統和微軟Internet Explorer的用戶有效。所以,例如專門針對Apple Macintosh的相關主題可能將無法進行能夠精確反映其流量的排名。反之,有些網站管理者僅僅為了提升他們的網站排名便安裝Alexa工具條,然後自己訪問自己的網站。Alexa工具欄用戶基數非常小,對於單個用戶頻繁不斷的訪問將對整個結果產生明顯的影響。
參見這裡以獲得更多關於web comics的信息。
搜索引擎上的偏見
編輯當使用搜索引擎來測試重要性或存在性的時候,請牢記偏見的可能,即這個工具傾向於偏向發達國家有互聯網接入條件的人群的當代的標題,所以測試者必須有一定的判斷能力。比如,一個美國當代流行樂壇的音樂組合也許需要幾千個來自搜索引擎的點擊才能夠被大部分維基人認為值得包括,而另一個沒有太多互聯網接入的國家的相同重要的組合就需要少得多的點擊數。而14世紀的大音樂家也許根本從搜索引擎上查詢不到。
Q. 當我要測試一個條目時,我應該看多少個搜索結果?(3個?27個?81個?)
A.也許有上百個!這決定於以下因素:
- 文章的觀點:如果很狹隘,就不用那麼多參考了。試着把觀點分類,(不論是否是一個中立觀點)比如:注意 本體論 (哲學) 和 本體論 (信息科學)的不同。
- 文章的標題:如果是關於一位歷史人物,一兩句來自可靠文獻的話就夠了;如果是關於一個互聯網上的新詞彙,可能加入了100個參考文獻卻依然不合符維基百科的標準。
- 你找到網站的類型:注意網站的開放性。如 The Urban Dictionary,自由的接受所有人的觀點。這在你懷疑一個作者正在自我推銷或者宣傳他自己個人的觀點時尤為重要。一個用戶可以把觀點放到整個互聯網上的公告牌和開放性網站上。
更長遠的判斷: 搜索引擎測試查到的是 流行度,而不是正確性。比如,一個不正確的搜索 en:Charles Windsor 得到了比正確的搜索en:Charles Mountbatten-Windsor多10倍的結果。
而且,有的話題可能不存在於互聯網上,這可能是因為文化因素或者某些地區互聯網的低普及率。
搜尋引擎的限制
編輯很多(也可能是大部分)公開的網頁並未被索引。每個搜索引擎都會捕捉不同的部分。沒有人可以準確說出哪一部分被捕捉。
萬維網的大小估計至少有20億個頁面,但是更深(同時更廣)的網頁預計會超過5千億,因為搜索引擎不會索引數據庫中的內容。這些「動態的」頁面當用戶請求時由網絡服務器生成,因而不會被傳統的搜索引擎索引。美國專利及商標局網站就是一個例子;雖然搜索引擎可以找到它的主頁,用戶也只能通過輸入請求以搜索個人專利的數據庫。