維基百科:資料庫下載

維基百科提供所有完整內容的電子檔案(稱為「資料庫轉儲檔案」)給有興趣的用戶。這些資料可以被重複使用,當作鏡像站點,或是個人使用,或是資料備份,或是分析。所有維基百科文章都在共享創意 署名-相同方式共享 4.0協定下釋出,圖片以及其他檔案則可能以其他的特許條款發佈,詳情參見Wikipedia:著作權資訊

文章下載

編輯

資料庫轉儲檔案,也可特指名為 *-pages-articles.xml.bz2 的檔案,大約每周更新一次。此檔案包含了目前版本的條目、模板、圖片描述及基本的元頁面(不包括討論頁和用戶頁)。這已經可以滿足絕大多數需求了,如有特殊需求,請根據壓縮檔案的描述下載。

(※)注意,不同語言的條目內容不一定相同,歡迎您協助翻譯不完善的條目或提出翻譯請求

圖片及其他檔案

編輯

圖片(以及其他的檔案)的特許條款不一定是以共享創意 署名-相同方式共享 3.0協定發佈,將維基百科上屬於合理使用的圖片或檔案使用在別的用途上可能是違法的。維基百科要求用戶在上載圖片時必須標明著作權資訊,這些資訊也可以在下載頁面取得。

總而言之,你如果要使用這些圖片及檔案,你必須自行判斷,並負起相關責任。

自2007年5月17日之後,維基百科不再開放這些圖片及檔案的BitTorrent(BT)下載。

檔案過大的問題

編輯

由於維基百科的資料量龐大,在下載時可能會遇到一些問題:

下載軟件的限制
下載軟件可能會有單一檔案最大2GB或4GB的限制,如果遇到問題,可以試着用:
檔案系統對單一檔案大小的限制
對於維基百科的檔案大小而言,一般比較容易遇到問題的是FAT
  • FAT16:單一檔案大小的限制是2GB。(在Windows MEWindows NT可以支援到4GB)
  • FAT32/VFAT:4GB。

除此之外,建議您使用MD5檢查下載的檔案是否有損毀。另外下載維基數據庫時請儘量不要使用多線程下載工具以減輕維基伺服器的負擔。

壓縮文件的解壓縮

編輯

電子檔案使用了bzip2gz或7-zip壓縮。解壓方式如下:

  • Microsoft Windows用戶可以使用帶有GUI的7-Zip解壓縮上述兩種檔案格式。如果需要命令列工具,可以安裝cygwin,或者使用google搜尋"windows cli bzip2"找解決方案。
  • Mac OS X的用戶可以透過系統內的bzip2套件解壓縮。或安裝p7-zip。
  • GNU/Linux用戶可直接在命令列下使用bzip2gzip命令進行解壓縮。或安裝p7-zip。

要注意舊版的bzip2套件可能沒有辦法處理超過2GB的檔案。

處理轉儲檔案

編輯

資料庫轉儲檔案有xml格式的和sql格式的,sql可直接匯入資料庫。 xml格式需要解析後匯入資料庫。部分節點需要原樣保留空格,請選擇支援保留空格的xml解析器進行處理,以免遺失資訊。

外部連結提供了一些已有的解析器實現以及wiki標記式語言的格式說明,可以作為自製解析器的參考。 當然,中文幫助也是必不可少的。

關於建立維基鏡像的操作,可以參考外部連結,或使用Google搜尋了解詳細步驟。
如果要取得執行維基百科的軟件,請參見Wikipedia:MediaWiki

您可以取得Mediawiki資料庫的schema。資料庫的佈局請參考外部連結。

外部連結

編輯