用戶:Hanteng/研究:內容-來源
User:Hanteng/研究 |
---|
百度百科及中文維基比較研究: |
編輯‧環境: |
政策、發展、素質與數字 |
內容‧來源: |
中美、港台及中國性 |
接收‧使用: |
能見度、地理語言差異及用途 |
研究啟示: |
關於hanteng: |
外部連結 |
研究結果: 地理分佈(世界)
編輯一言蔽之: 「儘管總數上比中文維基多,百度百科的外部連結的世界地理分佈,不如中文維基的多元:ccTLD和geoIP方法產生的地理分區的結果,在世界上幾乎所有的地域各別比較上,中文維基的外部連結數量比百度百科的來的多(差異比例最大地區為歐洲、中東和南美 ,並非中國和美國)。」
根據本人研究所收集的所有百度及中文維基百科條目內容頁所含的外部連結,hanteng利用ccTLD和geoIP兩種地理區分方法,做出一系列地理分佈(世界)圖,由於ccTLD和geoIP方法雖然性質不同,但放在世界地圖上的效果差不多,所以僅先貼上ccTLD圖供參考討論。
圖上所標的數值為多除少所得的倍數值再取log10的值。
注意,根據當時收集資料,百度百科有約2M條目,中文維基有近0.4M ,百度百科為中文維基的近6倍大。在外部連結數上,百度百科有約1.3M,中文維基有0.7M ,百度百科為中文維基的近2倍大。因此,雖然就總數上百度百科擁有比中文維基更多的外部連結數,但其分佈在許多世界上的區域來說,遠比中文維基少。
研究結果: 語言分佈
編輯一言蔽之: 「百度百科絕大部份的外部連結為中文內容(簡體為主),中文維基則較多元」
根據本人研究所收集的所有百度及中文維基百科條目內容頁所含的外部連結,hanteng利用character encoding的區分方法,做出語言分佈餅圖,在此貼上供參考討論。
注意,此研究結果並沒有使用可產生更細膩結果的語言偵測法(language detection),主要是因為以上結果可見不需要更細膩區分如英文和法文的差別,再者語言偵測法可能會產生不必要的誤判,所以用character encoding的區分方法即可以語言的書寫系統(writing system/langauge scripts)做出最主要並少誤差的區分。
接下來還有一張圖是對東亞和中文的簡繁來源做進一步的區分結果,因為Unicode的內容可能是簡可能是繁也有可能是混雜,所以需要進一步分析區分。
研究結果: 語言分佈(東亞與中文)
編輯一言蔽之: 「百度百科絕大部份的東亞與中文的外部連結為全簡體中文內容,中文維基則較平衡」
接續前述結果, hanteng進一步做出東亞與中文語言分佈餅圖,在此貼上供參考討論。注意, 因為Unicode的內容可能是簡可能是繁也有可能是混雜,所以需要進一步分析區分。hanteng設計了一個程式,可以計算出一中文文件偏離全簡體版本的比例(等同於偏近全繁體版本的比例值), 並針對搜集的資料做出相關分佈圖後,選擇不會出錯(誤差控制)的cut off比率,來區分Unicode中文文件的實質簡體繁體傾向性。
上圖清楚呈現,「百度百科絕大部份的東亞與中文的外部連結為全簡體中文內容,中文維基則較平衡」。這也意外發現似乎採用Unicode標準的繁體中文網頁較採用Unicode標準的簡體中文網頁來的多。
研究結果: 語言發展(東亞與中文版本)
編輯一言蔽之: 「百度百科只有簡體中文內容,中文維基則在維基跨言連結中和其他中文版本及中國境內特定語言版本有來往連結關係」,顯見語言政策的多元與否差異。
跨語連結:此圖呈現維基百科中文版(zh)和其他語言的主要連出連入關係在所有跨語連結網的關係,注意其他百度百科只有一種中文語言版本,而維基百科則有其他中文言語版本及文言文版本。圖中顯示
此圖另外版本另發表於
Petzold, T, Liao, H, Hartley, J & J Potts (2012). A world map of knowledge in the making: Wikipedia's inter-language linkage as a dependency explorer of global knowledge accumulation. Leonardo: Art, Science and Technology;45(3).
Petzold, T, Liao, H, Hartley, J & J Potts (2012) A World Map of Knowledge in the Making: Wikipedia’s Inter-language linking as a dependency explorer of global knowledge accumulation, In Schich, M, Malina, R, I Meirelles (Eds) Arts, Humanities and Complex Networks, MIT Press. Links to E-Book and Web Companion.
以下則分享俄文版(ru)、阿拉伯文版(ar)及土耳其文版內容。
研究結果: 地理分佈(選定區域)
編輯一言蔽之: 「考量地域大小後,百度百科和中文維基外部連結差異不在中國和美國的差異,而是在香港、澳門及台灣。」
由於世界地圖顯示資料有其侷限,如面積小的地域的可能分析重要性被隱沒不見,因此為求考量各地區域的大小不同,hanteng將地理分佈的世界分佈結果進一步以考量區域大小的差距來進行百度百科及中文維基百科的外部連結的分佈比較。
這樣的比較,有利於驗證百度員工之前的宣稱,中文用戶不需要維基百科這樣的"外來"(或美國的)東西。研究外部來源的世界分佈,再考量到世界各地域的大小不同,可以分除相關的"大小值"。就有意義的大小值,hanteng取國際權威組織提供的GDP(經濟體大小), 網民人口(非常可能已使用網絡百科的人口), 及人口(潛在使用網絡百科的人口)數值來進行數據的常規化(normalization)比較。如此做就不會隱沒面積小的地域的可能分析重要性。
理論上可以比世界上所有國家/地域,但在比較有效性和全面性取得平衡,hanteng選擇20多個地區來做比較。選擇的標準是以多樣性為主,重要性為輔,所以包括許多發展不一文化不一大小不一的國家及地區,也包括中國美國日本和幾個主要以中文為主要語言的國家和地區。
比較的結果以下圖:第一段資料為尚未考量地域大小,第二段以下則是考量地域大小的結果。
以上結果,尚待進一步的分析和解讀。不過以上資料可清清楚楚的表明一件事,當考量地域大小時,百度百科和中文維基百科外部連結的差異,主要不是「美國和中國」的差異(如百度員工所稱維基百科為「外來」的東西...)。因為美國中國在客觀的經濟及網民人口都很大,直接和其他地域相比有其比較問題,但在除以相關大小數值後,發現百度百科和中文維基百科外部連結的差異,主要是「中國大陸地區和其他以中文為主地區」的差異。這也許對各位維基人來說是基本認識的東西,現在有了這客觀的資料佐證,並且也比較容易對不瞭解維基和百度百科內部運作的一般大眾,或許有增進對兩百科內容傾向性差異的客觀性瞭解。
研究結果: 地理分佈(中美港台)
編輯一言蔽之: 在連往中國的網站中,中文維基並沒有「不夠」中國 ,不過的確是比不上百度百科來的「電子商務」。
一言蔽之: 在連往美國的網站中,百度百科最愛維基百科,而中文維基百科連往的美國網站有明顯地專業及資源集中偏好。
一言蔽之: 在連往香港的網站中,中文維基百科比較接近「百科全書」的多樣包容性:包括香港主要新聞、政府、體育、金融及公共運輸的網站;百度百科不只易受到電子商務/資訊宣傳的外部連結影響,還不如中文維基百科在取得香港主要資訊的多樣和權威。
一言蔽之: 在連往台灣的網站中,中文維基百科比較接近「百科全書」的多樣包容性:包括台灣主要新聞、政府、金融及媒體的網站;百度百科連往台灣的網站在質和量上比香港還差/少。
為了進一步分析並說明維基百科和百度百科在這四地的前15大連結網站的差異比較,以下就分別對中國、美國、香港、台灣這四地的資料做詳細分析,這些分析包含對各別主要網站中連結最多的內容做出分析,為之前未明說的分析內容。
中國
編輯在連往中國的網站中,中文維基百科並沒有「不夠」中國 ,不過的確是比不上百度百科來的「電子商務」。
反差大的地方: 「電子商務」而非「中國官方」
編輯兩百科連往中國最多的前15名網站中,呈現出一個極大的反差:有8個百度百科算是電子商務網站,而維基百科沒有一個是。
這8個百度百科連最多的電子商務網站,有4個是賣書的({1}tushucheng.com, {4}ilucking.com, {5}tushulian.com, {13}beijingtushucheng.com),有3個是旅遊或訂房的 ({3}yoostrip.com, {6}51966.com, and {12}elong.com), 有1個是賣種子或農產品的({9}agri.com.cn)。這8個電子商務網站的連結總量就佔所有百度百科連結的17%。 其他百度百科的前15多連結網站中,有4個是主要入門網站 ({2}sina.com.cn, {7}xinhuanet.com, {14}163.com, {15}qq.com), 其中只有新華網是中國官方所直接擁用。其他網站則是存有不同特殊性質資訊的網站,如{8}xzqh.org有行政區劃、{10}worldpersondictionary.com有世界名人字典、{11}gsdkj.net為礦物。由於網絡百科性質,連到入門網站(如新聞)或資訊網站(如名人字典)是可以想像的,然而這麼多(一半以上)關於書籍及旅遊的電子商務網站連結,是有點奇特。
反差突顯中文維基百科過濾不當來源的效率?
編輯特別值得注意的,百度百科在中國前15大的外連網站中的電子商務網站 ,幾乎沒有被中文維基百科給連結到。也因此,百度百科及中文維基百科的反差數據,也突顯出那4大入 口網站,見N(CW)標下的數字,百度百科及中文維基百科同時連結比較多的網站,正是該4大入門網站。 中文維基百科連往中國最多的前15名網站中,不但排除了電子商務網站,且包括了9個中國主要的入口及新聞網站: {2}xinhuanet.com, {3}sina.com.cn, {4}people.com.cn, {5}163.com, {6}qq.com, {7}cntv.cn, {9}chinanews.com.cn, {12}china.com.cn and {14}sohu.com。值得注意的是其中有5個是由官方媒體所經營管理的新聞網站({2}, {4}, {7}, {9}, {12}),其連結總數也大於其他非官方媒體。
其他中文維基百科連最多的網站包括3個是體育相關網站:{8}beijing2008.cn (北京奧運), {10}dfo.cn (德國足球) and {13}tom.com (美國籃球NBA);2個學術專門資料庫:(1}bioinfo.cn, {11}delta-intkey.com;還有1個政府網站{15}www.gov.cn。
以上結果兩相對照,直接挑戰的是中文維基「不夠」中國的說法 ,不過的確是比不上百度百科來的「電子商務」。的確,若從這些「電子商務」的連結來反向找到百度百科的相關條目內容,就可以發現許多偏向宣傳廣告(infomercial)的內容。中文維基百科的前15大中國網站則以入口及新網資訊網站為主,而有一半以上是官方媒體。中文維基百科因此沒有不夠中國或不願採用中國官方網站來源的問題。
簡言之,差異在有沒有排除電子商務來源,而不是有沒有排除中國或中國官方來源。
美國
編輯在連往美國的網站中,百度百科最愛維基百科,而中文維基百科連往的美國網站有明顯地專業及資源集中偏好。
反差大的地方: 「維基百科」本身還有對「天文及太空」偏好
編輯連往美國網站來說,最有趣的是百度百科連最多的正是維基百科網站。
我近一步檢視資料發現,連最多的是中文再來是英文維基百科,日文維基是差比較多的第三名。其他百度百科連往美國的網站對比於第一名的維基百科網站,在連結數量上大為減少,光是連往維基百科的數量就是第二名的五倍。
按照數量大小,其他百度百科連往美國的網站大致可分三類。第一類是百度百科和中文維基百科同時連很多的網站,這包括主要的籃球網站{4}nba.com和電影資料庫網站{10}imdb.com。第二類網站是百度百科連很多但中文維基百科很少連(小於20)的網站,我發現有10個網站,除中文維基百科本身之外,其餘9個為主要是中文內容的不同主題及功能的網站: {2}souezu.cn (搜尋?), {3}5d6d.com (免費論壇), {5}hao565.cn (年輕人入口), {6}chinaexpertsweb.net (人力資源), {7}asian-chinese-african.org (手工藝電子商務), {8}qdgqtv.cn (線上影片), {11}ey800.cn (醫藥), {12}world-culture-research.org(手工藝電子商務), {14}doudouditu.cn (地圖)。這些網站結果相當可能也是近似資訊宣傳廣告的連結。剩下的網站自成第三類都有兩個百科來源的連結: {9}xikao.com (中國傳統戲劇), {13}eb.com (大英百科) and {15}google.cn (谷歌中國)。總結來說,百度百科的美國連結主要連往維基百科外,還有其他以中文內容為主的網站,其中不少也有可能是資訊宣傳廣告用的連結。
再一次,中文維基百科的連結和百度百科的連結形成反差:中文維基前15大連結美國網站排除了資訊宣傳廣告及可能的電子商務網站,但包括了主要的教育及學術資訊網站,而其中有幾個知識領域特別突出。首先,前9個網站是意想的到的:{1}nih.gov (美國最主要的官方支助的醫療研究中心), {2}doi.org (主管數位物件註冊的非營利網站), {3}sil.org (掌握世界主要語言權威資料庫及資訊的非營利組織), {4}google.com (掌握大量世界網絡書籍及學術搜索的網站), {5}imdb.com (電影資料庫), {6}youtube.com (主要影片網站), {7}nasa.gov (美國太空總署), {8}harvard.edu and {9}caltech.edu (兩個美國主要大學)。
典藏或資料庫的威力: 中文維基人大量引用的美國網站特性
編輯我進一步查看各別網站裏面的資料發現,這些網站之所以享有眾多連結是因為該網站有主要的數位典藏或資料庫。如{1}nih.gov被連最多的是National Center for Biotechnology Information (www.ncbi.nlm.nih.gov),佔所有連結數的75%;{4}google.com被連最多的是Google books,佔所有連結數的34%;{8}harvard.edu被連最多的是NASA Astrophysics Data System (adsabs.harvard.edu) ,佔所有連結數的74% ;{9}caltech.edu被連最多的是NASA/IPAC Extragalactic Database (ned.ipac.caltech.edu),佔所有連結數的92%。
中文維基百科連往美國的大量「天文」及「太空」偏好,更進一步在第10名的{10}seds.org獲到證實。
其他的中文維基百科比較多連的美國網站則含主要wiki網站 ({12}wikia.com) 主要部落格網站 ({14}blogspot.com) 一新聞網站 ({13}nytimes.com)及兩個體育入門網站({11}uefa.com and {15}skysports.com)。
總結來說,中文維基百科連往美國的網站主要集中在權威資訊(如天文及太空網站)或廣泛但集中的媒體來源(如電影、影片及書籍)。雖說就百科內容的性質來說,百度百科也應該連往這些位於美國的網站,但如表所述的數據見N(BB) ,除了{5}imdb.com之外,百度百科連往這些網站的連結數量相當稀少。
香港
編輯在連往香港的網站中,中文維基百科比較接近「百科全書」的多樣包容性:包括香港主要新聞、政府、體育、金融及公共運輸的網站;百度百科不只易受到電子商務/資訊宣傳的外部連結影響,還不如中文維基百科在取得香港主要資訊的多樣和權威。
發散效應 : 數量和品質
編輯連往香港網站的前15多網站兩組相比,百度百科在連結的數量上來說,相對少很多。
仔細看這些外部連結的品質,百度百科的要比中文維基的低。百度百科連往香港的前15中有不少是電子商務網站,其中{1}ysbooking.com, {3}zzfanwen.cn, {4}zhuhere.com, and {7}kuliu.com是旅行/訂房類,而{8}axdfz.gov.cn是茶。他們這些外部連結對百度百科的影響是否正向值得商確,因為反向搜查發現某些只是關於某地一家旅館的條目內容。維基百科似乎成功地過濾掉這些網站的外部連結,就連有少量連結的{8}axdfz.gov.cn現在2012年再搜尋中文維基似乎已無連結。
儘管如此,這5個電子商務網站的連結總數就佔百度連往香港的所有連結數的15%。第2類網站則為資訊宣傳網站: {2}meiweizhongguo.com (食), {5}gglsw.cn (法律), {6}hxcxgl.com (顧問), {10}fushantang.com (功夫和時尚), {12}442.cn (足球), {12}52pk.com (電玩), {13}fjqhdmw.com (現為一夜情網站), and {15}whyydp.com (旅遊資訊)。剩下的二個網站才是以香港為基地的主要媒體網站:{9}yahoo.com (網媒) and {14}tvb.com (電視),這兩者中文維基百科則都有相當數量(5.5k以上)的連結。
兩組資料相比,百度百科和中文維基百科在香港的外部連結的確有發散的效應(相同的交叉少)。
發散差別: 中文維基人引用香港網站較「百科」
編輯發散的效應單就中文維基前15大也可以看到,除了同樣連的不少的{1}yahoo.com, {2}tvb.com分佔前2名,中文維基的前15大更包括了其他香港媒體,包括公共媒體香港電台{5}rthk.org.hk, 商業報紙 {6}atnext.com, {12}on.cc {13}nextmedia.com,及網絡媒體 online media {3}wretch.cc {10}sina.com.hk。除此之外,還有香港政府網站{4}info.gov.hk, {14}legco.gov.hk, {15}lcsd.gov.hk及非營利的香港足球{7}hkfa.com。這15大還包括香港交易所{9}hkex.com.hk及公共通輸({8}mtr.com.hk {11}681busterminal.com)的網站。
中文維基百科連往香港的前15大網站,和百度百科同樣的網站相比,就比較接近「百科全書」的多樣包容性:包括香港主要新聞、政府、體育、金融及公共運輸的網站。在連往香港連結中,百度百科不只易受到電子商務/資訊宣傳的外部連結影響,還不如中文維基百科在取得香港主要資訊的多樣和權威:兩者在連結的數量及品質上大不相同,有發散效應 。
台灣
編輯在連往台灣的網站中,中文維基百科比較接近「百科全書」的多樣包容性:包括台灣主要新聞、政府、金融及媒體的網站;百度百科連往台灣的網站在質和量上比香港還差/少。
發散效應 : 數量和品質
編輯連往台灣網站的前15多網站兩組相比,就像前述香港組的資料類似,百度百科在連結的數量上來說,相對少很多。注意,台灣組的數據比香港還來的糟:百度百科連往香港的前15大,大致上都有250個以上的連結,然而在台灣組數據上只有前3大有250以上的連結。由於連結數量偏低,在此我只單就百度百科連結台灣的前5大做討論。
百度百科連結台灣的前2大分別為中研院{1}sinica.edu.tw和國立故宮博物院{2}npm.gov.tw ,裏面不少為研究及學術典藏或資料庫的資料。第3大為華文音樂網站的電子商務網站。第4大為入門網站{4}yahoo.com。第5大為付費百科網站,包括大英、中國、及台灣百科的付費入門網站。雖然這些網站是反映了百科內容所需的多樣來源特性,但數量之低,意謂著百度百科並沒有太多連往位於台灣的網站。
兩組資料相比,百度百科和中文維基百科在台灣的外部連結的確有發散的效應(相同的交叉少)。
發散差別: 中文維基人引用台灣網站較「百科」
編輯相較之下,中文維基百科在納入連往台灣的外部連結來說,相對的在數量及多樣性上,較百度百科來的「百科」。中文維基百科在連往台灣的外部連結 ,不只包括了前述的中研究{1}sinica.edu.tw 及入門網站 {3}yahoo.com,更包括了台灣的主要報紙媒體,如自由時報 {2}libertytimes.com.tw, 聯合報系 {4}udn.com 及中時報系{5}chinatimes.com。
這15大也包括了其他台灣的主要媒體網站,如電視{15}tvbs.com.tw、網絡媒體media {6}yam.com, {10}nownews.com and {12}pixnet.net。台灣股票的官方權威網站{7}tse.com.tw也在其中。有3個主要大學網站,1個是台北市管轄的中小學網站集合。這15大只有1個是台灣政府的網站:立法院{13}ly.gov.tw。
比較台灣組的資料,中文維基百科的外部連結又一次被證明是更多元、更反映台灣的主要權威資訊來源:特別是包括主要新聞、教育、政府網站,而這些網站在百度百科內則鮮少出現。
唯一例外是百度百科在帳面上比中文維基百科有更多連往故宮博物館的連結,然而就實質上,中文維基百科引用故宮博物館的連結是更多的。這理由主要是因為在中文維基百科中,許多連往故宮的連結都被中繼的檔案命名空間」File:」所取代,因此這些連結在中文維基百科變成了內部連結,而在本研究方法上就算不到了。
(註:2012年12月寫作時,谷歌搜尋中文維基百科中連往故宮網站的數量為 873: 關鍵字「npm.gov.tw site:zh.wikipedia.org」。此數據高於在百度百科的417: 關鍵字「npm.gov.tw site:baike.baidu.com」 。而在中文維基百科的相關谷歌搜尋結果中,有不少正是以 「File:」 為命名空間的結果頁面。)
從台灣和香港的兩組資料可見,百度百科和中文維基百科的外部連結的發散性高,重疊率很低:不只百度百科在連往兩地的連結數量少很多,品質也相較之下因過多電子商務和資訊宣傳網站,而低落不少 ;中文維基百科,相較之下,則包納了香港及台灣的主要新聞及部份政府網站。
小結
編輯以百度百科及維基百科條目內容所有外部連結, 按其geoIP位置分類後的前15名網站比較, 可以有以下觀察:
(研究假設: 百科做為三級內容, 其內容走向可以由其外部引用連結做為內容傾向的分析)
- 百度百科有不少電子商務及infomercial網站(特別在中國和香港, 如香港第14名原為福建單位辦的行政劃區網, 先為一夜情網站);
- 維基百科並非百度相關人士指控的, 不夠「中國」或「中文」;
- 百度百科大量引用維基百科;
- 百度百科並無大量引用來自香港及台灣的網站內容, 同時對相關媒體及政府網站的引用相較為少。
誌謝記錄
編輯謝謝LungZeno、Shizhao、Liangent等的留言和建議,hanteng 將先前地理分佈的研究結果做出更新。解決以下問題:
- 使用China Cache 及Akamai Technologies 的主要中國網站有不少連結geoIP值會判成位於境外的網站,所以把這些geoIP值再回歸到各別網站的主要營運地點,像使用Akamai Technologies的QQ及使用China Cache的中國官方媒體網站。
- 將一些網站的中文名稱做一點修改,以符合最新及資料中主要內容的網站名稱。
研究方法: 地理分佈
編輯伺服器跨界處理
編輯部份網站, 由於其伺服器可能有跨界, 或採用Content Delivery Networks (CDN)的快取服務, 各別的geoIP資料會有跨界分散的現象, 如: qq.com及 sina.com* 的跨界分佈
Row Labels BB CW Grand Total CN 33961 6914 40875 HK 14 985 999 TW 20 383 403 US 38 455 493 Grand Total 34033 8737 42770
- qq.com* 的跨界分佈
Row Labels BB CW Grand Total ?? 51 51 AU 15 15 CN 2009 170 2179 HK 4328 857 5185 TW 1622 19 1641 US 20 20 Grand Total 8045 1046 9091
由於一些中國官方及主要媒體, 有直接及間接證據使用如China Cache的CDN服務,以集中回歸其主要組織或伺服器所在地, 像www.gov.cn, xinhuanet.com, people.com.cn,china.com.cn,cntv.cn,cctv.com,npc.gov.cn,cri.cn都歸為CN來處理。
由於*.sina.com*在各地有不同營運中心,因此沒有再處理。
由於*.qq.com 有直接及間接證據使用如Akamai Technologies的CDN服務,以集中回歸為CN來處理。
hanteng相信對中文維基百科及百度百科的比較研究,將有助維基百科全書的建設。hanteng更相信維基的善意假定亦是互聯網發展的基石。hanteng 的cv及學術部落格 |