维基百科讨论:统计/存档3
本页是以往讨论的存档。请勿编辑本页。若您想发起新讨论或重启现有讨论,请在当前讨论页进行。 |
hanteng会陆续将可以释出原始或半成品统计资料
hanteng会陆续释出原始或半成品的研究统计资料,目标主要是希望能以open data 开放第一手来源资料来鼓励其他研究者来进行加工研究,也希望能因此加强资料的可依赖性及可信度。以下第一个是超级用户的地理区域。
研究结果查证: 百度百科BB及维基百科CW的超级用户的地理区域
关于本人研究制图的2012资料 (见右图), 其来源根据的半成品其实已放在Google Doc可供各位参考,并帮助查证并指出可能错误的地方: 注意,
- 百度百科BB的百科蝌蚪团成员列表是以该页列表编程爬文的结果
- 维基百科CW的管理员列表则因为不只有一个来源, 而是以个人参考众来源的推估的结果
若有对制图结果比较有想法想要讨论的,请至互助客栈先前讨论区块参考先前讨论并留言。--(研究维基和百度百科的hanteng|留言) 2013年1月11日 (五) 23:40 (UTC)
研究结果: 地理分布
以下研究结果, 请拨时间读后提供改进批评, 也欢迎发问, 谢谢。
以百度百科及维基百科条目内容所有外部链接, 按其geoIP位置分类后的前15名网站比较, 可以有以下观察: (研究假设: 百科做为三级内容, 其内容走向可以由其外部引用连结做为内容倾向的分析)
- 百度百科有不少电子商务及infomercial网站(特别在中国和香港, 如香港第14名原为福建单位办的行政划区网,
先现为一夜情网站); - 维基百科并非百度相关人士指控的, 不够“中国”或“中文”;
- 百度百科大量引用维基百科;
- 百度百科并无大量引用来自香港及台湾的网站内容, 同时对相关媒体及政府网站的引用相较为少。
--(研究维基和百度百科的hanteng|留言) 2012年12月21日 (五) 02:55 (UTC)
- “无名小站”是台湾网站。--LungZeno(talk) 2012年12月25日 (二) 18:07 (UTC)
* 我在台北用TPE-FREE查其ip得到:
Non-authoritative answer: Name: tw1-ycpi-uno.gycpi.b.yahoodns.net Addresses: 203.84.197.25 203.84.197.26 203.84.197.27 203.84.197.9 Aliases: www.wretch.cc geoycpi-uno.gycpi.b.yahoodns.net fo-tw1-ycpi-uno.gycpi.b.yahoodns.net
然后查其geoip得到的是香港,是不是因为雅虎服务器在香港的关系啊?--Liao Zhongkai(留言) 2012年12月28日 (五) 12:02 (UTC)
2012年12月24日 (一) 12:00 (UTC) 以前
- 请不要用大图洗版面,我已经修改了大小了。--马呵说念诶多哗铎★爱生活爱萝莉塔 2012年12月21日 (五) 03:23 (UTC)
- (:)回应以同一般页框宽度为宜。(研究维基和百度百科的hanteng|留言) 2012年12月21日 (五) 05:38 (UTC)
- 信息量很大--百無一用是書生 (☎) 2012年12月21日 (五) 09:49 (UTC)
- 百度最顶上那几个明显是被散发的广告链接,可能(比如)那些网站上有的图书就每个相应百科页面加一个指向网站的链接。Liangent(留言) 2012年12月21日 (五) 12:19 (UTC)
- (+)同意SPAM的鐡证(研究维基和百度百科的hanteng|留言) 2012年12月21日 (五) 13:02 (UTC)
- 百度最顶上那几个明显是被散发的广告链接,可能(比如)那些网站上有的图书就每个相应百科页面加一个指向网站的链接。Liangent(留言) 2012年12月21日 (五) 12:19 (UTC)
- 信息量很大--百無一用是書生 (☎) 2012年12月21日 (五) 09:49 (UTC)
- 百度做为假的中国民族企业应当闭上那个臭嘴!!!ltdccba--Jason--Lin⇒ 2012年12月23日 (日) 14:54 (UTC)
- (:)回应以同一般页框宽度为宜。(研究维基和百度百科的hanteng|留言) 2012年12月21日 (五) 05:38 (UTC)
那图片在违反授权条款
- 其实你明不明白维基百科计划及其姊妹计划?
- 你那图片上传去了 Commons ,你就不能“仅供维基人内部讨论,请勿引用”,你最多只能表明,那仅是草稿,引用的话可能会出错。
--LungZeno(talk) 2012年12月23日 (日) 20:20 (UTC)
- (:)回应:著佐权的概念我是知道的,这些图片利用Commons释出就不能禁止改作,但是否能被学术正式引用,hanteng 仅提醒著作人格权的部分,提醒著佐权释出是有免责的部分,基本上意思是,我目前这样释出,符合Commons相关著佐权规范和保护,其保护包括这不是我正式的学术发表,免除我的学术引用的人格责任,请您明辨著佐权的概念及使用,在人格权和财产权的区分。谢谢您的指教, 若还是有可议可改进之处,请您继续提供建言。(见您参考我不喜欢某人在其衍生著作中利用我的作品的方式,那么我还能怎么办?.. “意即,原作者可以依其作品内容受到不当变更而致其名誉受损的情形,来采取行动。当然,并非所有的原作者不喜欢的衍生著作都会被视为“不当变更”。”)--(研究维基和百度百科的hanteng|留言) 2012年12月24日 (一) 03:51 (UTC)
- Commons不是因为 知识共享 等授权条款而存在,反之,Commons是因为要达成它的使命和目的才采用 知识共享 等授权条款。
- 如果你真的想讲 copyleft 的话,当中有不少人是反对“知识产权”的概念,认为这样的类推并不正确,有严重谬误。(TIPO=>Intellectual property)我是其中之一,但我们并不皆反对赚钱。
- --LungZeno(talk) 2012年12月24日 (一) 09:17 (UTC)
- (:)回应:我同意您说的Commons是因为要达成它的使命和目的才采用 知识共享 等授权条款, 所以您的意思是, 这些图片(a)不适合上传还是(b)要更改加注字眼? 请您提供您觉得适合的字眼好吗? 我读到的是"a media file repository making available public domain and freely-licensed educational media content (images, sound and video clips) to everyone, in their own language.", 我只是希望这个档案先在中文维基内部先讨论,然后随着正式出版, 我可以更新, 若有幸出版到其他二手来源如专书或期刊, 更新的内容就可以用在百科全书等等的条目内容。我想您能体会我的需要, 我仍决定用CC授权, 只是想要提醒使用者, 这是work in progress, 不适合学术或正式引用。--(研究维基和百度百科的hanteng|留言) 2012年12月24日 (一) 09:28 (UTC)
- 上面这样的图片建议还是以讨论用途的名义暂时存在中文维基中,等正式的版本想释放版权时再上传Commons。因为记忆中上传Commons的图是禁止在图片上加注限制版权或放上有个人签名意味的标志或字样。--泅水大象™ 讦谯☎ 2012年12月24日 (一) 12:41 (UTC)
- 收到, 我会思考如何不让人误会版权有受额外限制(我没有要限制版权的财产权的意思)我只是要确保人格权(我不能为还没有确定稿的内容负学术责任), 若各位有什么好的建议, 请告知, 因为我会觉得放在中文维基上仍有类似的问题。不然我还是用英文的好了: "Work in progress, do not cite"? 引用和使用在这情况是两码子事, 我再找找有没有相关指引。--(研究维基和百度百科的hanteng|留言) 2012年12月24日 (一) 14:15 (UTC)
- 上面这样的图片建议还是以讨论用途的名义暂时存在中文维基中,等正式的版本想释放版权时再上传Commons。因为记忆中上传Commons的图是禁止在图片上加注限制版权或放上有个人签名意味的标志或字样。--泅水大象™ 讦谯☎ 2012年12月24日 (一) 12:41 (UTC)
- (?)疑问:我改加字眼“Work in progress. Use but do not cite.”好吗? 根据en:Wikipedia:Wikipedia_is_a_work_in_progress及en:Wikipedia:Citing Wikipedia和还有Wikipedia: use but do not cite。--(研究维基和百度百科的hanteng|留言) 2012年12月24日 (一) 14:23 (UTC)
- (※)注意更新:我先暂时用“Work in progress. Use but do not cite.”若各位还有关于(a)CC释出或(b)存放Commons的疑问和建议, 还请不吝提出。--(研究维基和百度百科的hanteng|留言) 2012年12月25日 (二) 03:22 (UTC)
- 你其实是想说“不适合引用”而不是想说“不准许引用”吧?
- 你不应该命令他人做或不做那些事,取而代之的可行做法是描述那著作特性、原因、后果。
- 你使用 copyleft 类授权条款就不能这样加以限制别人,否则 copyleft 也就不是 copyleft ,或许讲 copyleft 会模糊了焦点,我换句讲法, copyleft 类授权条款属于自由版权授权条款,你使用自由版权授权条款就不能这样加以限制别人,否则自由版权授权条款也就不是自由版权授权条款。
- 就算现在 Commons 给你使用的授权条款真的允许你这样做,但只要 Commons 的使命、目的或理念不变,Commons 人早晚也会修正授权条款或改用其他合适的授权条款,你那些东西早晚会被清除。
- 依我理解,澳洲国立大学那个网页是在呼吁你不要引用,如果那个网页是讲他们的规则,那么那是他们的规则,不是讲 copyleft 、自由版权、 Commons 或维基百科。
- --LungZeno(talk) 2012年12月25日 (二) 11:21 (UTC)
- 补充。那个 WretchTIPO 的网志文所说的是,在发生那种事时,你可行的做法,并不是说,未发生就先禁止。
- --LungZeno(talk) 2012年12月25日 (二) 12:35 (UTC)
- (※)注意更新:我先暂时用“Work in progress. Use but do not cite.”若各位还有关于(a)CC释出或(b)存放Commons的疑问和建议, 还请不吝提出。--(研究维基和百度百科的hanteng|留言) 2012年12月25日 (二) 03:22 (UTC)
- (:)回应或可参考Wikipedia:引用维基百科+Wikipedia:免责声明+维基百科:风险声明的用词:“使用但不适合引用, 原作者不对内容的正确性承担任何风险”但这样有点长就是了。不知LungZeno有何建议?--Liao Zhongkai(留言) 2012年12月28日 (五) 12:12 (UTC)
- (:)回应LungZeno您觉得“使用但因仍是草稿不适合引用 (风险自负)”?--(研究维基和百度百科的hanteng|留言) 2013年1月3日 (四) 01:42 (UTC)
更新: 跨界分布的问题请大家给具体意见
(※)注意更新:原图的中文题名为自动搜寻结果, 有一些偏差, 现已手动更正以符合其对应的网域名词。另为暂时解决LungZeno及泅水大象™ 关于CC释出及存放Commons的问题, 已做更新。
(?)疑问: 部分网站, 由于其服务器可能有跨界, 或采用Content Delivery Networks (CDN)的快取服务, 各别的geoIP资料会有跨界分散的现象, 如:
- sina.com* 的跨界分布
Row Labels BB CW Grand Total CN 33961 6914 40875 HK 14 985 999 TW 20 383 403 US 38 455 493 Grand Total 34033 8737 42770
- qq.com* 的跨界分布
Row Labels BB CW Grand Total ?? 51 51 AU 15 15 CN 2009 170 2179 HK 4328 857 5185 TW 1622 19 1641 US 20 20 Grand Total 8045 1046 9091
请问各位会如何处理? 会依原分散方式做比较还是回归其企业主要公司或服务器所在地? hanteng目前是把一些中国官方及主要媒体, 有直接及间接证据使用如China Cache的CDN服务集中回归其主要组织或服务器所在地, 像www.gov.cn, xinhuanet.com, people.com.cn,china.com.cn,cntv.cn,cctv.com,npc.gov.cn,cri.cn都归为CN来处理, 不过像qq.com及sina.com似乎在各地真的有营运, 而不是用组织外部的如China Cache的CDN服务, 所以不太能决定应该要怎么处理, 会符何比较百度百科和中文维基百科外部链接地理分类比较的研究用意。请各位提供您的看法和意见。--(研究维基和百度百科的hanteng|留言) 2012年12月25日 (二) 03:37 (UTC)
- (:)回应我猜你可以试着用像中国网站必需要有的ICP许可证有无的类似思考来决定,比如说若新浪在数地都有营运登记,就采分开,若只是使用Cache servers的服务来做内容加速下载,而无相关的营运登记,那么就应该要回归到原网站营运登记的地点。--Liao Zhongkai(留言) 2012年12月28日 (五) 12:18 (UTC)
- 谢谢你您的意见值得参考, 试试。-(研究维基和百度百科的hanteng|留言) 2013年1月3日 (四) 01:30 (UTC)
问题: 电子商务网站的认定问题
hanteng 为处理两百科外部链接的内容所处网站的性质比较, 将一些网站编码为ecommerce电子商务网站, 如tushucheng.com yoostrip.com ilucking.com tushulian.com 51966.com agri.com.cn elong.com beijingtushucheng.com ysbooking.com zzfanwen.cn zhuhere.com hxcxgl.com kuliu.com axdfz.gov.cn 等, 发现中文维基百科各地前15完全没有电子商务网站的连结, 但百度百科不但有, 这些网站的连结总数在所有其中国连结总数的17.39%, 在香港这数字是17.87%。
(?)疑问: 请问以上的电子商务网站认定是否合理, 有什么要增减的吗? --(研究维基和百度百科的hanteng|留言) 2012年12月25日 (二) 03:48 (UTC)
- (:)回应: 百度百科有大量鳝稿,这问题你问百度百科资深使用者就知道。在维基百科,这类东西会因为可信性和中立性而被回退甚至删掉。百度百科的做法则是相反的,他们叫这做“商业合作”(不记得是否这用词),不但明暗兼具地招揽鳝稿,而且任何加入去不利那些鳝稿的资讯都会被移除。--LungZeno(talk) 2012年12月26日 (三) 08:15 (UTC)
- (?)疑问:请问有没有不利那些鳝稿的资讯都会被移除的一个实例吗? 是因为商业竞争的动机还是什么动机呢? --Liao Zhongkai(留言) 2012年12月28日 (五) 11:44 (UTC)
- 谢谢你两位的意见, 不过这似乎有点小离题(虽然有趣), 我这里的问题是在电子商务网站的认定方面, 不过我已找到替代解释方法了(请期待)。若回到您们谈的鳝稿现像和动机, 国外有做维基抵制link spam的研究。LungZeno可否说一下, 鳝稿真的是百度百科资深使用者会用的词吗? 我能相信这现像是他们知悉的, 但是否那词是他们会用的, 我想请您考量一下。--(研究维基和百度百科的hanteng|留言) 2013年1月3日 (四) 01:39 (UTC)
- (:)回应:在中国境内的网站, 有区分经营性ICPvs非经营性ICP(指不以赢利为目的)的两种ICP许可证, 我不知道要上哪里找登记资料, 但应该有助于你对网站性质做出电子商务网站及非电子商务网站的区分。--Liao Zhongkai(留言) 2012年12月28日 (五) 11:44 (UTC)
- (:)回应:看来有些难度, 我现在的处理方式改成查询其公司网页, 看有没有在该地有分公司或营运单位, 有的话就保留原geoip, 若无则算回其总部所在地。--(研究维基和百度百科的hanteng|留言) 2013年1月3日 (四) 01:32 (UTC)
研究结果: 比较百度百科BB及维基百科CW的超级用户的地理区域分布
请问就您们的经验, 以下根据百度百科及维基百科超级用户的地理分布(超级用户: 百度蝌蚪 vs 维基管理员), 您们的印象和反应为何? 在全球, 2012资料:
拉近看东亚, 2012及2009资料:
请大家容忍我在此副标下依时序做次标分类和折叠整理, 这样子做比较好分别对您的提问一一做回应, 不这样做我真的有点难对各式提问做出迅速及妥善回应。若您只要是抒发自己意见而看法, 而不需要我个人的回应的话, 请您下一个额外同级(两个减号)的平行副标,请体贴我回应要花的阅读和写作的心力, 在此先谢过。--(研究维基和百度百科的hanteng|留言) 2012年12月23日 (日) 10:14 (UTC)
- (~)补充:可和我制做的全球汉人分布图做参照。
请分享您们的看法, 以及可以改进的地方, 谢谢。--(研究维基和百度百科的hanteng|留言) 2012年12月23日 (日) 10:17 (UTC)
- 汉族人口分布的图,白色部分是没有数据,还是人口低于1,000?--O-ring(留言) 2012年12月23日 (日) 13:19 (UTC)
- 您好, 该资料来源为中华人民共和国境内用的是2010年人口普查数据, 而中华人民共和国境外则用的是中华民国的侨务机关的统计资料。所以如果您指的是中华人民共和国境内白色, 那么是人口低于1,000, 因为普查没有缺资料, 如果您指的是中华人民共和国境外资料, 那么这图展现的是中华民国的侨务机关的统计资料, 见汉族#汉族人口的世界分布图的内文, 谢谢。--(研究维基和百度百科的hanteng|留言) 2012年12月23日 (日) 13:33 (UTC)
- 这个不错........把数据都弄出来了............ltdccba--Jason--Lin⇒ 2012年12月23日 (日) 14:53 (UTC)
- 看完这个分析结果就知道,百度百科基本上只是一个小圈圈围起来自己写自己的网站,缺乏跨越族群的世界观(虽然这个‘小圈圈’里面人口还蛮多的)。但也有个很有趣的现象是,参与维基百科编辑的大陆人大都聚集在主要都市,不似百度那般分散在大陆各地区。这两个现象之中,前者几乎可以说是必然的结果,对于港澳与台湾人来说只有简体字的百度的存在与否根本无足轻重,但是我很好奇为何维基百科的大陆power user会只集中在少数几个城市,是巧合还是有逻辑上或统计上的原因?--泅水大象™ 讦谯☎ 2012年12月24日 (一) 05:52 (UTC)
- (:)回应感谢您的发问:关于您的看法(百度仅简体字排除港台用户)也是hanteng考量的可能解释假说之一,不过关于是否百度百科就是小圈圈而维基百科就不是,可能不同人会有不同看法。我比较有一点把握的假说是(见#研究结果: 历史比较),东亚及中国网民在成长的历史和地理份布上,维基百科和百度百科的发展史,影响了其用户的分布,百度百科是在中国网民主体(early 及late majority),特别是在非沿海城市的大幅成长时,取得许多新兴的用户,(这也是维基百科不如百度百科在后期大量到各地推广的差别)当然,其他用户有不同的看法,您也可以参考比较一下。(研究维基和百度百科的hanteng|留言) 2012年12月24日 (一) 06:03 (UTC)
- 看完这个分析结果就知道,百度百科基本上只是一个小圈圈围起来自己写自己的网站,缺乏跨越族群的世界观(虽然这个‘小圈圈’里面人口还蛮多的)。但也有个很有趣的现象是,参与维基百科编辑的大陆人大都聚集在主要都市,不似百度那般分散在大陆各地区。这两个现象之中,前者几乎可以说是必然的结果,对于港澳与台湾人来说只有简体字的百度的存在与否根本无足轻重,但是我很好奇为何维基百科的大陆power user会只集中在少数几个城市,是巧合还是有逻辑上或统计上的原因?--泅水大象™ 讦谯☎ 2012年12月24日 (一) 05:52 (UTC)
- 如果是在研究中国大陆以外地区,维基百科这种非商业网站与同类型商业网站之间的比较,个人认为Yahoo!(奇摩)知识是个可以作为参考组的探讨比较对象,因为这网站在港澳与台湾拥有不低的参与度。虽然其运作方式与维基百科不同,但参与的用户与维基百科用户之间有某种程度的同质性。--泅水大象™ 讦谯☎ 2012年12月24日 (一) 06:11 (UTC)
- (:)回应您说的现像在我搜集的SERPUser:Hanteng#研究结果: 视觉化网络图相符,基本上次级百科网站如互动、Yahoo!(奇摩)知识有明显的地理语言特性,不过维基百科似乎还是比较跨多一点不同的地理语言,zh-tw,zh-hk,zh-cn。--(研究维基和百度百科的hanteng|留言) 2012年12月24日 (一) 07:17 (UTC)
- 如果是在研究中国大陆以外地区,维基百科这种非商业网站与同类型商业网站之间的比较,个人认为Yahoo!(奇摩)知识是个可以作为参考组的探讨比较对象,因为这网站在港澳与台湾拥有不低的参与度。虽然其运作方式与维基百科不同,但参与的用户与维基百科用户之间有某种程度的同质性。--泅水大象™ 讦谯☎ 2012年12月24日 (一) 06:11 (UTC)
- (:)回应:有趣的资料收集和制图,辛苦了,不过在下有一问,百度蝌蚪 vs 维基管理员有可比性吗?就我所知,维基百科一般成员的编辑权限其实不会少于百度蝌蚪的"特权"。这样子比较有可比性吗?--Liao Zhongkai(留言) 2012年12月28日 (五) 11:55 (UTC)
- (:)回应:您的质疑有道理, 但在我要处理的问题则变的不是那么重要。您说编辑权限两者不具可比性, 是再正确也不过的 (显然您对两百科都有了解), 然而我的地理分布只是在比较, 两个社群的特殊用户的地理分部差异。说的好听一点是比较两者的精英编辑的地理份布比较, 说的比较不好听的是, 若要做所有用户的地理分布比较, 在资料的可靠性、能不能收集的到、怎么处理都是难以克服的研究障碍。以上理由, 希望您能体谅。--(研究维基和百度百科的hanteng|留言) 2013年1月3日 (四) 01:13 (UTC)
- (:)回应 再比较一下互动百科吧-- ──★── 2012年12月28日 (五) 13:51 (UTC)
- (:)回应:您的意思是也来看互动百科的power users的分布吗? 这是可以做的, 但已超出hanteng的研究范围。不过若有任何人想做, 需要研究方法、工作、甚或至已收集到相关资料只是不清楚制图的做法, hanteng都愿抽空帮忙。--(研究维基和百度百科的hanteng|留言) 2013年1月3日 (四) 01:07 (UTC)
- 这个百度百科蝌蚪团员的区域分布是如何制作的?据我所知,蝌蚪团员中是有海外用户的。昨天和一位蝌蚪团用户谈到这个,他也认为这张图不准确。具他所知,江西省是有蝌蚪团的用户的,但是您的图中江西省为空白。观光维基观光团小F(留言) 2013年1月5日 (六) 00:30 (UTC)
- 本来就是不科学的东西你还问来有什么用?他能够获取的只是公开数据,只要有一个江西人在上海读书,然后称自己在上海又不公布自己的所属省份,那数据就会出现严重偏差。外地工作的也是同理,而且工作地北上广深圳轮流转,但实际上根本不是本地人。--下限魔法少年爱德华★爱生活爱圆神爱萝莉塔 2013年1月5日 (六) 00:35 (UTC)
- (:)回应:您好,其实原始资料己放在Google Doc上, 也有不少维基人来信问过。欢迎您认识的蝌蚪团用户来信指正。--(研究维基和百度百科的hanteng|留言) 2013年1月11日 (五) 23:45 (UTC)
- (~)补充:可否问一下您认识的蝌蚪团用户, 若我要去他们的贴吧寻求查证意见,要去哪一页面最合适。--(研究维基和百度百科的hanteng|留言) 2013年1月11日 (五) 23:48 (UTC)
- 本来就是不科学的东西你还问来有什么用?他能够获取的只是公开数据,只要有一个江西人在上海读书,然后称自己在上海又不公布自己的所属省份,那数据就会出现严重偏差。外地工作的也是同理,而且工作地北上广深圳轮流转,但实际上根本不是本地人。--下限魔法少年爱德华★爱生活爱圆神爱萝莉塔 2013年1月5日 (六) 00:35 (UTC)
研究结果: 语言分布(东亚与中文)
一言蔽之: “百度百科绝大部分的东亚与中文的外部链接为全简体中文内容,中文维基则较平衡”
接续前述结果, hanteng进一步做出东亚与中文语言分布饼图,在此贴上供参考讨论。注意, 因为Unicode的内容可能是简可能是繁也有可能是混杂,所以需要进一步分析区分。hanteng设计了一个程式,可以计算出一中文文件偏离全简体版本的比例(等同于偏近全繁体版本的比例值), 并针对搜集的资料做出相关分布图后,选择不会出错(误差控制)的cut off比率,来区分Unicode中文文件的实质简体繁体倾向性。
上图清楚呈现,“百度百科绝大部分的东亚与中文的外部链接为全简体中文内容,中文维基则较平衡”。这也意外发现似乎采用Unicode标准的繁体中文网页较采用Unicode标准的简体中文网页来的多。
若您有问题想要hanteng早一点或私下回应,请寄私信给hanteng本人(本人email见此网站所列)。--(研究维基和百度百科的hanteng|留言) 2013年1月12日 (六) 01:45 (UTC)
研究结果: 地理分布(选定区域)
一言蔽之: “考量地域大小后,百度百科和中文维基外部链接差异不在中国和美国的差异,而是在香港、澳门及台湾。”
由于世界地图显示资料有其局限,如面积小的地域的可能分析重要性被隐没不见,因此为求考量各地区域的大小不同,hanteng将地理分布的世界分布结果进一步以考量区域大小的差距来进行百度百科及中文维基百科的外部链接的分布比较。
这样的比较,有利于验证百度员工之前的宣称,中文用户不需要维基百科这样的"外来"(或美国的)东西。研究外部来源的世界分布,再考量到世界各地域的大小不同,可以分除相关的"大小值"。就有意义的大小值,hanteng取国际权威组织提供的GDP(经济体大小), 网民人口(非常可能已使用网络百科的人口), 及人口(潜在使用网络百科的人口)数值来进行数据的常规化(normalization)比较。如此做就不会隐没面积小的地域的可能分析重要性。
理论上可以比世界上所有国家/地域,但在比较有效性和全面性取得平衡,hanteng选择20多个地区来做比较。选择的标准是以多样性为主,重要性为辅,所以包括许多发展不一文化不一大小不一的国家及地区,也包括中国美国日本和几个主要以中文为主要语言的国家和地区。
比较的结果以下图:第一段资料为尚未考量地域大小,第二段以下则是考量地域大小的结果。
以上结果,尚待进一步的分析和解读。不过以上资料可清清楚楚的表明一件事,当考量地域大小时,百度百科和中文维基百科外部链接的差异,主要不是“美国和中国”的差异(如百度员工所称维基百科为“外来”的东西...)。因为美国中国在客观的经济及网民人口都很大,直接和其他地域相比有其比较问题,但在除以相关大小数值后,发现百度百科和中文维基百科外部链接的差异,主要是“中国大陆地区和其他以中文为主地区”的差异。这也许对各位维基人来说是基本认识的东西,现在有了这客观的资料佐证,并且也比较容易对不了解维基和百度百科内部运作的一般大众,或许有增进对两百科内容倾向性差异的客观性了解。
若您有问题想要hanteng早一点或私下回应,请寄私信给hanteng本人(本人email见此网站所列)。--(研究维基和百度百科的hanteng|留言) 2013年1月12日 (六) 01:02 (UTC)
研究结果: 语言分布
一言蔽之: “百度百科绝大部分的外部链接为中文内容(简体为主),中文维基则较多元”
根据本人研究所收集的所有百度及中文维基百科条目内容页所含的外部链接,hanteng利用character encoding的区分方法,做出语言分布饼图,在此贴上供参考讨论。
注意,此研究结果并没有使用可产生更细腻结果的语言侦测法(language detection),主要是因为以上结果可见不需要更细腻区分如英文和法文的差别,再者语言侦测法可能会产生不必要的误判,所以用character encoding的区分方法即可以语言的书写系统(writing system/langauge scripts)做出最主要并少误差的区分。
接下来还有一张图是对东亚和中文的简繁来源做进一步的区分结果,因为Unicode的内容可能是简可能是繁也有可能是混杂,所以需要进一步分析区分。
若您有问题想要hanteng早一点或私下回应,请寄私信给hanteng本人(本人email见此网站所列)。--(研究维基和百度百科的hanteng|留言) 2013年1月12日 (六) 01:35 (UTC)
研究结果查证: 百度百科BB及维基百科CW的超级用户的地理区域
关于本人研究制图的2012资料 (见右图), 其来源根据的半成品其实已放在Google Doc可供各位参考,并帮助查证并指出可能错误的地方: 注意,
- 百度百科BB的百科蝌蚪团成员列表是以该页列表编程爬文的结果
- 维基百科CW的管理员列表则因为不只有一个来源, 而是以个人参考众来源的推估的结果
若各位对该结果查证方面的问题有疑问的,请在此讨论,若有对制图结果比较有想法想要讨论的,请回头至先前讨论区块参考先前讨论并留言。--(研究维基和百度百科的hanteng|留言) 2013年1月11日 (五) 23:31 (UTC)
研究结果: 地理分布(世界)
一言蔽之: “尽管总数上比中文维基多,百度百科的外部链接的世界地理分布,不如中文维基的多元:ccTLD和geoIP方法产生的地理分区的结果,在世界上几乎所有的地域各别比较上,中文维基的外部链接数量比百度百科的来的多(差异比例最大地区为欧洲、中东和南美 ,并非中国和美国)。”
根据本人研究所收集的所有百度及中文维基百科条目内容页所含的外部链接,hanteng利用ccTLD和geoIP两种地理区分方法,做出一系列地理分布(世界)图,由于ccTLD和geoIP方法虽然性质不同,但放在世界地图上的效果差不多,所以仅先贴上ccTLD图供参考讨论。
图上所标的数值为多除少所得的倍数值再取log10的值。
注意,根据当时收集资料,百度百科有约2M条目,中文维基有近0.4M ,百度百科为中文维基的近6倍大。在外部链接数上,百度百科有约1.3M,中文维基有0.7M ,百度百科为中文维基的近2倍大。因此,虽然就总数上百度百科拥有比中文维基更多的外部链接数,但其分布在许多世界上的区域来说,远比中文维基少。
若您有问题想要hanteng早一点或私下回应,请寄私信给hanteng本人。--(研究维基和百度百科的hanteng|留言) 2013年1月12日 (六) 00:41 (UTC)
研究结果: 地理分布(中美港台)
一言蔽之: 在连往中国的网站中,中文维基并没有“不够”中国 ,不过的确是比不上百度百科来的“电子商务”。
一言蔽之: 在连往美国的网站中,百度百科最爱维基百科,而中文维基百科连往的美国网站有明显地专业及资源集中偏好。
一言蔽之: 在连往香港的网站中,中文维基百科比较接近“百科全书”的多样包容性:包括香港主要新闻、政府、体育、金融及公共运输的网站;百度百科不只易受到电子商务/资讯宣传的外部链接影响,还不如中文维基百科在取得香港主要资讯的多样和权威。
一言蔽之: 在连往台湾的网站中,中文维基百科比较接近“百科全书”的多样包容性:包括台湾主要新闻、政府、金融及媒体的网站;百度百科连往台湾的网站在质和量上比香港还差/少。
谢谢LungZeno、Shizhao、Liangent等的留言和建议,hanteng 将先前地理分布的研究结果做出更新。解决以下问题:
- 使用China Cache 及Akamai Technologies 的主要中国网站有不少连结geoIP值会判成位于境外的网站,所以把这些geoIP值再回归到各别网站的主要营运地点,像使用Akamai Technologies的QQ及使用China Cache的中国官方媒体网站。
- 将一些网站的中文名称做一点修改,以符合最新及资料中主要内容的网站名称。
为了进一步分析并说明维基百科和百度百科在这四地的前15大连结网站的差异比较,以下就分别对中国、美国、香港、台湾这四地的资料做详细分析,这些分析包含对各别主要网站中连结最多的内容做出分析,为之前未明说的分析内容。
中国
在连往中国的网站中,中文维基百科并没有“不够”中国 ,不过的确是比不上百度百科来的“电子商务”。
反差大的地方: “电子商务”而非“中国官方”
两百科连往中国最多的前15名网站中,呈现出一个极大的反差:有8个百度百科算是电子商务网站,而维基百科没有一个是。
这8个百度百科连最多的电子商务网站,有4个是卖书的({1}tushucheng.com, {4}ilucking.com, {5}tushulian.com, {13}beijingtushucheng.com),有3个是旅游或订房的 ({3}yoostrip.com, {6}51966.com, and {12}elong.com), 有1个是卖种子或农产品的({9}agri.com.cn)。这8个电子商务网站的连结总量就占所有百度百科连结的17%。 其他百度百科的前15多连结网站中,有4个是主要门户网站 ({2}sina.com.cn, {7}xinhuanet.com, {14}163.com, {15}qq.com), 其中只有新华网是中国官方所直接拥用。其他网站则是存有不同特殊性质资讯的网站,如{8}xzqh.org有行政区划、{10}worldpersondictionary.com有世界名人字典、{11}gsdkj.net为矿物。由于网络百科性质,连到门户网站(如新闻)或资讯网站(如名人字典)是可以想像的,然而这么多(一半以上)关于书籍及旅游的电子商务网站链接,是有点奇特。
- 反正天津轨道交通这个条目...用了天津某知名媒体的来源之后下场都很惨....反正随便一写...要怎样才能令人信服阿....ltdccba--Jason--Lin⇒ 2013年1月14日 (一) 11:29 (UTC)
反差突显中文维基百科过滤不当来源的效率?
特别值得注意的,百度百科在中国前15大的外连网站中的电子商务网站 ,几乎没有被中文维基百科给连结到。也因此,百度百科及中文维基百科的反差数据,也突显出那4大入 口网站,见N(CW)标下的数字,百度百科及中文维基百科同时连结比较多的网站,正是该4大门户网站。 中文维基百科连往中国最多的前15名网站中,不但排除了电子商务网站,且包括了9个中国主要的入口及新闻网站: {2}xinhuanet.com, {3}sina.com.cn, {4}people.com.cn, {5}163.com, {6}qq.com, {7}cntv.cn, {9}chinanews.com.cn, {12}china.com.cn and {14}sohu.com。值得注意的是其中有5个是由官方媒体所经营管理的新闻网站({2}, {4}, {7}, {9}, {12}),其连结总数也大于其他非官方媒体。
其他中文维基百科连最多的网站包括3个是体育相关网站:{8}beijing2008.cn (北京奥运), {10}dfo.cn (德国足球) and {13}tom.com (美国篮球NBA);2个学术专门数据库:(1}bioinfo.cn, {11}delta-intkey.com;还有1个政府网站{15}www.gov.cn。
以上结果两相对照,直接挑战的是中文维基“不够”中国的说法 ,不过的确是比不上百度百科来的“电子商务”。的确,若从这些“电子商务”的连结来反向找到百度百科的相关条目内容,就可以发现许多偏向宣传广告(infomercial)的内容。中文维基百科的前15大中国网站则以入口及新网资讯网站为主,而有一半以上是官方媒体。中文维基百科因此没有不够中国或不愿采用中国官方网站来源的问题。
简言之,差异在有没有排除电子商务来源,而不是有没有排除中国或中国官方来源。 --(研究维基和百度百科的hanteng|留言) 2013年1月12日 (六) 15:44 (UTC)
美国
在连往美国的网站中,百度百科最爱维基百科,而中文维基百科连往的美国网站有明显地专业及资源集中偏好。
反差大的地方: “维基百科”本身还有对“天文及太空”偏好
连往美国网站来说,最有趣的是百度百科连最多的正是维基百科网站。
我近一步检视资料发现,连最多的是中文再来是英文维基百科,日文维基是差比较多的第三名。其他百度百科连往美国的网站对比于第一名的维基百科网站,在连结数量上大为减少,光是连往维基百科的数量就是第二名的五倍。
按照数量大小,其他百度百科连往美国的网站大致可分三类。第一类是百度百科和中文维基百科同时连很多的网站,这包括主要的篮球网站{4}nba.com和电影数据库网站{10}imdb.com。第二类网站是百度百科连很多但中文维基百科很少连(小于20)的网站,我发现有10个网站,除中文维基百科本身之外,其余9个为主要是中文内容的不同主题及功能的网站: {2}souezu.cn (搜寻?), {3}5d6d.com (免费论坛), {5}hao565.cn (年轻人入口), {6}chinaexpertsweb.net (人力资源), {7}asian-chinese-african.org (手工艺电子商务), {8}qdgqtv.cn (线上影片), {11}ey800.cn (医药), {12}world-culture-research.org(手工艺电子商务), {14}doudouditu.cn (地图)。这些网站结果相当可能也是近似资讯宣传广告的连结。剩下的网站自成第三类都有两个百科来源的连结: {9}xikao.com (中国传统戏剧), {13}eb.com (大英百科) and {15}google.cn (谷歌中国)。总结来说,百度百科的美国连结主要连往维基百科外,还有其他以中文内容为主的网站,其中不少也有可能是资讯宣传广告用的连结。
再一次,中文维基百科的连结和百度百科的连结形成反差:中文维基前15大连结美国网站排除了资讯宣传广告及可能的电子商务网站,但包括了主要的教育及学术资讯网站,而其中有几个知识领域特别突出。首先,前9个网站是意想的到的:{1}nih.gov (美国最主要的官方支助的医疗研究中心), {2}doi.org (主管数位物件注册的非营利网站), {3}sil.org (掌握世界主要语言权威数据库及资讯的非营利组织), {4}google.com (掌握大量世界网络书籍及学术搜索的网站), {5}imdb.com (电影数据库), {6}youtube.com (主要影片网站), {7}nasa.gov (美国太空总署), {8}harvard.edu and {9}caltech.edu (两个美国主要大学)。
典藏或数据库的威力: 中文维基人大量引用的美国网站特性
我进一步查看各别网站里面的资料发现,这些网站之所以享有众多连结是因为该网站有主要的数位典藏或数据库。如{1}nih.gov被连最多的是National Center for Biotechnology Information (www.ncbi.nlm.nih.gov),占所有连结数的75%;{4}google.com被连最多的是Google books,占所有连结数的34%;{8}harvard.edu被连最多的是NASA Astrophysics Data System (adsabs.harvard.edu) ,占所有连结数的74% ;{9}caltech.edu被连最多的是NASA/IPAC Extragalactic Database (ned.ipac.caltech.edu),占所有连结数的92%。
中文维基百科连往美国的大量“天文”及“太空”偏好,更进一步在第10名的{10}seds.org获到证实。
其他的中文维基百科比较多连的美国网站则含主要wiki网站 ({12}wikia.com) 主要部落格网站 ({14}blogspot.com) 一新闻网站 ({13}nytimes.com)及两个体育门户网站({11}uefa.com and {15}skysports.com)。
总结来说,中文维基百科连往美国的网站主要集中在权威资讯(如天文及太空网站)或广泛但集中的媒体来源(如电影、影片及书籍)。虽说就百科内容的性质来说,百度百科也应该连往这些位于美国的网站,但如表所述的数据见N(BB) ,除了{5}imdb.com之外,百度百科连往这些网站的连结数量相当稀少。 --(研究维基和百度百科的hanteng|留言) 2013年1月12日 (六) 15:44 (UTC)
香港
在连往香港的网站中,中文维基百科比较接近“百科全书”的多样包容性:包括香港主要新闻、政府、体育、金融及公共运输的网站;百度百科不只易受到电子商务/资讯宣传的外部链接影响,还不如中文维基百科在取得香港主要资讯的多样和权威。
发散效应 : 数量和品质
连往香港网站的前15多网站两组相比,百度百科在连结的数量上来说,相对少很多。
仔细看这些外部链接的品质,百度百科的要比中文维基的低。百度百科连往香港的前15中有不少是电子商务网站,其中{1}ysbooking.com, {3}zzfanwen.cn, {4}zhuhere.com, and {7}kuliu.com是旅行/订房类,而{8}axdfz.gov.cn是茶。他们这些外部链接对百度百科的影响是否正向值得商确,因为反向搜查发现某些只是关于某地一家旅馆的条目内容。维基百科似乎成功地过滤掉这些网站的外部链接,就连有少量连结的{8}axdfz.gov.cn现在2012年再搜寻中文维基似乎已无连结。
尽管如此,这5个电子商务网站的连结总数就占百度连往香港的所有连结数的15%。第2类网站则为资讯宣传网站: {2}meiweizhongguo.com (食), {5}gglsw.cn (法律), {6}hxcxgl.com (顾问), {10}fushantang.com (功夫和时尚), {12}442.cn (足球), {12}52pk.com (电玩), {13}fjqhdmw.com (现为一夜情网站), and {15}whyydp.com (旅游资讯)。剩下的二个网站才是以香港为基地的主要媒体网站:{9}yahoo.com (网媒) and {14}tvb.com (电视),这两者中文维基百科则都有相当数量(5.5k以上)的连结。
两组资料相比,百度百科和中文维基百科在香港的外部链接的确有发散的效应(相同的交叉少)。
发散差别: 中文维基人引用香港网站较“百科”
发散的效应单就中文维基前15大也可以看到,除了同样连的不少的{1}yahoo.com, {2}tvb.com分占前2名,中文维基的前15大更包括了其他香港媒体,包括公共媒体香港电台{5}rthk.org.hk, 商业报纸 {6}atnext.com, {12}on.cc {13}nextmedia.com,及网络媒体 online media {3}wretch.cc {10}sina.com.hk。除此之外,还有香港政府网站{4}info.gov.hk, {14}legco.gov.hk, {15}lcsd.gov.hk及非营利的香港足球{7}hkfa.com。这15大还包括香港交易所{9}hkex.com.hk及公共通输({8}mtr.com.hk {11}681busterminal.com)的网站。
中文维基百科连往香港的前15大网站,和百度百科同样的网站相比,就比较接近“百科全书”的多样包容性:包括香港主要新闻、政府、体育、金融及公共运输的网站。在连往香港连结中,百度百科不只易受到电子商务/资讯宣传的外部链接影响,还不如中文维基百科在取得香港主要资讯的多样和权威:两者在连结的数量及品质上大不相同,有发散效应 。 --(研究维基和百度百科的hanteng|留言) 2013年1月14日 (一) 07:39 (UTC)
台湾
在连往台湾的网站中,中文维基百科比较接近“百科全书”的多样包容性:包括台湾主要新闻、政府、金融及媒体的网站;百度百科连往台湾的网站在质和量上比香港还差/少。
发散效应 : 数量和品质
连往台湾网站的前15多网站两组相比,就像前述香港组的资料类似,百度百科在连结的数量上来说,相对少很多。注意,台湾组的数据比香港还来的糟:百度百科连往香港的前15大,大致上都有250个以上的连结,然而在台湾组数据上只有前3大有250以上的连结。由于连结数量偏低,在此我只单就百度百科连结台湾的前5大做讨论。
百度百科连结台湾的前2大分别为中研院{1}sinica.edu.tw和国立故宫博物院{2}npm.gov.tw ,里面不少为研究及学术典藏或数据库的资料。第3大为华文音乐网站的电子商务网站。第4大为门户网站{4}yahoo.com。第5大为付费百科网站,包括大英、中国、及台湾百科的付费门户网站。虽然这些网站是反映了百科内容所需的多样来源特性,但数量之低,意谓著百度百科并没有太多连往位于台湾的网站。
两组资料相比,百度百科和中文维基百科在台湾的外部链接的确有发散的效应(相同的交叉少)。
发散差别: 中文维基人引用台湾网站较“百科”
相较之下,中文维基百科在纳入连往台湾的外部链接来说,相对的在数量及多样性上,较百度百科来的“百科”。中文维基百科在连往台湾的外部链接 ,不只包括了前述的中研究{1}sinica.edu.tw 及门户网站 {3}yahoo.com,更包括了台湾的主要报纸媒体,如自由时报 {2}libertytimes.com.tw, 联合报系 {4}udn.com 及中时报系{5}chinatimes.com。
这15大也包括了其他台湾的主要媒体网站,如电视{15}tvbs.com.tw、网络媒体media {6}yam.com, {10}nownews.com and {12}pixnet.net。台湾股票的官方权威网站{7}tse.com.tw也在其中。有3个主要大学网站,1个是台北市管辖的中小学网站集合。这15大只有1个是台湾政府的网站:立法院{13}ly.gov.tw。
比较台湾组的资料,中文维基百科的外部链接又一次被证明是更多元、更反映台湾的主要权威资讯来源:特别是包括主要新闻、教育、政府网站,而这些网站在百度百科内则鲜少出现。
唯一例外是百度百科在账面上比中文维基百科有更多连往故宫博物馆的连结,然而就实质上,中文维基百科引用故宫博物馆的连结是更多的。这理由主要是因为在中文维基百科中,许多连往故宫的连结都被中继的档案命名空间”File:”所取代,因此这些连结在中文维基百科变成了内部链接,而在本研究方法上就算不到了。
(注:2012年12月写作时,谷歌搜寻中文维基百科中连往故宫网站的数量为 873: 关键字“npm.gov.tw site:zh.wikipedia.org”。此数据高于在百度百科的417: 关键字“npm.gov.tw site:baike.baidu.com” 。而在中文维基百科的相关谷歌搜寻结果中,有不少正是以 “File:” 为命名空间的结果页面。)
从台湾和香港的两组资料可见,百度百科和中文维基百科的外部链接的发散性高,重叠率很低:不只百度百科在连往两地的连结数量少很多,品质也相较之下因过多电子商务和资讯宣传网站,而低落不少 ;中文维基百科,相较之下,则包纳了香港及台湾的主要新闻及部分政府网站。
这次总算是做了点有意义的分析,感谢hanteng。--下限魔法少年爱德华★爱生活爱圆神爱萝莉塔 2013年1月12日 (六) 16:19 (UTC)
研究结果: 找出断裂
根据前述#网络计量学: 比较维基百科和百度百科在各地搜索引擎的可见度,我们可以看出,对于选定的搜寻关键字来说,百科内容的网站享有的能见度是累积最高的,但对不同的中文搜索引擎及不同的地方版本,会有不同的百科网站的能见度差异。
其实,对其他网站来说,这样因中文搜索引擎及地方版本的差异,而有能见度的差异,我们可以利用网络关系图来找出富有连结及少有连结的差异。总结这些差异,研究者可以找出网络连结的断裂之处,来看出在中文搜索引擎的不同版本所产生的能见网站的共同之处(同时富有连结) ,和断裂之处(只有对部分版本富有连结,而另版本则少有连结)。
区块建模结果
利用能见度前100名的网站,按其能见度数值,以数学方法的二维网络关系区块建模(two-mode blockmodelling),则成功将原资料100x9(100网站x9搜寻可能)产出一个3x3分类(3类网站x3类搜寻可能)的分类结果:
其中三类区分出的搜寻可能为:
- Baidu_CN,Google_CN, Yahoo_CN 3者, 这3搜寻可能变异,只对能见度前100名的网站中61个网站(13+48)富有连结,而对其他39网站(包括中文维基百科等,见上图左上角大区块中多为白色底少有连结的网站列表)则有相对断裂的效果。
- Yahoo_SG,Google_SG, Google_TW, Google_HK 4者, 这4搜寻可能变异,对能见度前100名的大多数网站富有连结,算是所有9个搜寻可能变异的中流,较无断裂的效应。其对百度百科和维基百科的能见度贡献,相较前后类来说,也算是较持平的。
- Yahoo_HK,Yahoo_TW 2者, 这2搜寻可能变异,只对能见度前100名的网站中52个网站(=39+13)富有连结,而对其他48网站(包括百I度百科等,见上图右下角大区块中多为白色底少有连结的网站列表)则有相对断裂的效果。
同样地,100个网站也因区块建模分类,分成三类网站:
- 见上图列出的前上半段39个网站,这些网站对Baidu_CN,Google_CN, Yahoo_CN 3者相对少有连结。
- 见上图列出的中间段13个网站,这些网站对各种搜寻可能变异,一般来说没有特别夸张的差异表现。
- 见上图列出的后下半段48个网站,这些网站对Yahoo_HK,Yahoo_TW 2者相对少有连结。
换句话说,区块建模分类算是一个划出界线找出断裂的工具之一:按连结关系(可见度高低)原资料选取的前100网站,可以分成3类,而原资料中9搜寻可能亦可分为3类。原来复杂的100x9网络关系图,就可以简约化成3x3的网络关系区块图,是以其交互关系来分类的成果。
视觉化结果
依区块建模结果,将原资料中9搜寻可能亦可分为3类,放回能见度视觉化的网络图来看,就像是将9搜寻可能以2条红线划出3分类如下图:
结果讨论
- 搜寻可能呈现CN一类、Yahoo的TW及HK一类,而这两类位于两端,其实在中间的区分效果
- CN一类或许和中国大陆地区网络特殊性相关?
- Yahoo的TW及HK一类应该是Yahoo在搜索引擎的内定预设,为本地搜寻结果优先的原因,而两者一类,或因Yahoo服务同样是繁体用户区的整合效果。
- 百度百科主要是对CN一类有很高的能见度,但也对Yahoo及Google的新加坡版本能见度也不低,或者是因为新加坡及中国大陆同样用简体字的整合效果?
- 注意Yahoo及Google的新加坡版本,虽然易看见百度百科,但也常看见中文维基百科。
- 注意CN一类的Baidu_CN,Google_CN, Yahoo_CN ,虽然易看见百度百科,但郤不常看见中文维基百科。
- 以上对比也映证了按能见度区块建模分类的区分效果。
- 中文维基百科主要是对非CN一类有很高的能见度,但Google_CN对中文维基百科其实也不算低。
- 合理推论,在中国大陆,使用哪一种搜索引擎会影响是否常见中文维基百科的几率。
结果总结
- 按各地中文搜寻结果及网站能见度,可大致找到断裂之处,主要是中国大陆与非中国大陆之间有搜寻断裂的差异。
- 中文维基百科对各地中文用户的能见度整合效果(同时看到同样内容),比百度百科相对高,但只限于使用Google_CN的中国大陆用户。
- 百度百科仅对中国及新加坡简体中文用户有高度能见度整合效果(同时看到同样内容)。
--(研究维基和百度百科的hanteng|留言) 2013年1月14日 (一) 17:16 (UTC)
法轮功主要网站和新华网及华夏经纬网被分在同一组?
(图见#区块建模结果) 就以上的研究结果可以挖出不少有趣的平常人看不到的观察,如
- 华夏经纬网的big5版本,big5.huaxia.com很有趣的在百度并不可见,而是要到其他的地域才看的到。由于华夏经纬网是PRC中央国家机关特定新闻单位网站,这说明了中国官方媒体在间隔分区做的努力,对台的繁体字宣传还是要做,但会和其他简体字内容做出网站和使用者的区隔。
- 新华网的big5版本,big5.xinhuanet.com很有趣的在百度并不可见,而是要到其他的地域才看的到。由于新华网是PRC中央国家机关新闻单位网站,这说明了中国官方媒体在间隔分区做的努力,对台的繁体字宣传还是要做,但会和其他简体字内容做出网站和使用者的区隔。
- 法轮功主要网站epochtimes 也是和华夏经纬网big5、新华网big5、及维基百科被区块建模分类在同一类的网站,就是在中国CN的搜索引擎能见度都相对很低。如何能理解为什么法轮功主要网站和华夏经纬网big5、新华网big5遭到相同命运呢?我的诠释是因为在其他非中国的搜索引擎能见度相对开放,所以能接纳不管是法轮功和华夏经纬网big5、新华网big5等的关键字宣传,然而中国CN的搜索引擎(特别是Baidu )则明白的将这些网站给予很低的能见度。换句话说,中国官方的宣传战或可以说已/只决战于境外,境内则连自己对外的(big5)宣传可能都不是很清楚,华夏经纬网big5、新华网big5的特定能见度分布像法轮功网站的原因可能在此。--(研究维基和百度百科的hanteng|留言) 2013年1月15日 (二) 16:43 (UTC)
中国境内搜索结果的偏好性:几点观察
(图见#区块建模结果)回头看建模出的分类资料,可以利用引用来源(将搜索结果视为搜索引擎引用他网站)的反向推测索引范围,还有百度搜索结果在众网站的偏好,以上结果有趣且清楚的是:
- 中国境内搜索结果不偏好中文维基百科 (Google China现在在香港版本例外)
- 中国境内搜索结果不偏好中国政府直接控制网站的big5版本(纯繁体版本)
- 中国境内搜索结果不偏好法轮功网站 (Google China现在在香港版本例外)
- 中国境内搜索结果不偏好香港政府网站 (Google China现在在香港版本例外)
- 中国境内搜索结果不偏好台湾政府网站 (Google China现在在香港版本例外)
此处中国境内搜索结果指百度和雅虎。
此上结果也间接促使以上网站在#区块建模结果中被数学方法归为同一类,产生#法轮功主要网站和新华网及华夏经纬网被分在同一组?的有趣现象。 --(研究维基和百度百科的hanteng|留言) 2013年1月16日 (三) 01:51 (UTC)
- 这种基本常识还要拿来刷版?--Kuailong™ 2013年1月16日 (三) 03:26 (UTC)
- 验证一下基本常识也是好的,只不过版面占用太多了。—Snorri(留言) 2013年1月16日 (三) 03:34 (UTC)
- 嘛,不要跟对中国毫无认识的人说这种话了,人家是需要用到复杂的数学模型,才能推断出中国人多数是黄种人这一事实。--下限魔法少年爱德华★爱生活爱圆神爱萝莉塔 2013年1月16日 (三) 03:37 (UTC)
- (:)回应不知道User:Edouardlicn为什么可以离题到中国人多数是黄种人的所谓数学模型上,不过他提了,正可以来提提自然人类学等相关条目的常识问题,见#黄种人与常识。--(研究维基和百度百科的hanteng|留言) 2013年1月18日 (五) 00:50 (UTC)
- 嘛,不要跟对中国毫无认识的人说这种话了,人家是需要用到复杂的数学模型,才能推断出中国人多数是黄种人这一事实。--下限魔法少年爱德华★爱生活爱圆神爱萝莉塔 2013年1月16日 (三) 03:37 (UTC)
- (:)回应您说的"常识"是以下的事吗?
...所以我认为,用微不足道的维基百科跟百度百科来比较数据,就必须要将外部因素考虑进去,尤其是政府政策和垄断企业的打压。--马呵说念诶多哗铎★爱生活爱萝莉塔 2012年12月22日 (六) 07:33 (UTC)
若各位真认为常识就够,而个人研究没有价值,那么就留给其他人做评判就好。绝大多数研究百科的内容结果都尚未放在此处供大家讨论(包括真正接受中国政府用中国公民纳税人资助的研究成果),请各位也思考一下,那些研究结果应不应该来供大家讨论并回应。--(研究维基和百度百科的hanteng|留言) 2013年1月16日 (三) 05:28 (UTC)
- 应该,但不应该贴在客栈影响他人讨论进程。--下限魔法少年爱德华★爱生活爱圆神爱萝莉塔 2013年1月16日 (三) 13:33 (UTC)
- 这个研究也许会有价值,不过请先写出一篇完整的文章(至少是draft)再发出来讨论。--Gilgalad 2013年1月17日 (四) 01:33 (UTC)
- 他的目的就是为了灌水刷优越感,当然不可能写出完整的文章了。让人类平等地认知世界(留言) 2013年1月17日 (四) 06:57 (UTC)
- (:)回应学术文章将会在其他场合发表后再此提出讨论,如前所述,hanteng只是对社群提出原始资料的初步分析,目的是要听听不同角度对这些资料的看法,若大家对hanteng的结论认为不符合资料或有偏差的可以尽量提出,但请以资料为出发,谢谢。至于User talk:Xiehechaotian灌水刷优越感的指控,我想我这样做如何在客观上维持他说的优越感, 还是要面对众多不同(有时只是纯干扰)的声因,应该是很难的,我选择想听各位意见,就要面临部分人的不切题讨论、嘲讽、甚至人身攻击,但对知识生产及社群发展的严肃需要,高于个人在维基受部分用户的无端指控。只好选择相信维基平台还有基本的历史记录和对相关统计资料讨论的兴趣,只求不冒犯维基社群多数人。--(研究维基和百度百科的hanteng|留言) 2013年1月18日 (五) 00:50 (UTC)
网络计量学: 比较维基百科和百度百科在各地搜索引擎的可见度
百科的使用者访问量许多来自Google、Yahoo、百度等搜索引擎透过台湾、香港、中国、新加坡等等地方界面而来, 维基百科和百度百科的可见度(visibility)为何呢? 根据数个产业报告, 我建构了一个可见度数量计算方法 (visibility scores), 我分别在2011年牛津及2012年香港及中国境内, 以不同的搜索引擎和地方界面, 分别利用2500个及3000个关键字搜寻来比较维基百科和百度百科在各地搜索引擎的可见度。
搜寻关键字选取
2500个搜寻关键字选取以代表多样性选取为原则, 从剑桥中国大百科的所有条目名称、历年百度谷歌搜寻最多的关键字、知名人士、敏感词、中日现代词汇都有。 3000个搜寻关键字选取则是多加了财星五百大企业名称 Fortune 500。 感谢维基百科的自动转换系统,我可以轻易的把这些搜寻关键字转换成对映的简体及繁体字词,以便我在不同地区界面使用对映的主流字词。
研究结果: 视觉化网络图
有图有真相, 果然百科网站表现最好, 而地域界面和搜索引擎的选择决定了是哪个百科比较容易出现: 视觉化网络图, 点愈大代表该网站愈有可见度, 箭头愈大该搜索引擎-地域界面的贡献愈大
研究结果: 比比关键字对能见度的影响
不同类型的关键字, 果然最有能见度的网站排名就不一样。想要知道哪一个非百科网站的能见度对哪一种类别的关键字最有效吗? 见以下列表: (注意三个百科网站有加粗标出)
- 2011 OX
- 2012 HK (多了Fortune 500的搜寻关键字)
研究结果: 能见度的集中程度
网站累积的能见度总分数, 若以前几名网站总和占总分数的方式做图, 则会发现极少数的网站拥有相当高的能见度数值。 而其中, 2012HK的数值似乎又比2011OX的数值更往前几名网站分布的走向, 似乎有富者愈富, 贫者愈富的能见度数值分布倾向。
以上内容还请大家提问也提供您的批评指教。因为这蛮长的,若讨论长,请容忍hanteng对此副标下的讨论按时序做通用折叠处理,以方便本人快速分批回复。 --(研究维基和百度百科的hanteng|留言) 2012年12月24日 (一) 07:24 (UTC)
2012年12月24日 (一) 12:00 以后
你在这里发表,只吸引到小白,甚至没有人回复,说明你发错地方,你这些研究应该在META或者年会上发表才是对维基有帮助。Angrykit(留言) 2012年12月25日 (二) 07:24 (UTC)
- 请注意你的用词,谢谢。--马呵说念诶多哗铎★爱生活爱萝莉塔 2012年12月25日 (二) 07:34 (UTC)
回应: 谢谢Angrykit的意见, 个人觉在发表在这, 发表在Wikimania, 发表在Wikisyn, 发表在CIRC, 都有不同的场合不同的观众和用意,若一般的维基人没能回复, 这样的沉默不代表什么。我的相关研究的确是到过维基基金会总部(个人受英国维基基金会赞助)做报告过的, 今年也会去投Wikisym +Open Sym 2013, 也会想法子投专门的媒体研究或网络计量学研究期刊。在此谢谢您的鼓励和建议, 但在社群页面分享成果是必要, 望您谅解。--(研究维基和百度百科的hanteng|留言) 2013年1月3日 (四) 01:02 (UTC)
- “使”用维基百科的名义做研究吗?申请基金的好办法。--下限魔法少年爱德华★爱生活爱圆神爱萝莉塔 2013年1月5日 (六) 00:38 (UTC)
- (:)回应: 像目前维基基金会研究委员会及其研究通讯所努力的,正是在维基百科发展上以扎实的研究来找到发展的未来关键及现有盲点。为其他商业网站或政府网站做同样或类似的研究,可以获得更高额的薪水及名声,因此请不要以您简单一句话来勾消众多研究维基百科发展的研究者的辛苦成果和动机。若您对我本人有什么不满,请您直接表述,不要用言语指涉到愿意(通常无商业回报)投资研究的地方组织和群体。--(研究维基和百度百科的hanteng|留言) 2013年1月14日 (一) 08:08 (UTC)
- (!)意见--也许看的人有限、表达意见的人更不多,但是,却让经过的人都知道 有人在这么从多面向研究维基百科,其他用户以后真有什么想法、意见,也知道可以来此分享、贡献观点,这是发挥社群的功能,我觉得对维基的发展是很好的。鼓励您贴。互助客栈 本来就是可以交流,当然包括 学术交流。何况,这还牵涉到 维基的 长期发展。感谢维基百科的存在,自然也感谢您对 维基研究 的贡献。Wetrace(留言) 2013年1月23日 (三) 10:19 (UTC)
研究结果: 语言发展(东亚与中文版本)
一言蔽之: “百度百科只有简体中文内容,中文维基则在维基跨言连结中和其他中文版本及中国境内特定语言版本有来往连结关系”,显见语言政策的多元与否差异。
跨语连结:此图呈现维基百科中文版(zh)和其他语言的主要连出连入关系在所有跨语连结网的关系,注意其他百度百科只有一种中文语言版本,而维基百科则有其他中文言语版本及文言文版本。图中显示
此图另外版本另发表于
Petzold, T, Liao, H, Hartley, J & J Potts (2012). A world map of knowledge in the making: Wikipedia's inter-language linkage as a dependency explorer of global knowledge accumulation. Leonardo: Art, Science and Technology;45(3).
Petzold, T, Liao, H, Hartley, J & J Potts (2012) A World Map of Knowledge in the Making: Wikipedia’s Inter-language linking as a dependency explorer of global knowledge accumulation, In Schich, M, Malina, R, I Meirelles (Eds) Arts, Humanities and Complex Networks, MIT Press. Links to E-Book and Web Companion.
以下则分享俄文版(ru)、阿拉伯文版(ar)及土耳其文版内容。
- 瑞典语的情况不太对? 在如此靠边的位置? Bluedeck 2013年2月1日 (五) 16:30 (UTC)
- (:)回应:网络图的视觉化有多种算法,而2D和3D也有差别,若您对瑞典语有兴趣,最好是拿原始档再多跑一次来看其位置,这个图主要是以中文为主的视角,所以其他的或有偏差。我用的视觉算法是重力相关的,没关系或闗系少就互斥,有关系或关系强就互吸,然而这关系图中心及边陲的效应太强,所以各种视觉化效果难像其他网络易于收敛,但不减其看特定语言在整体网络互连的连入/出的关系。--(研究维基和百度百科的hanteng|留言) 2013年2月1日 (五) 17:10 (UTC)
中文维基百科浏览量前1000名的页面(2012年12月)
[1],虽然不知道准确性如何,但可以参考看看,2013年1月的数据还没出来。--Alexchris(留言) 2013年2月6日 (三) 02:08 (UTC)
- 有几个Undefined和类似编码的是什么?——Sakamotosan 2013年2月6日 (三) 02:55 (UTC)
- 不知道是什么...--Alexchris(留言) 2013年2月6日 (三) 03:19 (UTC)
- Undefined是怎么回事就不知道了,但那些“Wikipedia:\xE9\xA6\x96\xE9\xA1\xB5”的,把“\x”换成“%”,然后访问一下,你就知道是什么了。--不是机器人的小猫咪(留言) 2013年2月6日 (三) 15:26 (UTC)
- 不知道是什么...--Alexchris(留言) 2013年2月6日 (三) 03:19 (UTC)
- 囧rz...,有60万人来维基找百度。乌拉跨氪 2013年2月6日 (三) 08:28 (UTC)
- 这正说明维基的没落,百度的逆袭即将开始。百度那帮
屌丝看来有颠覆WP的举动。慢慢等吧,中文维基在中国大陆的完全开放看来要再等等咯……Super Wang 2013年2月6日 (三) 11:40 (UTC)- 现在在中国大陆用https就是完全开放吧。--維基小霸王(留言) 2013年2月6日 (三) 11:45 (UTC)
- 囧rz...那么手机党就悲催了。Super Wang 2013年2月11日 (一) 01:59 (UTC)
- 现在在中国大陆用https就是完全开放吧。--維基小霸王(留言) 2013年2月6日 (三) 11:45 (UTC)
- 百度是要逆袭啥啊?在中国大陆百度百科的使用量本来就大胜中文维基,要说“逆袭”也是维基才可能。ffaarr (talk) 2013年2月6日 (三) 12:31 (UTC)
- 百度指数, Google Trend, Alexa 比较
- 各位要比较流量的话,最好是找大网站收集的资料,比小心关键字的选择
- 百度指数比较 vs. Google Trend
- 再来就是Alexa的资料,
- 点traffic能得到subdomain 的比较,没有subdomain 比较就无法比baike.baidu.com vs zh.wikipedia.org
- baike.baidu.com占baidu.com 的17.96% vs. zh.wikipedia.org占wikipedia.org 的 2.05%
- 所以Alexa的看法是Reach%:
- baike.baidu.com (1 month reach) 12.52%*17.96% vs. zh.wikipedia.org (1 month reach) 13.253%*2.05%
- 是Pageviews/User:
- baike.baidu.com (1 month) 15.01*17.96% vs. :# zh.wikipedia.org (1 month) 3.93*2.05%
- 以此类推,
- 至于搜寻量为什么 维基百科 大于 百度百科 而访问量则相反?我不知道。--(研究维基v百度百科的hanteng✉) 2013年2月6日 (三) 14:50 (UTC)
- 之前google adplanner有精确的可以比较子网域以及各地区的数据,比alexa更好用。可惜现在没了,我2012年5月时用该站比较的时候,百度百科总使用页数是中文维基8倍。只算中国大陆的话是32倍。(另注,在2010年6月时,两个差距只是4倍和21倍,可见双方差距是愈来愈大)、搜寻量应该是指百度vs维基百科这样的关键字被搜的次数,但进百度百科的人不代表会用百度当关键字搜,而大多是用条目名来搜的。ffaarr (talk) 2013年2月7日 (四) 12:44 (UTC)
- (:)回应:的确,进百科网站的人未必是本来就要找百科的,但找百科的关键搜查字,仍可做为已知品牌的使用者做的选择,至于其他搜寻字到底是百度百科还是维基百科出线,地域和搜索引擎的选择似乎已决定不少。[4]--(研究维基v百度百科的hanteng✉) 2013年2月10日 (日) 03:59 (UTC)
- 这正说明维基的没落,百度的逆袭即将开始。百度那帮
- 赞成搜索引擎应该是影响最大的。在大陆百度搜索的排序影响最大,条目数和百度差不多的互动百科,在中国大陆的使用量大概只有百度百科的1/20不到。ffaarr (talk) 2013年2月10日 (日) 11:00 (UTC)
- 百度严重地垄断了中国大陆的搜索引擎市场,就连搜狐和新浪的搜索技术提供者都是百度。不过话说这“全球最大”还真不是吹的。Super Wang 2013年2月11日 (一) 02:02 (UTC)
- 还是性别不平衡
和以前一样,从关键字爱好来看还是性别不平衡,不知道是编者还是读者的问题。--(研究维基v百度百科的hanteng✉) 2013年2月6日 (三) 14:27 (UTC) (~)补充: m:WikiWomen's_Collaborative --(研究维基v百度百科的hanteng✉) 2013年2月7日 (四) 01:58 (UTC)
- Undefined name space
2013年2月6日 (三) 10:27 Shizhao(讨论 | 贡献)保护 \xE5\xAE\x89\xE5\x8A\xA0\xE7\x88\xBE [创建=仅管理员](无限期) (多次重复创建) (历史) 2013年2月6日 (三) 10:27 Shizhao(讨论 | 贡献)保护 Wikipedia:\xE9\xA6\x96\xE9\xA1\xB5 [创建=仅管理员](无限期) (多次重复创建) (历史) 2013年2月6日 (三) 10:27 Shizhao(讨论 | 贡献)保护 Undefined [创建=仅管理员](无限期) (多次重复创建) (历史)
--Makecat 2013年2月7日 (四) 02:56 (UTC)
- 囧rz...你咋不早说……但有点阳光就灿烂啊,百度估计是打算一直这样下去。为什么不加入一个baidu:的NAMESPACE,只用谷歌还是不中立。Super Wang 2013年2月7日 (四) 05:33 (UTC)
- 你说跨维基连结?要加baidu,请先把yahoo加进去。-HW论 献 2013年2月9日 (六) 15:11 (UTC)
- 难道雅虎的中文用户多过百度?特殊页面不能直接编辑,怎么加进去也是个难题。Super Wang 2013年2月11日 (一) 02:02 (UTC)
- m:Talk:Interwiki_map,是否批准是另一个问题。-HW论 献 2013年2月11日 (一) 02:19 (UTC)
- 难道雅虎的中文用户多过百度?特殊页面不能直接编辑,怎么加进去也是个难题。Super Wang 2013年2月11日 (一) 02:02 (UTC)
- 你说跨维基连结?要加baidu,请先把yahoo加进去。-HW论 献 2013年2月9日 (六) 15:11 (UTC)
- 囧rz...你咋不早说……但有点阳光就灿烂啊,百度估计是打算一直这样下去。为什么不加入一个baidu:的NAMESPACE,只用谷歌还是不中立。Super Wang 2013年2月7日 (四) 05:33 (UTC)
2013 年 1 月维基百科手机页面浏览量
2013 年 1 月,维基媒体基金会宣布维基百科移动页面浏览量突破 30 亿次,占到总页面浏览量的 14.5%,比上年同时期增长 4.6 个百分点。同时,基金会移动合作业务部门高级经理阿米特·卡普尔(Amit Kapoor)还在 Blog 声称,目标是到今年 6 月,移动页面浏览量达到 40 亿次。
-- ──★── 2013年2月16日 (六) 09:05 (UTC)
- 微博已经看见很多人转发了——Sakamotosan 2013年2月16日 (六) 12:33 (UTC)
- 好事。-HW论 献 2013年2月16日 (六) 12:35 (UTC)
- 对我们(中文区)有意义吗?——Sakamotosan 2013年2月16日 (六) 12:39 (UTC)
- 好事。-HW论 献 2013年2月16日 (六) 12:35 (UTC)
- 话说中国大陆的用户想用手机直接访问维基百科不是那么容易。Super Wang 2013年2月16日 (六) 13:03 (UTC)
- 手机似乎干扰更加严重。--Makecat 2013年2月17日 (日) 09:15 (UTC)
- 别担心,我们有 HTTPS。Wikipedia:HTTPS-- ──★── 2013年2月22日 (五) 01:49 (UTC)
- 手机似乎干扰更加严重。--Makecat 2013年2月17日 (日) 09:15 (UTC)
- 旧事重提,移动装置的上传相片APP何时才开发成功,手机有一堆相片等著上传。某生(留言) 2013年2月17日 (日) 16:03 (UTC)
- 这个APP目前有谁开发么?如果目前没人的话,也许可以联系团队开发?——燃玉 留言 勇踏前人未至之境! 2013年2月17日 (日) 16:13 (UTC)
- 开发了也够戗上得去。中国大陆版Android已经被光荣地阉割了……Super Wang 2013年2月18日 (一) 02:10 (UTC)
- mw:Apps/Commons--HW论 献 2013年2月18日 (一) 02:17 (UTC)
- 移动网页版支持上传图片(开测试模式),如果移动网页版的技术能移植到客户端版就完美了,还有,google市场可以上play市场重新下回来吧——Sakamotosan 2013年2月18日 (一) 02:21 (UTC)
- 那是什么时候的事?现在还可以用的说~ ——燃玉 留言 勇踏前人未至之境! 2013年2月18日 (一) 12:35 (UTC)
- Android版维基共享资源应用程序前数天发布了。-HW论 献 2013年2月28日 (四) 14:00 (UTC)
- 开发了也够戗上得去。中国大陆版Android已经被光荣地阉割了……Super Wang 2013年2月18日 (一) 02:10 (UTC)
为什么非洲有这么多中文维基百科访问量?
如题--爱管闲事且对地图炮具有100%抗性的朝鲜的轮子(留言) 2013年11月18日 (一) 09:09 (UTC)
- 我也一直不得其解...可能经济变好了!?♠奇犽♥·★揍敌客★ 2013年11月19日 (二) 11:58 (UTC)
- 颜色最深的查德跟中非的经济一点都不好……难道那边有人在学习中文?--全无尊严先生(留言) 2013年11月19日 (二) 12:22 (UTC)
- 我也不知道~.~,我也怀疑很久了QAQ♠奇犽♥·★揍敌客★ 2013年11月19日 (二) 12:26 (UTC)
- 颜色最深的查德跟中非的经济一点都不好……难道那边有人在学习中文?--全无尊严先生(留言) 2013年11月19日 (二) 12:22 (UTC)
- 这个图表中的百分比在计算时,分母与分子的确实定义到底是什么?--泅水大象™ 讦谯☎ 2013年11月20日 (三) 11:10 (UTC)
- 按图片说明:“2012年3月至2013年2月中文维基百科在各国浏览量所占比例”。--爱管闲事且对地图炮具有100%抗性的朝鲜的轮子(留言) 2013年11月21日 (四) 12:32 (UTC)
- 再看Wikipedia:统计#用户来源分布对比,意思应该是这个国家中文维基百科浏览量在这个国家各语言维基百科浏览总量(而不是中文维基百科浏览总量)中的比例。这个是可能有一点随机性。--爱管闲事且对地图炮具有100%抗性的朝鲜的轮子(留言) 2013年11月21日 (四) 12:54 (UTC)
- 按图片说明:“2012年3月至2013年2月中文维基百科在各国浏览量所占比例”。--爱管闲事且对地图炮具有100%抗性的朝鲜的轮子(留言) 2013年11月21日 (四) 12:32 (UTC)
- 这个图表中的百分比在计算时,分母与分子的确实定义到底是什么?--泅水大象™ 讦谯☎ 2013年11月20日 (三) 11:10 (UTC)
- 只要3%就要染最深的颜色。 --达师 - 270 - 456 2013年11月23日 (六) 11:27 (UTC)
- 或许是因为这些国家本来就没几个人能上网,于是分母太小,移民过去的中国人随便点两下就上去了。。前段时间看到维基英文版决定启动给非洲一些国家以短信形式发送条目,因此地多不通网络或上网条件太高。--浅蓝雪❉ 2013年11月25日 (一) 17:47 (UTC)
- 我当初会问分子与分母的确切定义,就是因为怀疑这是统计的盲点:如同浅蓝雪君所言,如果分母太小,那么只要有少数几个人浏览就会让占比大幅增加而导致阅览率比例很高的假象。之前在阅读一份跟网络通讯技术有关的全球统计时也有看过类似的状况,文中提到在非洲国家无线网络的使用率非常高甚至超越欧美国家,原本觉得很不可思议,之后发现原来那统计是在讨论无线网络的使用量占全部网络使用量的比例,所以非洲国家比例高不是因为无线网络真的普及,而是因为基础设施太差几乎没人在用固接网络,所以无线网络的占比当然会接近100%!--泅水大象™ 讦谯☎ 2013年11月25日 (一) 22:24 (UTC)
- 这图上北美澳洲跟英国都深得不忍直视,想必已经说明问题,根本是在讲世界各地哪里华人多。Scrummble(留言) 2013年11月27日 (三) 02:02 (UTC)
- 北美、澳洲、新西兰、英国、东南亚等地区的颜色深应该是因为当地的确有不少华人人口之故,但我仍认为一些非洲国家、南美的苏里南、中亚的乔治亚与好几个大洋洲岛国的颜色深,是分母太小导致的假象。--泅水大象™ 讦谯☎ 2013年11月27日 (三) 06:36 (UTC)
- 或者有人拿那里的服务器刷浏览量搞ddos。--爱管闲事且对地图炮具有100%抗性的朝鲜的轮子(留言) 2013年11月27日 (三) 08:50 (UTC)
- 我当初会问分子与分母的确切定义,就是因为怀疑这是统计的盲点:如同浅蓝雪君所言,如果分母太小,那么只要有少数几个人浏览就会让占比大幅增加而导致阅览率比例很高的假象。之前在阅读一份跟网络通讯技术有关的全球统计时也有看过类似的状况,文中提到在非洲国家无线网络的使用率非常高甚至超越欧美国家,原本觉得很不可思议,之后发现原来那统计是在讨论无线网络的使用量占全部网络使用量的比例,所以非洲国家比例高不是因为无线网络真的普及,而是因为基础设施太差几乎没人在用固接网络,所以无线网络的占比当然会接近100%!--泅水大象™ 讦谯☎ 2013年11月25日 (一) 22:24 (UTC)
- 或许是因为这些国家本来就没几个人能上网,于是分母太小,移民过去的中国人随便点两下就上去了。。前段时间看到维基英文版决定启动给非洲一些国家以短信形式发送条目,因此地多不通网络或上网条件太高。--浅蓝雪❉ 2013年11月25日 (一) 17:47 (UTC)
关于统计,不管是Page Views还是Page Edits
- Country X's share of global total (该国于全球所占总量比例,简称该国占全比)= 该国/全部
- Language Y's share of Per Country (该语言版本于当地所占总量比例,简称该语占该国比)= 该国该语/该国
- Language Y in Country X's share of global total (占全球总量比例,简称占全总比)= 该国该语/全部
(全部指维基基金会访问报表中的千分之一随机样本,小量数据会有抽样的问题见附件于此)
目前User:Alexchris做的图应该是第2项,所以相当程度如 泅水大象 所言,若该国的资讯素养或普及量不够的话(按个人以创新扩散理论及东亚数据来说,临界值在12%至13%之间),那么该国的资讯实际使用将会反映身处当地的精英使用者,包括跨国企业、个人、甚或是新殖民主义的社会现象的反映。
其他人也可以去试着第3项的数字,该数字可以用第1项乘上第2项而得。
先不谈这图的潜在问题(可以留言给User:Alexchris问),我们可以简单以查德Chad为例,看第2项目前最近的资料:该国于全球所占总量比例只有0.0002% share of global total,而在这些数据里:
- French Wp 188 54.2%
- English Wp 63 18.2%
- Portal 52 15.0%
- Arabic Wp 32 9.2%
- Chinese Wp 6 1.7%
- Norwegian Wp 1 0.3%
单看这些数字,注意到查德的国家语言为法文及阿拉伯文言,我们可以大致推论出法文及阿拉拍语的重要性的确是有反映到当地的资讯素养(资讯素养可以视为更高端的语言识读素养)。英文的量有可能仅反映英文维基的全球或中介各语版的影响力,或甚至是英文资讯在全球资讯的霸权地位。
至于中文的数字,是远比不上这些相对优势语言,但也远大于其后的挪威语等等。
怎么诠释这单国的数据呢?单就这样的数字,没有任何实质的访问、访谈、或至少user agent的资料,很难去做任何以下可能的假说的支持或反证
- 中文成为当地的新兴语言?要支持或反证此假设需要有显著的当地访问中文维基用用户并非以中文为母语
- 反映中华人民共和国大陆地区移民的使用?要支持或反证此假设需要有显著的当地访问中文维基用用户确为PRC国民,排除香港、台湾、海外等华人。
要是本人做此基本的跨国统计及视觉化研究,我会先移除全域的英文及portal的访问量,如此就可以大量删除我们已知英文维基的全球影响力,而单就剩下的语言的全球使用比较,若真的要做更细腻的比较,我会更进一步分类,按各国的官方语言和非官方语言做分类,这样的官方语言v非官方语言的访问量比较就具社会科学意义,而官方语言类别中互比,非官方语言类别中再互比,如此就可以更具社会科学意义来系统性分析。
在这系统性分析下,我们可以问的就会是,在各地非官方语言的维基语种访问量中,中文维基的比例各为多少,在各国的其他竞争非官方语又为何。在此基础上, 泅水大象 一直提醒的分母问题暂时可以有一个解决方式(并非唯一),而 达师 所说的“只要3%就要染最深的颜色”的潜在性制图着色问题,也可以解决。
GIS制图数量着色,是一门科学也是一门艺术,除了要考量资料的统计分布特性,还要考量人类眼睛的视觉性偏差,很难有完美,但有系统性的最佳化,在此除了个人以上的资料整理/处理/按摩(data massage)建议,也建议若各位在数量制图时可以考量关于en:Jenks_natural_breaks_optimization的相关文献及讨论,或能避免或正面处理潜在的系统性偏差。 --
- 资料但书
Countries are only included if the number of requests in the period exceeds 10000(10 matching records in 1:1000 sampled log)Wikipedia's are only listed for some country if the share of visitors for that particular country exceeds 0.1%.
The second column displays the actual numbers of records found in the 1:1000 sampled log on which the percentage is based. Multiply by 1000 for actual page views over the whole period of 12 months. If the number of records in the sampled log does not reach the (arbitrary) number of 5 per sampled month, the percentage is flagged dark red to extra emphasize high inaccuracy.
附上以说明资料取得、纳入及排除的性质。--❦‽维基vs百度‽hanteng✉ 2013年11月29日 (五) 02:51 (UTC)
首先还是感谢各位关注语言与国家间交叉分析的议题,当然,就维基基金会所提供的数据确实会有其局限,不过就维基百科在网络上的影响力,其数据仍有一定分析意义(当然,最好当然是可以拿到所有ISP的数据,不过现实上不可能),就查德与中非此类数值基数非常小的国家,相对而言就会非常不准确,以查德为例,一年中浏览中文维基百科的次数仅6K(平均一天不到20次),因而容易受到影响。
而在我所绘制的图片中,以中文维基百科对应于该国所有维基百科浏览量绘制,的确会有中文在非洲地区有相当高渗透率的错觉,而究为何以超过3%比率即着色最深色,主要是以传统上认为中文在该地并非主要语言或官方语言,但有相当影响力的国家为基准(是以马来西亚及新加坡来判别,两者在最新数据中的中文比中分别为9.0%及5.0%,而给予最深颜色级别,不过如此仅是个人主观的着色级距,必然有欠坚实的依据),由于数据收集、客层分析上的不足,也难以呈现精确的统计结果,尤其在识字率较低的地区,网络使用者势必会囿于特定的群体,更难反映出实际上的情况。--Alexchris(留言) 2013年11月29日 (五) 15:48 (UTC)
- 其他语言维基有没有这种在非洲地区访问量比较高(至少看起来比较亮)的现象?--爱管闲事且对地图炮具有100%抗性的朝鲜的轮子(留言) 2013年11月30日 (六) 13:06 (UTC)
- ,就日语为对照(同样是东亚语言),也可看出其在非洲也有一定的渗透率,但没有像中文那么高。--Alexchris(留言) 2013年11月30日 (六) 15:22 (UTC)
- 抽样问题,根据统计学而言,非洲人口稀少,经济不发达,抽样调查难以全面,所以调查数据偏颇很大。--脳内補完。◕‿◕。讨论 2013年12月2日 (一) 04:01 (UTC)
- ,就日语为对照(同样是东亚语言),也可看出其在非洲也有一定的渗透率,但没有像中文那么高。--Alexchris(留言) 2013年11月30日 (六) 15:22 (UTC)
维基百科在中国的Alexa排名已经下跌到第163位了!
记得去年这个时候,维基百科在中国的Alexa排名还在70-90左右,短短一年时间,就下跌到了第163位。我们要是再不赶快向中国大陆网民推广、宣传维基百科,恐怕再过几年就要跌到500以下了。--Symplectopedia(留言) 2013年12月5日 (四) 14:58 (UTC)
- 陛下想法很好,但恐怕与某些地方的维基人想法背道而驰。—Snorri(留言) 2013年12月5日 (四) 15:06 (UTC)
- 不知道Alexa是怎么统计的。翻墙的访问量应该算不到CN的头上,如果是这样,那么实际情况可能就差很远。乌拉跨氪 2013年12月5日 (四) 15:56 (UTC)
- 呵呵,S皇,在过去的几年中,当你处心积虑地打压排挤异己时,当你用尽各种手段,将一个个优秀的生物、化学、历史学的编辑们逼走维基,你当时对维基百科,是否闪过哪怕是一丝的良心么?--Walter Grassroot (♬) 2013年12月5日 (四) 16:17 (UTC)
- 什么情况?——苏州宇文宙武的主页 ♨留言 ☎交友 ★贡献 2013年12月6日 (五) 02:41 (UTC)
- 维基百科的现状令人堪忧。我还记得今年上半年的时候中文维基百科活跃用户数量一直在7400-7600的范围内徘徊,但到了11月,活跃用户竟下跌至6600多个!6600,这是什么数字啊?--To be №.N 2013年12月6日 (五) 00:23 (UTC)
- 大陆维基人应该好好想想如何吸引新用户和留住活跃用户。—Snorri(留言) 2013年12月6日 (五) 01:25 (UTC)
- 我最近也听到声音认为维基百科的自然科学相关内容“有些很简略”,这种情况不应该持续下去,应该设法吸引熟悉专业知识的网友们参与贡献。-- ──★── 2013年12月6日 (五) 11:44 (UTC)
- 还有,不要因为某些地方的维基人有异议就因噎废食。-- ──★── 2013年12月6日 (五) 11:53 (UTC)
- 某些维基人的行为和做事方法让大陆网民很难加入到中文维基编辑中来。—Snorri(留言) 2013年12月6日 (五) 13:41 (UTC)
- 哦,究竟怎么回事?-- ──★── 2013年12月6日 (五) 16:09 (UTC)
- 某些维基人的行为和做事方法让大陆网民很难加入到中文维基编辑中来。—Snorri(留言) 2013年12月6日 (五) 13:41 (UTC)
- 还有,不要因为某些地方的维基人有异议就因噎废食。-- ──★── 2013年12月6日 (五) 11:53 (UTC)
- 看这里,中文维基百科的月浏览量从2013年10月的6亿降到2013年11月的5.6亿,比8月的浏览量(5.8亿)还低啊!!!呜呼哀哉!--To be №.N 2013年12月6日 (五) 13:55 (UTC)
- 其实下降没那么厉害,11月比10月少一天,相比8月几乎持平。不过相比去年中文维基的流量翻了一倍,数据不升反降,有点奇怪。--Aoke1989(留言) 2013年12月7日 (六) 12:08 (UTC)
- 中文维基百科已经是死路一条了。—以上未签名的留言由140.255.119.185(对话|贡献)于2013年12月11日 (三) 10:56 (UTC)加入。
- 中文维基百科已经是财路多条[5]、暗路未明[6]了,见路不平而起的时候到了☭。--上海苏州化学行走☭头帮 2013年12月11日 (三) 15:53 (UTC)
- (&)建议大家不用担心,再利用关注度多删个几百几千条条目,质量数量就能提升了,人气就会上来了。看这些大陆宅男论坛对维基百科的讨论:[7]、[8],再努力一下把这些死宅男全部逼走,专业人士就会来了,中文维基百科就有救了。-- 一个死宅@ 2014年1月10日 (五) 22:58 (UTC)
中国大陆地区访问维基站台的统计
看到另一个讨论串在讨论维基站在Alexa的中国大陆地区排名下降的反应,我想分享一下看法:
- Alexa的资料有比较细的,排名上下有时不准,因为排名会受到其他网站上上下下或整并的影响
- Alexa的点击资料多数情况要花钱买,或等人在网站上分享,除了排名以外的资料或许更有可比性
- Alexa的资料有系统性偏差,资料是从浏览器有装特定toolbar的使用者取得的,所以要注意其特性,像之前就有研究显示Alexa的资料过分偏向中国大陆用户,使中国的网站在Alexa排名较其他挑名来的高
- comScore的资料,是维基基金会的WMFLABS 用的另外一个业界常用的资料来源,如此图[9],此资料的来源和Alexa的搞法大同小异,不过结果很不一样,感觉起来今年没有比去年差,但是去年三四月开始一路往下掉,掉到今年二月才反弹。
想问大家有没有好的解释和想法,为什么comScore访问维基站台的的资料,其中国大陆区的访问量2012年3/4月一路下掉至2013年2月才反弹? --❦‽维基vs百度‽hanteng✉ 2013年12月13日 (五) 08:09 (UTC)
目前的Wikipedia:统计 /与邻近语言版本比较会不会太无聊了?
如题,一直是 葡萄牙语-中文-乌克兰语,(顺便庆祝一下与葡萄牙语的差值缩小到6万以内)估计2015年以后才会有变化,在下和User:Huasha讨论了一下整改方案
列在这里供大家参考,也欢迎大家提出新的方案
维持原样(葡萄牙语-中文-乌克兰语)
优点:简洁明了(不会占用太大页面空间)
缺点:一成不变(至少短期内如此)
投票与讨论:
越南语-葡萄牙语-中文-乌克兰语-加泰罗尼亚语
优点:中文位于列表正中间,与两边比较,符合习惯
缺点:与加泰罗尼亚语差距太大,缺乏可比性
投票与讨论:
宿雾语-越南语-葡萄牙语-中文-乌克兰语
优点:前3后1,认清差距。且宿雾语目前增长迟滞,给人不断缩小差距的快感
缺点:宿雾语目前增长迟滞,且有大量机器人条目,缺乏可比性
投票与讨论:
日语-越南语-葡萄牙语-中文-乌克兰语
优点:前3后1,认清差距。且跳过宿雾语,日语、越南语都是东亚语言,具有一定的可比性
缺点:跳过了宿雾语,此例一开,今后……
投票与讨论:
- (+)支持:这方案较有可看性,宿务语我有浏览过,条目多但大多短小,不值得比较。日语尤其可视为突破的目标,我们怎可输给倭寇他们呢?14亿人敌不过1亿多人?仇还未报咧。__源※请留言 2014年5月18日 (日) 09:35 (UTC)
- 等等,我刚刚看了一下越南语的首页[10](可用谷歌翻译)竟然列出其他语言的条目数,加上最近又发生一些事,他们到底是多想干掉我们?__源※请留言 2014年5月18日 (日) 09:54 (UTC)
--向端粒,向酶解,投上冷冷的一眼,骑士呵,向前! 2014年5月8日 (四) 05:41 (UTC)
补充说明
如果最后大家选择后三个方案,在下会去修改模板statIW及其子模板,并会留一段时间两个模板共存的缓冲期。--向端粒,向酶解,投上冷冷的一眼,骑士呵,向前! 2014年5月8日 (四) 07:52 (UTC)
- 我是支持“日语-越南语-葡萄牙语-中文-乌克兰语”的方案,在4年前我们就在努力和日语做对比,至今也如此,日语仍然是我们学习和追赶的对象之一。越南语曾经和我们有过条目竞赛,我还是希望能够有机会继续对抗。葡萄牙语、乌克兰语这个就是一前一后,肯定不用说了。如果有朋友愿意更新方案,就是辛苦一些,但对维基编辑而言还是很有帮助和指导意义。谢谢了。--Walter Grassroot (♬) 2014年5月9日 (五) 14:46 (UTC)
纯讨论区
- 有人愿意统计就统计呗,至少可以作为历史发展记录。我偏向为保持原样,因为这样可以得知我们在全部语言的差距发展情况,除非做更新的嫌麻烦不打算继续更新了。——路过围观的Sakamotosan 2014年5月8日 (四) 05:51 (UTC)
- 宿务语只是菲律宾的一种方言,使用者不多。它可以有如此增长速度,全因为它是使用拉丁字母系统的语言,而且有机器人进行大量翻译工作。个人认为它排行第几,对中文维基用户而言,缺乏实际的重要性。--Qui cherche trouve 2014年5月8日 (四) 07:43 (UTC)
- 前2后1呢? 短期内不用考虑宿务语什么的了. 实际上开先例跳过宿务语我觉得正常人也不会去纠结的. Bluedeck 2014年5月10日 (六) 08:13 (UTC)
- (:)回应前3后1是为了将来前2后2做准备,而且页面的宽度也够放的下4种与中文的比较,见沙盒。--向端粒,向酶解,投上冷冷的一眼,骑士呵,向前! 2014年5月10日 (六) 08:24 (UTC)
讨论应否加快条目创建速度
显然有(?)异议,且(-)反对用户较多,故应没有继续讨论的用意。--Z7504非常建议必要时多关注评选(留言) 2020年8月31日 (一) 15:33 (UTC)
- 下列讨论已经关闭,请勿修改。如有任何意见,请至合适的讨论页进行,并不要再次编辑本讨论。
现时小弟看见英维条目过600万,当中:
- 每191篇条目有一篇GA
- 每1050篇条目有一篇FA
- 每1680篇条目有一篇FL
上述三项数据(截至2020-08-02)均比中维高出甚多。
本人(&)建议各维基人是时候要动手,透过翻译形式尽快译毕(至少3万条)英维条目,好让在提升条目质量、大幅增加条目数之余,亦能为这里带来更多GA/FA/FL?(尤其是透过翻译英维对应层级条目再于这里申报)
看似无聊,但本人目标非常明确:
- 2020年底:至少达150万;
- 2021年Q2:至少达200万。
(纵使我们未必能够完整超越英维,但尽力吧⋯)
欢迎讨论。(也顺道可以讨论一下条目数每突破50万的庆祝方式) --小文人(阅人生经历 ‧ 谈你想说的) 2020年8月2日 (日) 15:25 (UTC)
- 用户Trymybestwikipedia可以推一把力加快速度阿[开玩笑的]--Z7504非常建议必要时多关注评选(留言) 2020年8月3日 (一) 09:57 (UTC)
- 揠苗助长。->>Vocal&Guitar->>留言 2020年8月4日 (二) 23:08 (UTC)
- 谨防过犹不及。--Easterlies 2020年8月6日 (四) 05:56 (UTC)
- 维基人不是全职写维基百科的员工呀。--英秀一心(留言) 2020年8月6日 (四) 11:13 (UTC)
- 我支持你,至少我们不能被其他维基超过。Lab06 N(留言) 2020年8月6日 (四) 11:37 (UTC)
- (▲)同上—Rowingbohe♫ 欢迎参与浙江专题 台州专题 2020年8月7日 (五) 14:03 (UTC)
- 如果希望提高“每XX篇条目就有一篇GA/FA/FL”的数字,另一个有效的方法大量删除现有条目,并阻止新条目的创建。(纯属幽默,请勿认真)--英秀一心(留言) 2020年8月6日 (四) 15:12 (UTC)
- 条目要是有那么好写我DYK早就破百,GA/FA/FL拿了个大满贯...,而且找来源是一件很麻烦的事情,最近要写某个条目需要资料结果我找遍半个城市的图书馆都没有,害我得花钱买,
好险才台币300--无心*插柳*柳橙汁 2020年8月6日 (四) 15:25 (UTC) - (!)意见,enwiki来源千奇百怪,部分无法查实。盲目大量翻译,会造成错误。近期enwiki还在讨论百度百科是否为可靠来源。吓我一跳。——Hikaruangeel(留言) 2020年8月8日 (六) 10:23 (UTC)
- WP:CHOICE,想写即可写,不想写即可不写。--Super Wang※DC不是贪食蛇,请勿盲目刷分 2020年8月9日 (日) 10:13 (UTC)
- (-)反对。已经萝卜快了不洗泥了,不要继续搞大跃进。 --ᡠᠵᡠᡳUjui ᡠᠵᡠUju ᠮᠠᠨᡩ᠋ᠠᠨMandan 2020年8月11日 (二) 05:21 (UTC)
- 不懂这个提案能有多大的成效-- Sunny00217 2020年8月19日 (三) 13:39 (UTC)
- 没什么意思,而且创建条目多并不代表质量高。当然如果是翻译FA/GA/FL我没有意见。另:Trymybestwikipedia真的可以加油![开玩笑的]--三万光年珠海魅族OTA科技有限公司 Talk 2020年8月22日 (六) 11:01 (UTC)
- (-)反对:光说人家600万词条,咱们100万,你倒是看看enwiki与zhwiki各有多少活跃user?人家13万,咱们8千。User总数的比例也差不多,人家4千万,咱们3百万。--Cswquz(留言) 2020年8月24日 (一) 08:09 (UTC)
- (-)反对:揠苗助长,并且英文维基百科的来源奇奇怪怪的,而且我们是人,不像机器人般能够廿四小时工作--Cyril Yoshi (留言信箱) 前来签名吧! 入维半周年纪念 2020年8月26日 (三) 09:52 (UTC)
- 中维的社群大小与参与人数远少于英维,发展速度慢是很正常的事情,揠苗助长不可取。 BlackShadowG(留言) 2020年8月28日 (五) 06:09 (UTC)
- 本讨论已经关闭,请勿修改。如有任何意见,请至合适的讨论页进行,并不要再次编辑本讨论。