维基百科讨论:统计/存档3

Jimmy-bot在话题“讨论应否加快条目创建速度”中的最新留言:4年前

hanteng会陆续将可以释出原始或半成品统计资料

hanteng会陆续释出原始或半成品的研究统计资料,目标主要是希望能以open data 开放第一手来源资料来鼓励其他研究者来进行加工研究,也希望能因此加强资料的可依赖性及可信度。以下第一个是超级用户的地理区域。

研究结果查证: 百度百科BB及维基百科CW的超级用户的地理区域

 
2012全球

关于本人研究制图的2012资料 (见右图), 其来源根据的半成品其实已放在Google Doc可供各位参考,并帮助查证并指出可能错误的地方: 注意,

  1. 百度百科BB的百科蝌蚪团成员列表是以该页列表编程爬文的结果
  2. 维基百科CW的管理员列表则因为不只有一个来源, 而是以个人参考众来源的推估的结果

若有对制图结果比较有想法想要讨论的,请至互助客栈先前讨论区块参考先前讨论并留言。--(研究维基和百度百科的hanteng|留言) 2013年1月11日 (五) 23:40 (UTC)

研究结果: 地理分布

以下研究结果, 请拨时间读后提供改进批评, 也欢迎发问, 谢谢。

以百度百科及维基百科条目内容所有外部链接, 按其geoIP位置分类后的前15名网站比较, 可以有以下观察: (研究假设: 百科做为三级内容, 其内容走向可以由其外部引用连结做为内容倾向的分析)

  1. 百度百科有不少电子商务及infomercial网站(特别在中国和香港, 如香港第14名原为福建单位办的行政划区网, 现为一夜情网站);
  2. 维基百科并非百度相关人士指控的, 不够“中国”或“中文”;
  3. 百度百科大量引用维基百科;
  4. 百度百科并无大量引用来自香港及台湾的网站内容, 同时对相关媒体及政府网站的引用相较为少。

 

--(研究维基和百度百科的hanteng|留言) 2012年12月21日 (五) 02:55 (UTC)

* 我在台北用TPE-FREE查其ip得到:

Non-authoritative answer:
Name:    tw1-ycpi-uno.gycpi.b.yahoodns.net
Addresses:  203.84.197.25
          203.84.197.26
          203.84.197.27
          203.84.197.9
Aliases:  www.wretch.cc
          geoycpi-uno.gycpi.b.yahoodns.net
          fo-tw1-ycpi-uno.gycpi.b.yahoodns.net

然后查其geoip得到的是香港,是不是因为雅虎服务器在香港的关系啊?--Liao Zhongkai留言2012年12月28日 (五) 12:02 (UTC)

2012年12月24日 (一) 12:00 (UTC) 以前

请不要用大图洗版面,我已经修改了大小了。--马呵说念诶多哗铎★爱生活萝莉塔 2012年12月21日 (五) 03:23 (UTC)
(:)回应以同一般页框宽度为宜。(研究维基和百度百科的hanteng|留言) 2012年12月21日 (五) 05:38 (UTC)
信息量很大--百無一用是書生 () 2012年12月21日 (五) 09:49 (UTC)
百度最顶上那几个明显是被散发的广告链接,可能(比如)那些网站上有的图书就每个相应百科页面加一个指向网站的链接。Liangent留言 2012年12月21日 (五) 12:19 (UTC)
(+)同意SPAM的鐡证(研究维基和百度百科的hanteng|留言) 2012年12月21日 (五) 13:02 (UTC)
百度做为假的中国民族企业应当闭上那个臭嘴!!!ltdccba--Jason--Lin2012年12月23日 (日) 14:54 (UTC)

那图片在违反授权条款

  1. 其实你明不明白维基百科计划及其姊妹计划?
  2. 你那图片上传去了 Commons ,你就不能“仅供维基人内部讨论,请勿引用”,你最多只能表明,那仅是草稿,引用的话可能会出错。

--LungZeno(talk) 2012年12月23日 (日) 20:20 (UTC)

(:)回应:著佐权的概念我是知道的,这些图片利用Commons释出就不能禁止改作,但是否能被学术正式引用,hanteng 仅提醒著作人格权的部分,提醒著佐权释出是有免责的部分,基本上意思是,我目前这样释出,符合Commons相关著佐权规范和保护,其保护包括这不是我正式的学术发表,免除我的学术引用的人格责任,请您明辨著佐权的概念及使用,在人格权和财产权的区分。谢谢您的指教, 若还是有可议可改进之处,请您继续提供建言。(见您参考我不喜欢某人在其衍生著作中利用我的作品的方式,那么我还能怎么办?.. “意即,原作者可以依其作品内容受到不当变更而致其名誉受损的情形,来采取行动。当然,并非所有的原作者不喜欢的衍生著作都会被视为“不当变更”。”)--(研究维基和百度百科的hanteng|留言) 2012年12月24日 (一) 03:51 (UTC)
Commons不是因为 知识共享 等授权条款而存在,反之,Commons是因为要达成它的使命和目的才采用 知识共享 等授权条款。
如果你真的想讲 copyleft 的话,当中有不少人是反对“知识产权”的概念,认为这样的类推并不正确,有严重谬误。(TIPO=>Intellectual property)我是其中之一,但我们并不皆反对赚钱。
--LungZeno(talk) 2012年12月24日 (一) 09:17 (UTC)
(:)回应:我同意您说的Commons是因为要达成它的使命和目的才采用 知识共享 等授权条款, 所以您的意思是, 这些图片(a)不适合上传还是(b)要更改加注字眼? 请您提供您觉得适合的字眼好吗? 我读到的是"a media file repository making available public domain and freely-licensed educational media content (images, sound and video clips) to everyone, in their own language.", 我只是希望这个档案先在中文维基内部先讨论,然后随着正式出版, 我可以更新, 若有幸出版到其他二手来源如专书或期刊, 更新的内容就可以用在百科全书等等的条目内容。我想您能体会我的需要, 我仍决定用CC授权, 只是想要提醒使用者, 这是work in progress, 不适合学术或正式引用。--(研究维基和百度百科的hanteng|留言) 2012年12月24日 (一) 09:28 (UTC)
上面这样的图片建议还是以讨论用途的名义暂时存在中文维基中,等正式的版本想释放版权时再上传Commons。因为记忆中上传Commons的图是禁止在图片上加注限制版权或放上有个人签名意味的标志或字样。--泅水大象讦谯☎ 2012年12月24日 (一) 12:41 (UTC)
收到, 我会思考如何不让人误会版权有受额外限制(我没有要限制版权的财产权的意思)我只是要确保人格权(我不能为还没有确定稿的内容负学术责任), 若各位有什么好的建议, 请告知, 因为我会觉得放在中文维基上仍有类似的问题。不然我还是用英文的好了: "Work in progress, do not cite"? 引用和使用在这情况是两码子事, 我再找找有没有相关指引。--(研究维基和百度百科的hanteng|留言) 2012年12月24日 (一) 14:15 (UTC)
(?)疑问:我改加字眼“Work in progress. Use but do not cite.”好吗? 根据en:Wikipedia:Wikipedia_is_a_work_in_progressen:Wikipedia:Citing Wikipedia和还有Wikipedia: use but do not cite。--(研究维基和百度百科的hanteng|留言) 2012年12月24日 (一) 14:23 (UTC)
(※)注意更新:我先暂时用“Work in progress. Use but do not cite.”若各位还有关于(a)CC释出或(b)存放Commons的疑问和建议, 还请不吝提出。--(研究维基和百度百科的hanteng|留言) 2012年12月25日 (二) 03:22 (UTC)
你其实是想说“不适合引用”而不是想说“不准许引用”吧?
不应该命令他人做或不做那些事,取而代之的可行做法是描述那著作特性、原因、后果。
你使用 copyleft 类授权条款就不能这样加以限制别人,否则 copyleft 也就不是 copyleft ,或许讲 copyleft 会模糊了焦点,我换句讲法, copyleft 类授权条款属于自由版权授权条款,你使用自由版权授权条款就不能这样加以限制别人,否则自由版权授权条款也就不是自由版权授权条款。
就算现在 Commons 给你使用的授权条款真的允许你这样做,但只要 Commons 的使命、目的或理念不变,Commons 人早晚也会修正授权条款或改用其他合适的授权条款,你那些东西早晚会被清除。
依我理解,澳洲国立大学那个网页是在呼吁你不要引用,如果那个网页是讲他们的规则,那么那是他们的规则,不是讲 copyleft 、自由版权、 Commons 或维基百科。
--LungZeno(talk) 2012年12月25日 (二) 11:21 (UTC)
补充。那个 WretchTIPO 的网志文所说的是,在发生那种事时,你可行的做法,并不是说,未发生就先禁止。
--LungZeno(talk) 2012年12月25日 (二) 12:35 (UTC)
(:)回应或可参考Wikipedia:引用维基百科Wikipedia:免责声明维基百科:风险声明的用词:“使用但不适合引用, 原作者不对内容的正确性承担任何风险”但这样有点长就是了。不知LungZeno有何建议?--Liao Zhongkai留言2012年12月28日 (五) 12:12 (UTC)
(:)回应LungZeno您觉得“使用但因仍是草稿不适合引用 (风险自负)”?--(研究维基和百度百科的hanteng|留言) 2013年1月3日 (四) 01:42 (UTC)

更新: 跨界分布的问题请大家给具体意见

(※)注意更新:原图的中文题名为自动搜寻结果, 有一些偏差, 现已手动更正以符合其对应的网域名词。另为暂时解决LungZeno泅水大象™ 关于CC释出及存放Commons的问题, 已做更新。

(?)疑问: 部分网站, 由于其服务器可能有跨界, 或采用Content Delivery Networks (CDN)的快取服务, 各别的geoIP资料会有跨界分散的现象, 如:

  • sina.com* 的跨界分布

Row Labels BB CW Grand Total CN 33961 6914 40875 HK 14 985 999 TW 20 383 403 US 38 455 493 Grand Total 34033 8737 42770

  • qq.com* 的跨界分布

Row Labels BB CW Grand Total ?? 51 51 AU 15 15 CN 2009 170 2179 HK 4328 857 5185 TW 1622 19 1641 US 20 20 Grand Total 8045 1046 9091

请问各位会如何处理? 会依原分散方式做比较还是回归其企业主要公司或服务器所在地? hanteng目前是把一些中国官方及主要媒体, 有直接及间接证据使用如China Cache的CDN服务集中回归其主要组织或服务器所在地, 像www.gov.cn, xinhuanet.com, people.com.cn,china.com.cn,cntv.cn,cctv.com,npc.gov.cn,cri.cn都归为CN来处理, 不过像qq.com及sina.com似乎在各地真的有营运, 而不是用组织外部的如China Cache的CDN服务, 所以不太能决定应该要怎么处理, 会符何比较百度百科和中文维基百科外部链接地理分类比较的研究用意。请各位提供您的看法和意见。--(研究维基和百度百科的hanteng|留言) 2012年12月25日 (二) 03:37 (UTC)

(:)回应我猜你可以试着用像中国网站必需要有的ICP许可证有无的类似思考来决定,比如说若新浪在数地都有营运登记,就采分开,若只是使用Cache servers的服务来做内容加速下载,而无相关的营运登记,那么就应该要回归到原网站营运登记的地点。--Liao Zhongkai留言2012年12月28日 (五) 12:18 (UTC)
 谢谢你您的意见值得参考, 试试。-(研究维基和百度百科的hanteng|留言) 2013年1月3日 (四) 01:30 (UTC)

问题: 电子商务网站的认定问题

hanteng 为处理两百科外部链接的内容所处网站的性质比较, 将一些网站编码为ecommerce电子商务网站, 如tushucheng.com yoostrip.com ilucking.com tushulian.com 51966.com agri.com.cn elong.com beijingtushucheng.com ysbooking.com zzfanwen.cn zhuhere.com hxcxgl.com kuliu.com axdfz.gov.cn 等, 发现中文维基百科各地前15完全没有电子商务网站的连结, 但百度百科不但有, 这些网站的连结总数在所有其中国连结总数的17.39%, 在香港这数字是17.87%。

(?)疑问: 请问以上的电子商务网站认定是否合理, 有什么要增减的吗? --(研究维基和百度百科的hanteng|留言) 2012年12月25日 (二) 03:48 (UTC)

(:)回应: 百度百科有大量鳝稿,这问题你问百度百科资深使用者就知道。在维基百科,这类东西会因为可信性和中立性而被回退甚至删掉。百度百科的做法则是相反的,他们叫这做“商业合作”(不记得是否这用词),不但明暗兼具地招揽鳝稿,而且任何加入去不利那些鳝稿的资讯都会被移除。--LungZeno(talk) 2012年12月26日 (三) 08:15 (UTC)
(?)疑问:请问有没有不利那些鳝稿的资讯都会被移除的一个实例吗? 是因为商业竞争的动机还是什么动机呢? --Liao Zhongkai留言2012年12月28日 (五) 11:44 (UTC)
 谢谢你两位的意见, 不过这似乎有点小离题(虽然有趣), 我这里的问题是在电子商务网站的认定方面, 不过我已找到替代解释方法了(请期待)。若回到您们谈的鳝稿现像和动机, 国外有做维基抵制link spam的研究。LungZeno可否说一下, 鳝稿真的是百度百科资深使用者会用的词吗? 我能相信这现像是他们知悉的, 但是否那词是他们会用的, 我想请您考量一下。--(研究维基和百度百科的hanteng|留言) 2013年1月3日 (四) 01:39 (UTC)
(:)回应:在中国境内的网站, 有区分经营性ICPvs非经营性ICP(指不以赢利为目的)的两种ICP许可证, 我不知道要上哪里找登记资料, 但应该有助于你对网站性质做出电子商务网站及非电子商务网站的区分。--Liao Zhongkai留言2012年12月28日 (五) 11:44 (UTC)
(:)回应:看来有些难度, 我现在的处理方式改成查询其公司网页, 看有没有在该地有分公司或营运单位, 有的话就保留原geoip, 若无则算回其总部所在地。--(研究维基和百度百科的hanteng|留言) 2013年1月3日 (四) 01:32 (UTC)

研究结果: 比较百度百科BB及维基百科CW的超级用户的地理区域分布

请问就您们的经验, 以下根据百度百科及维基百科超级用户的地理分布(超级用户: 百度蝌蚪 vs 维基管理员), 您们的印象和反应为何? 在全球, 2012资料:

拉近看东亚, 2012及2009资料:

请大家容忍我在此副标下依时序做次标分类和折叠整理, 这样子做比较好分别对您的提问一一做回应, 不这样做我真的有点难对各式提问做出迅速及妥善回应。若您只要是抒发自己意见而看法, 而不需要我个人的回应的话, 请您下一个额外同级(两个减号)的平行副标,请体贴我回应要花的阅读和写作的心力, 在此先谢过。--(研究维基和百度百科的hanteng|留言) 2012年12月23日 (日) 10:14 (UTC)

(~)补充:可和我制做的全球汉人分布图做参照。

请分享您们的看法, 以及可以改进的地方, 谢谢。--(研究维基和百度百科的hanteng|留言) 2012年12月23日 (日) 10:17 (UTC)

汉族人口分布的图,白色部分是没有数据,还是人口低于1,000?--O-ring留言2012年12月23日 (日) 13:19 (UTC)
您好, 该资料来源为中华人民共和国境内用的是2010年人口普查数据, 而中华人民共和国境外则用的是中华民国的侨务机关的统计资料。所以如果您指的是中华人民共和国境内白色, 那么是人口低于1,000, 因为普查没有缺资料, 如果您指的是中华人民共和国境外资料, 那么这图展现的是中华民国的侨务机关的统计资料, 见汉族#汉族人口的世界分布图的内文, 谢谢。--(研究维基和百度百科的hanteng|留言) 2012年12月23日 (日) 13:33 (UTC)
这个不错........把数据都弄出来了............ltdccba--Jason--Lin2012年12月23日 (日) 14:53 (UTC)
看完这个分析结果就知道,百度百科基本上只是一个小圈圈围起来自己写自己的网站,缺乏跨越族群的世界观(虽然这个‘小圈圈’里面人口还蛮多的)。但也有个很有趣的现象是,参与维基百科编辑的大陆人大都聚集在主要都市,不似百度那般分散在大陆各地区。这两个现象之中,前者几乎可以说是必然的结果,对于港澳与台湾人来说只有简体字的百度的存在与否根本无足轻重,但是我很好奇为何维基百科的大陆power user会只集中在少数几个城市,是巧合还是有逻辑上或统计上的原因?--泅水大象讦谯☎ 2012年12月24日 (一) 05:52 (UTC)
(:)回应感谢您的发问:关于您的看法(百度仅简体字排除港台用户)也是hanteng考量的可能解释假说之一,不过关于是否百度百科就是小圈圈而维基百科就不是,可能不同人会有不同看法。我比较有一点把握的假说是(见#研究结果: 历史比较),东亚及中国网民在成长的历史和地理份布上,维基百科和百度百科的发展史,影响了其用户的分布,百度百科是在中国网民主体(early 及late majority),特别是在非沿海城市的大幅成长时,取得许多新兴的用户,(这也是维基百科不如百度百科在后期大量到各地推广的差别)当然,其他用户有不同的看法,您也可以参考比较一下。(研究维基和百度百科的hanteng|留言) 2012年12月24日 (一) 06:03 (UTC)
如果是在研究中国大陆以外地区,维基百科这种非商业网站与同类型商业网站之间的比较,个人认为Yahoo!(奇摩)知识是个可以作为参考组的探讨比较对象,因为这网站在港澳与台湾拥有不低的参与度。虽然其运作方式与维基百科不同,但参与的用户与维基百科用户之间有某种程度的同质性。--泅水大象讦谯☎ 2012年12月24日 (一) 06:11 (UTC)
(:)回应您说的现像在我搜集的SERPUser:Hanteng#研究结果: 视觉化网络图相符,基本上次级百科网站如互动、Yahoo!(奇摩)知识有明显的地理语言特性,不过维基百科似乎还是比较跨多一点不同的地理语言,zh-tw,zh-hk,zh-cn。--(研究维基和百度百科的hanteng|留言) 2012年12月24日 (一) 07:17 (UTC)
(:)回应:有趣的资料收集和制图,辛苦了,不过在下有一问,百度蝌蚪 vs 维基管理员有可比性吗?就我所知,维基百科一般成员的编辑权限其实不会少于百度蝌蚪的"特权"。这样子比较有可比性吗?--Liao Zhongkai留言2012年12月28日 (五) 11:55 (UTC)
(:)回应:您的质疑有道理, 但在我要处理的问题则变的不是那么重要。您说编辑权限两者不具可比性, 是再正确也不过的 (显然您对两百科都有了解), 然而我的地理分布只是在比较, 两个社群的特殊用户的地理分部差异。说的好听一点是比较两者的精英编辑的地理份布比较, 说的比较不好听的是, 若要做所有用户的地理分布比较, 在资料的可靠性、能不能收集的到、怎么处理都是难以克服的研究障碍。以上理由, 希望您能体谅。--(研究维基和百度百科的hanteng|留言) 2013年1月3日 (四) 01:13 (UTC)
(:)回应 再比较一下互动百科吧-- ──★──  2012年12月28日 (五) 13:51 (UTC)
(:)回应:您的意思是也来看互动百科的power users的分布吗? 这是可以做的, 但已超出hanteng的研究范围。不过若有任何人想做, 需要研究方法、工作、甚或至已收集到相关资料只是不清楚制图的做法, hanteng都愿抽空帮忙。--(研究维基和百度百科的hanteng|留言) 2013年1月3日 (四) 01:07 (UTC)
这个百度百科蝌蚪团员的区域分布是如何制作的?据我所知,蝌蚪团员中是有海外用户的。昨天和一位蝌蚪团用户谈到这个,他也认为这张图不准确。具他所知,江西省是有蝌蚪团的用户的,但是您的图中江西省为空白。观光维基观光团小F(留言) 2013年1月5日 (六) 00:30 (UTC)
本来就是不科学的东西你还问来有什么用?他能够获取的只是公开数据,只要有一个江西人在上海读书,然后称自己在上海又不公布自己的所属省份,那数据就会出现严重偏差。外地工作的也是同理,而且工作地北上广深圳轮流转,但实际上根本不是本地人。--下限魔法少年爱德华★爱生活圆神萝莉塔 2013年1月5日 (六) 00:35 (UTC)
(:)回应:您好,其实原始资料己放在Google Doc上, 也有不少维基人来信问过。欢迎您认识的蝌蚪团用户来信指正。--(研究维基和百度百科的hanteng|留言) 2013年1月11日 (五) 23:45 (UTC)
(~)补充:可否问一下您认识的蝌蚪团用户, 若我要去他们的贴吧寻求查证意见,要去哪一页面最合适。--(研究维基和百度百科的hanteng|留言) 2013年1月11日 (五) 23:48 (UTC)

研究结果: 语言分布(东亚与中文)

一言蔽之: “百度百科绝大部分的东亚与中文的外部链接为全简体中文内容,中文维基则较平衡

返回到项目页面“统计/存档3”。