用户:Hanteng/研究:接收-使用
User:Hanteng/研究 |
---|
百度百科及中文维基比较研究: |
编辑‧环境: |
政策、发展、素质与数字 |
内容‧来源: |
中美、港台及中国性 |
接收‧使用: |
能见度、地理语言差异及用途 |
研究启示: |
关于hanteng: |
外部链接 |
研究结果: 能见度比较
编辑网络计量学: 比较维基百科和百度百科在各地搜索引擎的可见度
编辑百科的使用者访问量许多来自Google、Yahoo、百度等搜索引擎透过台湾、香港、中国、新加坡等等地方界面而来, 维基百科和百度百科的可见度(visibility)为何呢?
根据数个产业报告, 我建构了一个可见度数量计算方法 (visibility scores), 我分别在2011年牛津及2012年香港及中国境内, 以不同的搜索引擎和地方界面, 分别利用2500个及3000个关键字搜寻来比较维基百科和百度百科在各地搜索引擎的可见度。
视觉化网络图
编辑有图有真相, 果然百科网站表现最好, 而地域界面和搜索引擎的选择决定了是哪个百科比较容易出现: 视觉化网络图, 点愈大代表该网站愈有可见度, 箭头愈大该搜索引擎-地域界面的贡献愈大
比比关键字对能见度的影响
编辑不同类型的关键字, 果然最有能见度的网站排名就不一样。想要知道哪一个非百科网站的能见度对哪一种类别的关键字最有效吗?
见以下列表: (注意三个百科网站有加粗标出)
- 2011 OX
- 2012 HK (多了Fortune 500的搜寻关键字)
能见度前20名
编辑按能见度前20名的网站,按其能见度数值,从能见度高到低的排名列出其所占的能见度数值(包括正常及累积曲线):
能见度的集中程度
编辑网站累积的能见度总分数, 若以前几名网站总和占总分数的方式做图, 则会发现极少数的网站拥有相当高的能见度数值。 而其中, 2012HK的数值似乎又比2011OX的数值更往前几名网站分布的走向, 似乎有富者愈富, 贫者愈富的能见度数值分布倾向。
研究方法: 能见度比较
编辑搜寻关键字选取
编辑2500个搜寻关键字选取以代表多样性选取为原则, 从剑桥中国大百科的所有条目名称、历年百度谷歌搜寻最多的关键字、知名人士、敏感词、中日现代词汇都有。 3000个搜寻关键字选取则是多加了财星五百大企业名称 Fortune 500。 感谢维基百科的自动转换系统,我可以轻易的把这些搜寻关键字转换成对映的简体及繁体字词,以便我在不同地区界面使用对映的主流字词。
能见度和媒体接收的关连
编辑研究结果: 找出断裂
编辑根据各主要中文搜索引擎及其各地主要版本的能见度数值,我们可以看出,对于选定的搜寻关键字来说,百科内容的网站享有的能见度是累积最高的,但对不同的中文搜索引擎及不同的地方版本,会有不同的百科网站的能见度差异。
其实,对其他网站来说,这样因中文搜索引擎及地方版本的差异,而有能见度的差异,我们可以利用网络关系图来找出富有连结及少有连结的差异。总结这些差异,研究者可以找出网络连结的断裂之处,来看出在中文搜索引擎的不同版本所产生的能见网站的共同之处(同时富有连结) ,和断裂之处(只有对部分版本富有连结,而另版本则少有连结)。
区块建模结果
编辑利用能见度前100名的网站,按其能见度数值,以数学方法的二维网络关系区块建模(two-mode blockmodelling),则成功将原资料100x9(100网站x9搜寻可能)产出一个3x3分类(3类网站x3类搜寻可能)的分类结果:
其中三类区分出的搜寻可能为:
- Baidu_CN,Google_CN, Yahoo_CN 3者, 这3搜寻可能变异,只对能见度前100名的网站中61个网站(13+48)富有连结,而对其他39网站(包括中文维基百科等,见上图左上角大区块中多为白色底少有连结的网站列表)则有相对断裂的效果。
- Yahoo_SG,Google_SG, Google_TW, Google_HK 4者, 这4搜寻可能变异,对能见度前100名的大多数网站富有连结,算是所有9个搜寻可能变异的中流,较无断裂的效应。其对百度百科和维基百科的能见度贡献,相较前后类来说,也算是较持平的。
- Yahoo_HK,Yahoo_TW 2者, 这2搜寻可能变异,只对能见度前100名的网站中52个网站(=39+13)富有连结,而对其他48网站(包括百I度百科等,见上图右下角大区块中多为白色底少有连结的网站列表)则有相对断裂的效果。
同样地,100个网站也因区块建模分类,分成三类网站:
- 见上图列出的前上半段39个网站,这些网站对Baidu_CN,Google_CN, Yahoo_CN 3者相对少有连结。
- 见上图列出的中间段13个网站,这些网站对各种搜寻可能变异,一般来说没有特别夸张的差异表现。
- 见上图列出的后下半段48个网站,这些网站对Yahoo_HK,Yahoo_TW 2者相对少有连结。
换句话说,区块建模分类算是一个划出界线找出断裂的工具之一:按连结关系(可见度高低)原资料选取的前100网站,可以分成3类,而原资料中9搜寻可能亦可分为3类。原来复杂的100x9网络关系图,就可以简约化成3x3的网络关系区块图,是以其交互关系来分类的成果。
视觉化结果
编辑依区块建模结果,将原资料中9搜寻可能亦可分为3类,放回能见度视觉化的网络图来看,就像是将9搜寻可能以2条红线划出3分类如下图:
结果讨论
编辑- 搜寻可能呈现CN一类、Yahoo的TW及HK一类,而这两类位于两端,其实在中间的区分效果
- CN一类或许和中国大陆地区网络特殊性相关?
- Yahoo的TW及HK一类应该是Yahoo在搜索引擎的内定预设,为本地搜寻结果优先的原因,而两者一类,或因Yahoo服务同样是繁体用户区的整合效果。
- 百度百科主要是对CN一类有很高的能见度,但也对Yahoo及Google的新加坡版本能见度也不低,或者是因为新加坡及中国大陆同样用简体字的整合效果?
- 注意Yahoo及Google的新加坡版本,虽然易看见百度百科,但也常看见中文维基百科。
- 注意CN一类的Baidu_CN,Google_CN, Yahoo_CN ,虽然易看见百度百科,但郤不常看见中文维基百科。
- 以上对比也映证了按能见度区块建模分类的区分效果。
- 中文维基百科主要是对非CN一类有很高的能见度,但Google_CN对中文维基百科其实也不算低。
- 合理推论,在中国大陆,使用哪一种搜索引擎会影响是否常见中文维基百科的几率。
结果总结
编辑- 按各地中文搜寻结果及网站能见度,可大致找到断裂之处,主要是中国大陆与非中国大陆之间有搜寻断裂的差异。
- 中文维基百科对各地中文用户的能见度整合效果(同时看到同样内容),比百度百科相对高,但只限于使用Google_CN的中国大陆用户。
- 百度百科仅对中国及新加坡简体中文用户有高度能见度整合效果(同时看到同样内容)。
研究结果: 使用循环
编辑处理到百科和搜索引擎和微博的循环问题, 比较大的循环是知识的需要和方便, 不管是学生写报告还是找资料的方便, 已有直接证据看到学生在网络上找资料用在报告后, 又在搜索引擎和微博上出现传播, 有时还被百科写手引有成来源的“不当”循环引用的问题。
hanteng相信对中文维基百科及百度百科的比较研究,将有助维基百科全书的建设。hanteng更相信维基的善意假定亦是互联网发展的基石。hanteng 的cv及学术部落格 |