维基百科讨论:机器人建立条目小组/存档1

Makecat在话题“关于刷条目”中的最新留言:12年前

无标题

这个应该属于专题吧?--百無一用是書生 () 2012年3月30日 (五) 13:22 (UTC)

瑞典语、乌克兰语、越南语都在采用机器人

我希望让大家能够跟踪一下最近其他各语言维基百科的增长情况。在两个月内,越南语维基增加了将近15万的条目,大概很多都是生物物种的。我们曾经在将近一年时间中,和挪威语保持胶着上升状态;但越南语在极短的时间内就超过了挪威,而且非常快就逼近加泰罗尼亚语。我们按照现有的速度,应该在这一年内超过瑞典语,无论是否采用机器人(一次机器人操作可能会扩建5000新条目的编辑,可能需要我们用50天时间消化赶上,但也就是延缓我们赶超的时间而已)。在过去的三年里,我们花费大量力气去追赶拉近和它们的差距,现在在三万左右,这是好事。但我所关心的是越南语和我们随后的乌克兰语都在采用机器人以加紧编辑速度,他们超过中文维基的可能性存在,但因为人口基础太少(活跃编辑不足我们的1/3),它们编辑速度更多取决于那些操作机器人的数据库容量。我们曾经在去年险些被加泰罗尼亚语超过,但也没有采用机器人去保持差距,后来证明它们仍然没有足够的数据库以支持它们进度。越南语的情况是否雷同,尚不得知。--Walter Grassroot () 2012年3月5日 (一) 20:56 (UTC)

我会在接下的一些时间内用Subst半自动地加速扩建一些外交官条目,在数据库支持的情况下,我能够制作将近20-50个/天(周末可以做到100个/天),总量将近2000个,期间我也学习改善模型,所以这段时间也是一种尝试摸索,也弥补由于其他语种采用机器人,而使得我们落后的差距。如果一切合适的话,我考虑以机器人方式去创建中国古代人物条目(以职务先后为序)。当然模型化的操作也意味着条目本身内容趣味性的减少,这种方式也是容易招致批评的,但这个是我个人意愿,如果编辑次数和资历在我之下的用户,就请不要劝阻或增麻烦了;但我非常欢迎各种建议和数据库提供。如果保持一个高水平的增长速度,会能够吸引大量用户参与到编辑,而人物条目的扩建自然是最容易让新用户着手的。--Walter Grassroot () 2012年3月5日 (一) 20:56 (UTC)
最主要的是中文能够提供自由版权内容的来源太少--百無一用是書生 () 2012年3月6日 (二) 02:14 (UTC)
中科院的那些数据库不能用?乌拉跨氪 2012年3月6日 (二) 04:03 (UTC)
把其他语言的翻译过来不可?他们写什么我们也写什么?--铁铁的火大了抓兔子啦,抓兔子啦…… 2012年3月6日 (二) 10:22 (UTC)
那岂不是机器翻译?乌拉跨氪 2012年3月6日 (二) 11:46 (UTC)
其他语言编写的是地域条目,因为他们语系都是采用拉丁文或者英文命名,则制作出数据库和操作就很容易,但我们却不能直接采用了,唉。Walter Grassroot () 2012年3月6日 (二) 14:34 (UTC)
我赞同上面有人建议说的用机器人编辑小行星条目,现成的数据库没有版权问题,至于古代人物的数据库是要从哪里入手? --九紫离火很高兴认识你o(∩_∩)o 2012年3月6日 (二) 05:34 (UTC)
古代人物的条目是用方志。某一地方上都会写明一个县或者府的行政长官名字、出身、籍贯、以及任期、余事,这样就可以制作数据库,并用机器人操作。Walter Grassroot () 2012年3月6日 (二) 14:38 (UTC)
只要没有版权问题,我很赞成你这样做,希望能早日看到你的机器人编修古代人物条目成果 --九紫离火很高兴认识你o(∩_∩)o 2012年3月8日 (四) 09:46 (UTC)
只要是没有侵权疑虑,我个人很欢迎大家写机器人建立适当的条目,毕竟这种方式效率很高,在中文维基也已经实作过了(菲菇有用过生物数据库),我只有比较好奇同名之类的条目要怎么处理。--章·安德鲁留言2012年3月6日 (二) 09:58 (UTC)
菲菇做的那个生物的,我已经发现过10几个重复的了,估计还有重复的没发现--百無一用是書生 () 2012年3月6日 (二) 12:25 (UTC)
重复也不算是错误吧。后来人再查就可以了。乌拉跨氪 2012年3月6日 (二) 14:01 (UTC)

我认为:机器条目应该有个底线,就是‘不对生物现实和种群上的个体或整体进行价值判断’,作为非生命体,机器不应站在生物主体的角度,那样的话必然都只能是胡说了,胡说对生命和wiki有任何意义吗?--User:lgj

NASA JPL的数据库有几十万个小行星的数据,比如100000号(需翻墙  囧rz...)。希望讨论出个关注度标准吧?英文版貌似是六七千以前都是全的。--MakecatTalk 2012年3月9日 (五) 12:21 (UTC)

如果能查到英文的机器人条目,我们可以把所有格式性的文字翻译过来,之后关键词设定翻译表,可以达到半自动化处理。--达师218372 2012年3月9日 (五) 17:38 (UTC)

我发现了一个越语版上面写二裂果蝇的条目(vi:Drosophila_bifurca),机器人建的,全英文,到现在都没人译成越南语。这个条目还并不是唯一的例子。这种条目数排名与流量排名极其不相称。荷兰语版就是用机器人飙到第四的(本来它的社群好像还雄心勃勃想超越德语版),实际上其条目素质根本不行,其特色条目的质量很可能是前十名里最差的-综合征与一万年~facebook~twitter~微博 2012年3月10日 (六) 15:14 (UTC)
越南语那些条目基本都只有一句话,而且生物学分类和条目分类都是好多红链……--MakecatTalk 2012年3月13日 (二) 13:03 (UTC)
我已经在这十天内增加了800余条目外交官,可是这个数据库已经被我用尽。唉,瑞典语用机器人刷法国99个省下的镇市,现在刷到第13个省,下面他们可以创制的还有将近20000至50000条目;乌克兰语用小行星数据,可以有将近100000条目可建。这两个数据库最大的弊病就是他们没有对应的中文名,难道就是这样眼看着他们超过么?--Walter Grassroot () 2012年3月11日 (日) 03:00 (UTC)
法国的市镇数量好像有36785个。(市镇 (法国))--Alexchris留言2012年3月11日 (日) 09:34 (UTC)
也许,小行星条目先不用中文名,先保证有简单中文内容,创建了再说?-综合征与一万年~facebook~twitter~微博 2012年3月11日 (日) 03:03 (UTC)
我们有Category:中华人民共和国行政区划列表。乡级行政区有4万,中西部省份的基本都是红字,起码能增加3万条目。--Gilgalad 2012年3月11日 (日) 10:03 (UTC)
中国科学院院士中国工程院院士加起来得有两千人,官方网站上有全部名单和介绍。现在维基条目大概只有五六百,这也是个可以发掘的资源。--Gilgalad 2012年3月11日 (日) 10:20 (UTC)
行政区划和院士的条目如果能够开动机器人,最重要的是要有数据库,一个很简明,但是信息对应变量的数据库。可是暂时这两类都没有。--Walter Grassroot () 2012年3月11日 (日) 16:05 (UTC)

越南语维基百科条目数量于2012年3月11日超越加泰罗尼亚语维基百科。--Alexchris留言2012年3月11日 (日) 16:25 (UTC)

行政区划的数据库还是有的:http://cn.quhua.org 。--Symplectopedia留言2012年3月11日 (日) 16:29 (UTC)

既然所有百科都在使用机器人,那我们也要用,不用就会落后,而且也不公平。 --九紫离火很高兴认识你o(∩_∩)o 2012年3月11日 (日) 18:38 (UTC)

是啊。英语、法语、荷兰语、波兰语、俄语、葡萄牙语、加泰罗尼亚语和乌克兰语维基百科都曾经用机器人创建了数以万计甚至十万计的条目。前十大语言版本中唯一没有用机器人创建条目的是日语版,所以你们看,日语维基的条目数量排名才会从2005年初的第三位骤降至现在的第九位。
前面User:Walter Grassroot说到大部分语言都是使用拉丁字母,因此如果某个语言版本用机器人创建了条目,其他语言版本不需将条目名称进行翻译,直接照搬过来就行;但中文使用汉字,因此必须翻译,不能直接照搬,这样就大大增加了利用机器人创建条目的难度。他说的有一定的道理,但事情并非如他所说的那么严重。首先,把一个条目名称进行翻译并不是那么难的事,我们有《世界人名翻译大辞典》、《世界地名翻译大辞典》,还有Category:外语译音表;其次,我们可以用机器人创建中国的事物(行政区划、人物、公路、铁路等),不一定非要创建其他国家的条目,中国的事物也够多了,乡级行政区划就有四万个。
那么我们现在就具体分析一下,有哪些类型的条目可以用机器人创建,可以写些什么内容,条目名称如何翻译,以及其他需要注意的问题:
  1. 第一是生物类条目。
    生物的学名是拉丁文,中文译名一般用意译而不是音译,而且译名又无规则可循,因此不能使用机器人进行翻译。我们只能用机器人创建已经有中文译名的生物。User:P-botUser:WebBot在2009年曾经创建了大约25,000个动物和植物条目,条目名称和内容来自《中国动物物种编目数据库》和《中国高等植物数据库全库》。这两个数据库共收录了大约六万种动物和植物,但User:P-botUser:WebBot只创建了25,000个条目,也就是说,还有大约35,000个条目没有创建。现在我们可以创建这些剩下的动物和植物条目。
  2. 第二是行政区划类条目。
    前面我已经说到了,中国的乡级行政区划有四万个,并且有一个数据库http://cn.quhua.org 。条目内容方面,我们可以写这个乡级行政区划属于哪个市哪个县,下辖哪些村和社区。至于其他国家的行政区划,美国有大约3万个城市和城镇,法国有大约4万个德国1万个意大利8千西班牙7千巴西5千捷克5千匈牙利罗马尼亚斯洛伐克各三千左右。这些地名的译名可以参考《世界地名翻译大辞典》(中国工具书网络出版总库中有收录,也可以从这里下载)。如果世界地名翻译大辞典中没有,可以按照Category:外语译音表进行音译(英国和美国的地名除外,因为英语的拼写很不规则,一个字母可以有很多种不同的读音,因此,英国和美国的地名最好不要按照Category:外语译音表进行音译)。条目内容方面,我们可以写人口、面积、海拔、地理位置等,这些数据一般在其他语言版本的条目中可以找到。
  3. 第三是天文学条目(小行星、恒星等)。
    目前英文维基百科有大约14,000个小行星条目。条目名称的翻译不是问题,因为中文里的小行星命名一般只用编号,不像英语同时用编号和昵称,如en:11352 Koldewey,中文只要翻译成“小行星11352”就行了。小行星的各项数据如离心率、轨道周期等可以参考这个数据库http://ssd.jpl.nasa.gov/sbdb.cgi 。但是,很不幸的是,英文维基百科有不少小行星条目都被挂上了关注度不足的模板:en:Category:Articles with topics of unclear notability from February 2012。我不确定这些条目的关注度是否足够,它们似乎不符合英文维基中的天体关注度指引。为了保险起见,建议还是不要用机器人创建这些小行星条目。
    除了小行星以外,还有恒星。乌克兰语维基百科最近就用机器人创建了许多恒星条目:[1]。这些条目的关注度如何,也很难说。
  4. 第四是交通运输类条目,包括铁路和道路等。
    目前唯一收录大量铁路条目的语言版本是日语维基百科,共收录了约12,000个日本铁路车站的条目。其他语言版本都只有数百个车站条目。如果我们用机器人创建这些条目,需要注意一定要把日本汉字转换成标准中文汉字。此外中国也有五千多个铁路车站,但目前为止还没有一个可以使用的中国铁路车站数据库。虽然在网上可以找到大量查询火车时刻表的网站,但这不是维基百科应该收录的内容,维基百科应该收录的是车站的兴建日期、每日载客量、与邻近车站的距离等信息,而这些通常在网上都找不到。
    此外还有道路。跟铁路一样,目前也是只有日文维基收录了大量日本道路的条目。但是,这些条目的关注度很低,而且en:Wikipedia:Notability (highways)#Japan明确说了日本的都道府县道一般都关注度不足。
  5. 第五是歌手、演员、电影、电视剧、音乐专辑等娱乐类条目。
    http://data.ent.sina.com.cn 收录了8000多个明星、5000多部电影、5000多部电视剧和四万多张音乐专辑。如果用机器人创建这些条目,一个可能出现的问题是会创建重复条目。许多外国电影、电视剧都有两个以上译名,如果用机器人创建,很容易跟中文维基原有的条目重复。因此,最好只创建中国大陆、香港和台湾的明星(约3000个)、电影(约1700个)、电视剧(约3700个)和音乐专辑(约7700个)条目。大中华地区的电影和电视剧一般都有一个确定的官方名称,除此以外不会有其他名称,因此不需担心会出现重复条目。
最后我们计算一下,不计那些关注度可能不足的条目,我们可以用机器人创建35,000个生物条目、四万个中国行政区划条目、八万个外国行政区划条目、12,000个日本铁路车站条目、3000个明星条目、1700个电影条目、3700个电视剧条目、7700个音乐条目,总共约18万个条目,还是很多的。现在越南语维基百科已经有37万条目了,要是我们还不赶快用机器人创建条目,估计再过不到一个月就会被越南语超过。那么越南语维基现在创建的都是些什么条目呢?看一看vi:Special:Log/import就可以知道,越南语正在从荷兰语版大量导入条目。荷兰语维基百科去年10月至12月用机器人创建了约25万个生物条目。越南语从荷兰语大量导入条目之前,大约有22万个条目,如果把荷兰语用机器人创建的条目全部导入越南语,越南语就会增加到47万条目。而我们现在有40万个条目,所以,这意味着我们至少要创建7万条目左右,才能摆脱越南语的追赶。就看有没有人愿意创建了。--Symplectopedia留言2012年3月12日 (一) 08:13 (UTC)
恒星是很难弄的,很多有重要性的恒星中国古代就有命名,但是不太好查。--MakecatTalk 2012年3月13日 (二) 13:13 (UTC)
我支持补全中国乡级行政区划的4万个条目,但是翻译美国法国的市镇条目意义不大。首先,欧美市镇规模很小,法国市镇人口的中位数只有600多人,重要性关注度普遍很低,对比一下中国乡级行政区平均人口是3万人。第二,欧美市镇条目在其他语言的百科里已经存在了,再翻译过来意思不大,而中国乡级行政区是整个维基百科都没有的内容。第三,虽然中国乡级行政区没有一个格式化的数据库,但我觉得发动整个zhwp的人力是可以人工完成的。比如,中国地级行政区有300多个,以现在中文维基的活跃用户人数,可以做到每个人认领一个地级市(家乡,现住在地,等等),一个人用一到两个月的时间完全可以完成一个地级市下设的乡级行政区条目。甚至,因为这类条目编写的门槛很低,可以发动新用户参与进来写一写自己的家乡,兴趣也是足够的。--Gilgalad 2012年3月12日 (一) 10:02 (UTC)
(!)意见:宁缺毋滥。我认为应该在确保质量的基础上追求数量,像那些小语种维基,就算排名靠前了,可有意思吗?有几个人会看?中文维基应本着为全球14亿多中文用户服务的原则,以改善条目质量为第一要务。——苏州宇文宙武之太阳殿 ♨迎仙宫 ★尚书省 2012年3月12日 (一) 08:26 (UTC)
现在中文维基百科的条目质量已经很不错了,有843篇优良条目。而日语、葡萄牙语和瑞典语分别只有616篇284篇369篇优良条目,均少于中文版。而且,中文维基只有240个条目需要维基化4个条目需要清理。看看其他语言版本,英文版有21478个条目需要维基化22384个条目需要清理;俄语有22648个条目需要维基化6263个条目需要清理;法语有2574个条目需要维基化2764个条目需要清理;日语有744个条目需要维基化895个条目需要清理。--Symplectopedia留言2012年3月12日 (一) 11:17 (UTC)
(:)回应:如果取得这么一点小小的成绩就满足的话,中文维基是没有希望的。汉语文是世界第一大语文,取得如此成绩并不稀罕。我们的目标应该是所有语言版本中质量最高的,不一定要数量最多,多不代表好。——苏州宇文宙武之太阳殿 ♨迎仙宫 ★尚书省 2012年3月13日 (二) 06:38 (UTC)
完全不同意你的说法。为什么条目数量多不代表好?条目数量多,提供的信息就多,这样读者就更容易查找到想寻找的信息;而且条目数量多,在搜索引擎上被搜索到的机会就大,浏览量就更多。为什么百度百科、互动百科的参与人数和浏览量大大高于中文维基?就是因为他们条目数量多的缘故。反过来质量差一点,缺少参考资料、没有维基化等,并不是大问题,只要没有明显错误,读起来基本通顺就行;质量再好,顶多是多赢得一些赞美而已,用处不大。--Symplectopedia留言2012年3月13日 (二) 07:36 (UTC)
(:)回应:拿百度、互动来和维基作比较,维基果然堕落了啊。无所谓,谁爱开机器人谁开(我是不会用的)。我反正是以抓质量为第一要务,等到什么时候中文维基特色、优良条目变成第一了,基本上差不多了,赶数量交给机器人好了。另外,怕被越南、瑞典、乌克兰等赶超,堂堂世界第一语文,不觉得跌身价么?——苏州宇文宙武之太阳殿 ♨迎仙宫 ★尚书省 2012年3月13日 (二) 08:56 (UTC)
(!)意见。拿中文的优良和特色条目的数量来比较,对应到现在所谓的投票和检查的过程,毋宁是自曝其短,逻辑矛盾。既然要拼数量,那就拿数量来说,还偏偏要用品质极度不稳定,在外界批评甚多的所谓优良和特色条目当理由,真的要说是搞不清楚状况吗?连中文的资料都掌握不好,只会计较多几个,少几个条目,有什么帮助?数量多,语法乱七八糟,用词不知所云,顶多就是会出现在搜索引擎的结果上,但是,可读性很差的东西可以被很多人找到的时候,留下的印象是什么呢?就是现在普遍可以听到的:中文维基的内容不好(这已经算是比较客气的用词)。老在用搜索引擎的数量当佐证,而不是真的去阅读一些内容和消化,看到的就只能是表面。-199.83.40.32留言2012年3月23日 (五) 14:16 (UTC)
(!)意见,有些东西有了也不是坏事,比如说外国城镇什么的,我能查到这个地名就行。至少这段时间我已经用到好几个这种地名了,比如比利比诺拉利贝拉 etc.--铁铁的火大了抓兔子啦,抓兔子啦…… 2012年3月12日 (一) 10:11 (UTC)
这类条目在查地名时确实很有帮助。--Alexchris留言2012年3月12日 (一) 12:53 (UTC)
可以考虑利用中文维基现有的一些列表,比如:
每个省的省级文物保护单位少则几百多则上千,总计这类红字条目应该上万了。而且列表里已经给出了名称、编号、地点等基本信息,有的还附图。像这类既有数量又符合关注度要求的列表,值得利用。--Gilgalad 2012年3月12日 (一) 10:40 (UTC)
话说回来,菲菇那个生物机器人为什么突然停掉了,记得当初好像就是靠那个机器人突破30万大关的,我当时还说了句”超瑞赶俄,可立而待“,突破40万大关时候居然还是这句话。。。。。。--九紫离火很高兴认识你o(∩_∩)o 2012年3月12日 (一) 12:14 (UTC)
日语版排名的下降,不一定完全是因为没用机器人,记得过去上alexa上看日语版的流量占全站的14%多,现已降至7.08%,被西班牙语超越,有一段时间甚至被俄语版超越。俄语版的上升与瑞典语、越南语性质不同,不全是因为机器人的缘故。至于重复条目,有一点儿似乎也无妨,即使不用机器人也肯定存在许多重复。-综合征与一万年留言2012年3月12日 (一) 14:06 (UTC)
我可以最近加快大陆行政条目的建设,但编辑仍然需要仰赖数据库。行政条目有四万,我就算达到自己的极限,一天制作500条,也需要80天时间做完。而根据皇帝所说的越南语所复制的荷兰语生物库的容量,他们仍有将近十二万的容量,而且他们的机器人复制容易,每天平均创建2000条,在60天内就可以完成。换句话说,在现有数据库条件基础下,他们超越中文维基在60天就可以完成,而我所做的顶多是能够勉强超过瑞典语的机器人效率。越南语的数据库到47万就是关卡,他们无法逾越那个;只要我们能够顺利度过47万,就可以说暂时一年内不会担忧有被超越的可能。不用机器人,我们不仅无法超过瑞典语,就连后面的乌克兰语和越南语,也很轻易把我们甩掉五万以上。--Walter Grassroot () 2012年3月12日 (一) 16:58 (UTC)
他们能用的数据库是有限的,而我们自然的条目增长是无限的,所以我觉得不必在意一时名次的得失。每个人业余时间有限,你也不必勉强自己一个人挑这么重的担子。我认领南京市所属的乡级条目,大概七八十个吧,慢慢来用十来天时间总归能完成。--Gilgalad 2012年3月12日 (一) 20:48 (UTC)
尝试了一下,效率太低。行政区划同名的几乎近一半。建两个条目就得手动建造一个消歧义。--Walter Grassroot () 2012年3月13日 (二) 00:07 (UTC)
能否先创建条目,同时把需要建消歧义的条目记录下来,最后大家一起手动创建?—Snorri留言2012年3月13日 (二) 00:36 (UTC)
干脆直接加上县市后缀消歧义,比如乌江镇 (南京市)或者乌江镇 (浦口区)。--Gilgalad 2012年3月13日 (二) 01:50 (UTC)

@Symplectopedia:这有个不记得从哪个网站存下来的铁路车站数据表,可以写一些车站小作品,只是格式不规整不很方便机器处理,然后还有缺少可靠来源的嫌疑,同时数据有些老还有部分错误(好像还是六提前的)。

站名	站址	邮编	建设时间	里程	等级	客货运情况
天津站	天津市河北区海河东路	300010	1888年	137	特等站	客运:办理旅客乘降;行李、包裹托运;货运:办理整车、零担、集装箱货物发到;办理整车承运前保管;不办理危险货物发到

Liangent (留言) 2012年3月13日 (二) 04:51 (UTC)

关于小行星条目,我想技术上是没什么问题的,建立到一万左右应该大部分人都没意见。那么如果想其他语言一样弄了几万甚至十万以上(数据库完全够,关注度明显不足),各位意见是什么?--MakecatTalk 2012年3月13日 (二) 13:45 (UTC)

意见很简单,别的语言有多少,我们也要搞多少,不落后也不让别人说闲话 --九紫离火很高兴认识你o(∩_∩)o 2012年3月13日 (二) 14:21 (UTC)
上面某人领会错我的意思了,我并不反对增加条目数量,只是更注重条目质量。如果能在保证条目质量的基础上增加条目质量,我自然乐见其成。——苏州宇文宙武之太阳殿 ♨迎仙宫 ★尚书省 2012年3月14日 (三) 01:52 (UTC)
@ Liangent,目前我和AddisWang正在做内地的火车站。由于需要整理数据库,一天可能有300左右条目。内地有资料的火车站数量可能在数千个吧。--达师218372 2012年3月15日 (四) 04:39 (UTC)
做了哪些线路了?Liangent (留言) 2012年3月15日 (四) 05:28 (UTC)
@ WG:现在连41万都还没有,什么时候才能到达47万呢?--达师218372 2012年3月15日 (四) 04:39 (UTC)

@ Makecat: 反对学习外语刷小行星。至于小行星条目,我的底线是有反照率数据。这个比英文版严很多,但是是唯一有效而且有道理的限制手段,否则和不限制没有任何区别。--达师218372 2012年3月15日 (四) 04:48 (UTC)

@ Liangent :已经刷了京九、陇海、兰新、滨洲、通霍、大秦,大概。以前已经补满了的有青藏(格拉段)、凤上、滨绥、京包。个人所知,很可能不全,而且不包括高速线和部分特别短的线。--达师218372 2012年3月15日 (四) 12:55 (UTC)

已经开始刷行政了,到41万了。越南语的速度太快,每天4000谁也受不了,直接复制波兰语的,连数据库整理都省了。--Walter Grassroot () 2012年3月17日 (六) 06:37 (UTC)
谢谢您,Walter Grassroot。另外纠正一下,越南语不是每天4000,是每隔三、四天创建4000左右。也就是说,他们平均每天只增加1000多个条目。--Symplectopedia留言2012年3月17日 (六) 07:31 (UTC)
也谢谢你,大家都很努力地写条目。其实编写速度,完全取决于两个人:越南语的Cheers!和瑞典语的Nasko。如果没有这两个人开动机器人,我们就根本不需要这次讨论和现在的努力。他们应当也在盯着中文维基的动态,以随时改变策略。--Walter Grassroot () 2012年3月18日 (日) 06:43 (UTC)
Cheers!创的条目有很多根本不是越南语,整篇都是荷兰语,这种情况即使在一些最小语种的维基百科都会被速删,可越南语社群却对其放任不管。这可怎么办呢……-综合征与一万年留言2012年3月18日 (日) 09:03 (UTC)
是啊,越南语维基百科有不少条目都完全没有翻译,搜索speciesgenusasteroidsoort(荷兰语“物种”的意思)等词就可以找到一大堆未翻译和未完全翻译的条目。我们可以到vi:Wikipedia:Thảo luận对越南语社群作出警告。如果他们还是不听我们的劝告,仍然不肯删掉没有翻译的条目,继续用机器人创建未完全翻译的条目,那我们就可以提报至元维基meta:Requests for comment。--Symplectopedia留言2012年3月18日 (日) 09:17 (UTC)
复制了那么多外文条目……根本不可能有足够的人去翻译啊。--MakecatTalk 2012年3月18日 (日) 09:19 (UTC)
为什么他们不先把荷兰语的条目翻译成越南语,然后再用机器人创建?为什么他们明知不可能有足够的人去翻译,还要复制那么多外文条目?在哪个语言版本创建条目就要用哪种语言,这是最基本的原则不是吗?要不然越南语维基百科干吗要叫越南语维基百科?我们坚决反对他们用这种不正当、不公平、甚至可以称为作弊的手段,使条目数量超过中文维基。我已经在vi:Wikipedia:Thảo luận#Stop using bots to create articles, immediately!对越南语社群作出了警告。--Symplectopedia留言2012年3月18日 (日) 09:49 (UTC)

等了这么多天,还是没有人回复菲菇那个生物机器人为什么突然停掉了,也罢,当初就是靠那个机器人突破30万大关,后面还有35000多个生物条目没有创建,该数据库是现成的,不利用一下太可惜。将该机器人重新开动起来,至少可以和越南语,瑞典语形成互角之势。--九紫离火很高兴认识你o(∩_∩)o 2012年3月18日 (日) 09:08 (UTC)

我前几天问了User talk:PhiLiP#请问您是否有兴趣用机器人创建生物条目?,他仍然没有回应。--Symplectopedia留言2012年3月18日 (日) 09:18 (UTC)
刚才仔细回想了一下,如果没记错的话,那个机器人好象是因为会重复创建条目还是什么别的原因,导致我们的条目暴增,担心被上头发现,所以才停掉的,我当时还坚决反对过停止该机器人运行。后来过了这么长时间,当初创建的那么多条目,也没有被上头发现删掉,正好趁这个机会再度开动,把剩余的35000生物条目补完,反正其他语种都在大用特用机器人,不是就我们独此一家。--九紫离火很高兴认识你o(∩_∩)o 2012年3月18日 (日) 09:23 (UTC)

(~)补充:如果有数据但不会用机器人的可参见User:Makecat/使用机器人创建条目。--MakecatTalk 2012年3月18日 (日) 09:12 (UTC)

有数据也可以贴到用户页下,之后找我(如果不能贴就别找了)--达师218372 2012年3月18日 (日) 09:54 (UTC)

我测试了一下AWB的CSVLoader插件,经过调试以后基本可以全自动运行,效果大概是这样(不用管编辑历史,那时测试时没设置好造成的)。--MakecatTalk 2012年3月18日 (日) 13:05 (UTC)

@九紫离火,上头是什么?--百無一用是書生 () 2012年3月19日 (一) 02:19 (UTC)
既是中文维基百科的上层组织,如维基媒体基金会,当然时隔多年,也可能是我记错了,所以才会在这里询问。--九紫离火很高兴认识你o(∩_∩)o 2012年3月19日 (一) 02:46 (UTC)
(:)回应补充,于2011年台湾冬聚Tilman Bayer(基金会的员工)明确表示,基金会是绝对不会涉入维基计划的编辑作业,这属于管理员阶层的自我约束,也许是担心Bot创建过多条目会影响品质观感。--安可与我对话 ☺) 2012年3月24日 (六) 18:33 (UTC)
感谢大家的努力,人多了力量就大,效率高。现在已经到达41.4万条目,如果机器人能开动生物类,就能够达到47万,我们应该可以摆脱越南维基的追赶。谢谢S帝的警告,希望越南语内部有所争议和顾虑,就算是机器人仍然我行我素,但至少给我们争取了几天时间。--Walter Grassroot () 2012年3月19日 (一) 05:22 (UTC)
这件事可以考虑贴到m:RfC,不过这样扩大化不知道是否合适。--达师218372 2012年3月19日 (一) 08:24 (UTC)
建议不要,Cheers!也算是越南维基的元老级编辑,如果他能用机器人创建,也可以用机器人修改。他的修改本身就为我们赢得时间。盲目请求上级裁断,会让其他维基轻视我们中文没有度量。--Walter Grassroot () 2012年3月19日 (一) 15:01 (UTC)
我们不是在进行条目数量比赛,没有必要赢得时间。我想没有人会因为中文维基多创建几个条目而认为中文维基“没有度量”的。--王小朋友留言2012年3月20日 (二) 11:17 (UTC)
看来Cheers!并没有打算照我所说的去做。虽然他昨天友善地回应了我的警告,可是他今天仍然继续用机器人创建条目:vi:Special:Log/import。我已经对他发出了最后警告
我们这几天的条目增长速度快了不少,但仍然不足以摆脱越南语的追赶。也许是因为中文维基会使用机器人的人太少的原因,现在只有我、User:StevenliuyiUser:Walter Grassroot每天创建数百条目。
我现在教大家一种不用机器人,又能快速创建条目的方法。我这两天就是用这种方法手动创建了两千多个中国行政区划条目。首先,要想好创建哪个地级市的乡级行政区划条目。下面以成都市为例。
1. 打开http://cn.quhua.net ,点击“四川”,再点击“成都市”。
2. 点击“锦江区”,进入http://cn.quhua.net/51/510104000000.htm 。然后把“村级以上行政区划一览”一段复制到记事本(Notepad)。
督院街街道办事处: 青石桥社区 滨江路社区 督院街社区
盐市口街道办事处: 学道街社区 青年路社区
……
三圣街道办事处: 江家堰村 大安桥村 幸福村 驸马村 红砂村 万福村
3. 在记事本中点“编辑”(Edit),再点击“替换”/“取代”(Replace),将“: ”(冒号加空格)替换成“|锦江区|”。替换后的文字如下:
督院街街道办事处|锦江区|青石桥社区 滨江路社区 督院街社区
盐市口街道办事处|锦江区|学道街社区 青年路社区
……
三圣街道办事处|锦江区|江家堰村 大安桥村 幸福村 驸马村 红砂村 万福村
4. 将记事本中的这段文字复制到Microsoft Word。
5. 回到http://cn.quhua.net/51/510100000000.htm ,点击下一个区/县(青羊区),重复以上步骤(复制到记事本,替换,再复制到Microsoft Word)。再点击第三个区/县,以此类推,直到最后一个区/县为止。
6. 以上步骤做完了以后,回到Microsoft Word,现在Microsoft Word中的内容应该是这样:
督院街街道办事处|锦江区|青石桥社区 滨江路社区 督院街社区
盐市口街道办事处|锦江区|学道街社区 青年路社区
……
三圣街道办事处|锦江区|江家堰村 大安桥村 幸福村 驸马村 红砂村 万福村
太升路街道办事处|青羊区|鼓楼南街社区 太升南路社区 德盛路社区 小关庙社区 玉沙路社
草市街街道办事处|青羊区|文殊院社区 玉带桥社区 双眼井社区
……
集贤乡|崇州市|文锦社区 华兴村 梁景村 山泉村
7. 好了,现在开始就要在Microsoft Word中进行一系列的替换了。
第一步,点击“编辑”(Edit),再点击“替换”/“取代”(Replace),将“街道办事处”替换成“街道”。因为中文维基的街道条目名称通常不加“办事处”。
督院街街道|锦江区|青石桥社区 滨江路社区 督院街社区
盐市口街道|锦江区|学道街社区 青年路社区
……
三圣街道|锦江区|江家堰村 大安桥村 幸福村 驸马村 红砂村 万福村
太升路街道|青羊区|鼓楼南街社区 太升南路社区 德盛路社区 小关庙社区 玉沙路社区
草市街街道|青羊区|文殊院社区 玉带桥社区 双眼井社区
……
集贤乡|崇州市|文锦社区 华兴村 梁景村 山泉村
第二步(最关键的一步):将“^p”替换成“}}^p{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|”。这里“^p”是换行的意思。
督院街街道|锦江区|青石桥社区 滨江路社区 督院街社区 }}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|盐市口街道|锦江区|学道街社区 青年路社区 }}
……
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|三圣街道|锦江区|江家堰村 大安桥村 幸福村 驸马村 红砂村 万福村 }}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|太升路街道|青羊区|鼓楼南街社区 太升南路社区 德盛路社区 小关庙社区 玉沙路社区 }}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|草市街街道|青羊区|文殊院社区 玉带桥社区 双眼井社区 }}
……
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|集贤乡|崇州市|文锦社区 华兴村 梁景村 山泉村
当然,最前面和最后面也要分别加上“{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|”和“}}”。
第三步,将“ }}”(空格加}})替换成“}}”。也就是把“}}”前面的空格去掉。
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|督院街街道|锦江区|青石桥社区 滨江路社区 督院街社区}}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|盐市口街道|锦江区|学道街社区 青年路社区}}
……
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|三圣街道|锦江区|江家堰村 大安桥村 幸福村 驸马村 红砂村 万福村}}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|太升路街道|青羊区|鼓楼南街社区 太升南路社区 德盛路社区 小关庙社区 玉沙路社区}}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|草市街街道|青羊区|文殊院社区 玉带桥社区 双眼井社区}}
……
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|集贤乡|崇州市|文锦社区 华兴村 梁景村 山泉村}}
第四步,将“ ”(两个空格)替换成“、”。注意是两个空格,不是一个。
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|督院街街道|锦江区|青石桥社区、滨江路社区、督院街社区}}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|盐市口街道|锦江区|学道街社区、青年路社区}}
……
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|三圣街道|锦江区|江家堰村、大安桥村、幸福村、驸马村、红砂村、万福村}}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|太升路街道|青羊区|鼓楼南街社区、太升南路社区、德盛路社区、小关庙社区、玉沙路社区}}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|草市街街道|青羊区|文殊院社区、玉带桥社区、双眼井社区}}
……
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|集贤乡|崇州市|文锦社区、华兴村、梁景村、山泉村}}
最后一步,将“街道|”替换成“街道|街道|”,“乡|”替换成“乡|乡|”,“镇|”替换成“镇|镇|”。
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|督院街街道|街道|锦江区|青石桥社区、滨江路社区、督院街社区}}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|盐市口街道|街道|锦江区|学道街社区、青年路社区}}
……
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|三圣街道|街道|锦江区|江家堰村、大安桥村、幸福村、驸马村、红砂村、万福村}}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|太升路街道|街道|青羊区|鼓楼南街社区、太升南路社区、德盛路社区、小关庙社区、玉沙路社区}}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|草市街街道|街道|青羊区|文殊院社区、玉带桥社区、双眼井社区}}
……
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|集贤乡|乡|崇州市|文锦社区、华兴村、梁景村、山泉村}}
好了!全部替换完毕了。现在,回到维基百科,打开四川省乡级以上行政区列表,开始一个一个创建吧。
用我所说的办法,可以在半小时之内创建一百多个条目,大家不妨尝试一下。也许第一次会慢一些,多做几次就熟练了。如果不会使用机器人,可以用这种办法创建条目。会使用机器人的用户,也可以一边用机器人创建条目,一边用我所说的办法手动创建条目。--Symplectopedia留言2012年3月20日 (二) 13:18 (UTC)
感谢Symplectopedia提供创建行政区条目的方法,不过在对于同名乡级行政区,消歧异条目后的括号是要放置地级行政区还是县级行政区,例如凤凰路街道 (红塔区)凤凰路街道 (玉溪市),目前在维基上的条目好像两种方式都有。--Alexchris留言2012年3月21日 (三) 04:10 (UTC)
随便,消歧义括号中放置地级行政区还是县级行政区都可以,这算什么问题,芝麻大的小事,现在首要的任务是创建条目,避免被越南语追上,消歧义的问题可以以后再慢慢讨论。--Symplectopedia留言2012年3月21日 (三) 10:39 (UTC)
我括号内会填入县级行政区,不过制作消歧异页面的确需要些时间。--Alexchris留言2012年3月22日 (四) 12:08 (UTC)

用AWB和CSV Loader创建中国行政区条目

使用AWB创建条目的效率较高,也可以不用该很多分页来创建条目,不过需要申请AWB的使用权限;不过在消歧异页方面可能需要先手动创建,并需要修改消歧异条目所在的导航模板,似乎是比较麻烦的地方。

第一步:请至Wikipedia_talk:AutoWikiBrowser/CheckPage申请AWB使用权限,已经获得认可者可略过此步骤,当然也不要忘了从AWB上的下载连结下载AWB。
第二步:请至Wikipedia:CSV下载CSV Loader,并按照该页上的方法安装
第三步:进入http://cn.quhua.net/(行政区划网),下以四川省成都市锦江区为范例,从网站上复制下来的资料到Word上应该会呈现这样。
• 督院街街道办事处: 青石桥社区 滨江路社区 督院街社区

• 盐市口街道办事处: 学道街社区 青年路社区
• 春熙路街道办事处: 总府路社区 华兴街社区 岳府街社区
• 书院街街道办事处: 福字街社区 天涯石社区 东较场社区
• 合江亭街道办事处: 大慈寺路社区 东升街社区 合江亭社区
• 水井坊街道办事处: 水井坊社区 交子社区
• 牛市口街道办事处: 得胜路社区 水碾河路南社区 华成路社区
• 龙舟路街道办事处: 河滨社区 龙舟社区 顺江社区
• 双桂路街道办事处: 牛沙路社区 五福桥社区 东大路社区
• 莲新街道办事处: 海椒市社区 莲花社区 九眼桥社区
• 沙河街道办事处: 塔子山社区 沙河社区
• 东光街道办事处: 东怡社区 新莲新社区 五桂社区 永兴社区
• 狮子山街道办事处: 四川师大社区 万科城花社区 菱窠社区 花果村
• 成龙路街道办事处: 金象花园社区 皇经社区 花香苑社区 国槐路社区 棬子树村 金像寺村 皇经楼村 大观村 粮丰村 华新村
• 柳江街道办事处: 柳江社区 生研所社区 锦馨社区 包江桥村 祝国寺村 潘家沟村

• 三圣街道办事处: 江家堰村 大安桥村 幸福村 驸马村 红砂村 万福村
第四步:把内容按Ctrl+A全选后复制到记事本,再按Ctrl+H取代功能,
将“• ”取代为无内容。
将“ ”(两个空白)取代为“、”(全形顿号)。
将“: ”(全形冒号+一格空白)取代为“,成都市,锦江区,”(半形逗点+地级市+半形逗点+县级行政区+半形逗点),CSV就是以逗号分隔各项参数。
将“街道办事处”取代为“街道”(如果有街道行政区的情况)。

应该会有以下的结果

督院街街道,成都市,锦江区,青石桥社区、滨江路社区、督院街社区

盐市口街道,成都市,锦江区,学道街社区、青年路社区
春熙路街道,成都市,锦江区,总府路社区、华兴街社区、岳府街社区
书院街街道,成都市,锦江区,福字街社区、天涯石社区、东较场社区
合江亭街道,成都市,锦江区,大慈寺路社区、东升街社区、合江亭社区
水井坊街道,成都市,锦江区,水井坊社区、交子社区
牛市口街道,成都市,锦江区,得胜路社区、水碾河路南社区、华成路社区
龙舟路街道,成都市,锦江区,河滨社区、龙舟社区、顺江社区
双桂路街道,成都市,锦江区,牛沙路社区、五福桥社区、东大路社区
莲新街道,成都市,锦江区,海椒市社区、莲花社区、九眼桥社区
沙河街道,成都市,锦江区,塔子山社区、沙河社区
东光街道,成都市,锦江区,东怡社区、新莲新社区、五桂社区、永兴社区
狮子山街道,成都市,锦江区,四川师大社区、万科城花社区、菱窠社区、花果村
成龙路街道,成都市,锦江区,金象花园社区、皇经社区、花香苑社区、国槐路社区、棬子树村、金像寺村、皇经楼村、大观村、粮丰村、华新村
柳江街道,成都市,锦江区,柳江社区、生研所社区、锦馨社区、包江桥村、祝国寺村、潘家沟村

三圣街道,成都市,锦江区,江家堰村、大安桥村、幸福村、驸马村、红砂村、万福村
第五步:把记事本存档,不过编码方式务必点选UTF+8。
第六步:开启AWB和插件CSV Loader后,在CSV Loader Setting中输入设定
Column headers栏位中填入“##name##,##city##,##region##,##in##”(代表刚刚建立的txt档案数据库内容分别是名称地级市行政区县级行政区下辖村级行政区)
Append/Prepend/Replace tex栏位中填入以下内容(不过省份方面需要跟着行政区所在的省份修改,分别是模板中的上级行政区、本文中和小作品模板三处需要更改)
{{中国乡级行政区

| 行政区全称 = ##name##
| 景观照片文件名 =
| 景观照片描述 =
| 汉语拼音 =
| 通用拼音 =
| 注音符號 =
| 其它标音类型1 =
| 其它标音1 =
| 其它标音类型2 =
| 其它标音2 =
| 其它语言类型1 =
| 其它语言地名1 =
| 其它语言类型2 =
| 其它语言地名2 =
| 上级行政区 = [[四川省]][[##city##]][[##region##]]
| 行政区类别 = [[乡镇]]
| 行政区划代码 =
| 地理坐标 =
| 总面积 =
| 户籍人口 =
| 户籍人口年份 =
| 常住人口 =
| 常住人口年份 =
| 人口密度 =
| 行政区划 =
| 官方网站 =
| 政府驻地 =
| 邮政编码 =
| 毗邻行政区 =
| 位置图文件名 =
| 位置图描述 =
}}
'''##name##''',是[[中华人民共和国|中国]][[四川省]][[##city##]][[##region##]]下辖的一个[[乡镇]]级行政单位。

== 行政区划 ==
'''##name##'''共辖以下地区:

##in##。

{{四川小作品}}
{{##region##行政区划}}
[[Category:##region##]]

第七步:设定完成后,在从AWB→Plugins→CSV Loader Plugin开启先前储存的txt档案,即可进行汇入。
第八步:建议将AWB中的Skip设定改为Don't careExist,以利发现消歧异页的存在,并将汇入内容剪下从该行政区的导航模板(Navbox)连结中手动创建条目,然后再Skip该条目,继续创建下一条再从编辑框上的Logs按钮查看Skip页面。
  • Add by Justincheng12345-设定为Exist,完成某一轮后从Log获取Skip了什么。

希望以上步骤对于各位用户有所帮助,上述方法如有更好的改进方式也欢迎提供意见,各位辛苦了。--Alexchris留言2012年3月26日 (一) 16:17 (UTC)

行政区划网我包了吧,都别建了,看了一下这个数据库结构貌似不错。Liangent (留言) 2012年3月26日 (一) 16:45 (UTC)
你说你包了可以,你不能让别人都别建了啊。Alexchris,没关系,别听Liangent的,继续创建。--Symplectopedia留言2012年3月26日 (一) 16:55 (UTC)
建的话那保证消歧义正确,不然机器人全部跑过之后还得手工修。Liangent (留言) 2012年3月26日 (一) 16:58 (UTC)
另外请教消歧义页的格式怎么写?Liangent (留言) 2012年3月26日 (一) 17:15 (UTC)
@Alexchris,还是Skip了好,一不小心编辑了就惨了,而Skip了的话可以从Log看出Skip了什么。Justincheng12345留言2012年3月26日 (一) 23:26 (UTC)
@Liangent:

XXX可以指:

{{Disambig}} (ABC非必要)

(ABC非必要)。Justincheng12345留言2012年3月26日 (一) 23:31 (UTC)
@Liangent:请阁下用机器人建造,这样我们就可以做别的数据库了。--Walter Grassroot () 2012年3月26日 (一) 23:36 (UTC)
@Liangent:希望阁下用机器人创建条目,消歧异页面格式大概已如Justincheng12345所述,但是其中YYY、ZZZ的标题,如果是EE市(地级市)FF区(市辖区),YYY以“YYY (FF区)”为标题,如果是EE市(地级市)FF县(县级行政区),YYY以“YYY (FF县)”为标题,好像是这样,也请WG兄确认一下,谢谢。--Alexchris留言2012年3月27日 (二) 01:15 (UTC)
@Liangent:
消歧义标题,给些具体例子吧。然后ABC写什么内容?Liangent (留言) 2012年3月27日 (二) 02:15 (UTC)
@Liangent:例如:四川省成都市青羊区下辖的光华街道以光华街道 (成都市)作为标题名称,而不是光华街道 (青羊区),括号中填入成都市(地级市行政区)。另外,例如贵州省六盘水市水城县下辖的董地乡则以董地乡 (水城县)作为标题名称,括号中填入县级行政区名称,县级市、县、自治县、特区皆是以此方式处理。--Alexchris留言2012年3月27日 (二) 13:57 (UTC)

有一些不太“正常”的名字,看看怎么处理:

  • 管庄地区办事处
  • 北京经济技术开发区虚拟社区 110115403498

Liangent (留言) 2012年3月27日 (二) 03:20 (UTC)

虚拟社区是不存在,请跳过去不要建造。通常都是地方给上级申报的一些开发区,但是并没有实际运作或开发。--Walter Grassroot () 2012年3月27日 (二) 04:07 (UTC)
这样的虚拟社区还是被写到了条目里面。Liangent (留言) 2012年3月27日 (二) 04:54 (UTC)
  • '土山花社区园居委会','120101004006'
  • '金盾里社区家委会','120102007021'
  • '红旗农场虚拟生活区','120113500598'
  • '东于庄村农工商公司(村)','120113100209'

……不想一个个看了,太多了,有谁创建过程中看到的特殊情况列举一下吧。Liangent (留言) 2012年3月27日 (二) 04:46 (UTC)

  • 区划网 » 中国行政区划 » 云南省 » 西双版纳傣族自治州 » 景洪市 » 西双版纳州渡假区管理委员 » 曼弄枫虚拟村

Liangent (留言) 2012年3月27日 (二) 09:10 (UTC)

(参考资料)http://www.jssb.gov.cn/zdbz/tjbz/201109/P020110906388497492673.doc :类似乡级单位(@Hat600:兵团在这里面)、类似居民委员会、类似村民委员会以及提到的198,398,498,598代码的处理?@Alexchris:Hat600解释,是说街道用地市级,其他用县级,是这样吗?Liangent (留言) 2012年3月27日 (二) 15:01 (UTC)

(?)疑问:运行AWB和CSV Loader的最后一步(点选已经储存成txt档案的数据库,即可执行)究竟是如何执行?我点选txt文件后,只能看见[make list]方框下面显示要创建的条目名单,如何具体执行创建呢?--敢为天下先留言2012年3月29日 (四) 04:56 (UTC)

请确定括号和“办事处”怎么处理(不只是有“xx街道办事处”)。Liangent (留言) 2012年3月29日 (四) 05:37 (UTC)

User:Liangent/prcadmin 这个列表是完成(1)结尾的“地区办事处”->“地区”(2)结尾的“街道办事处”->街道 的替换后,剩下的含有“办事处”的条目。

加一小段

我认为Symplectopedia的警告只会让那个越南语的机器人编辑会勃然大怒,加速进程也说不定。我仔细想了一下,如果越南语强行释放所有的数据库,这样就会导致届时47万的条目中,只要随即刷新就能找到50%的小小条目以及其中没有翻译本土化的作品,这样必定减损了越南维基自己的质量形象。我倒是觉得越南语如果加速,只会自取其辱,但建议S皇克制自己,不要激怒;除非你认为这样的激怒,反而有助于问题更易在元维基得到重视、以及更易促使他们对越南语进行惩罚。--Walter Grassroot () 2012年3月21日 (三) 00:13 (UTC)

越南机器人可能会觉得我们在这个“竞赛”里心虚了,更变本加厉也说不定。另外我发现那个区划数据库有点老,似乎是2010年以前的,使用之前最好先核对一下最近的区划变动。--Gilgalad 2012年3月21日 (三) 00:55 (UTC)
变本加厉意味着他们才是心虚了吧,自然增长的差距就很明显,何况我们也在刷。--达师218372 2012年3月21日 (三) 08:52 (UTC)
我是说越南机器人可能会以为我们“弹药”不够,这对他反而是种鼓舞。--Gilgalad 2012年3月23日 (五) 03:48 (UTC)
越南语那边已经开始讨论起来了:vi:Wikipedia:Thảo luận#Stop using bots to create articles, immediately!。这里有会越南语的吗?我看不懂他们在说什么,用Google翻译也没能完全看懂。似乎有支持删掉未翻译内容的,也有反对的。
建议大家一起向越南语维基百科施压,人多了力量就大,目前只有我一个人跟越南语几个人争论,难免势单力薄。--Symplectopedia留言2012年3月21日 (三) 10:32 (UTC)
各位怎么都那么小气,好像比我还小朋友。--王小朋友留言2012年3月21日 (三) 11:49 (UTC)
@ Symp: 不要都过去施压,压力过大会引起反弹。让他们自己想通。想不通那我们就刷,不就是比谁刷得快么。我们从41万开始刷,四万乡镇就45万,大家再都出点力刷点别的,就过47万了。--达师218372 2012年3月21日 (三) 12:01 (UTC)
在越南语维基历史上,除了他外还有其他人用机器人刷么?我认为对他们这种自然生长率30条每天的维基语种而言,拥有个那么高效率的机器人和数据库不用,似乎诱惑太高。此外另一个事情,S皇此前手动编辑的大量条目,我现在发现有出现同义的情况,可能需要花点时间进行消歧义调整。--Walter Grassroot () 2012年3月22日 (四) 00:49 (UTC)
你能查歧义?那就先把所有消歧义建起来…… --达师218372 2012年3月22日 (四) 01:49 (UTC)
技术上不难做,问题就是比较耗时,而且如果一些省份没有建立乡镇一级的模板,我是没法查出来的。只能一个个地移动。用AWB时候,可以点"what's link to/from"那一项,可以追踪所有连入的模板,如果有两个以上就可能意味着是存在两个同名的。--Walter Grassroot () 2012年3月22日 (四) 02:24 (UTC)
那先至少把这套模板做齐吧……(不过应该基本不缺……)那还是边刷边建消歧义好了。--达师218372 2012年3月22日 (四) 04:38 (UTC)
暂时粗略看,模板尚未建造完成的是黑龙江省,其余都建立。我的策略是在编辑某省前,先看他们的“乡级以上行政区列表”中的已经变蓝的条目,如果其中现实是指向错的,那就建立消歧义,如果没有的话就直接刷。这样遇到新的再去补过去旧的就好,效率应该最快。其中北京、上海、山东、山西、福建的基本全部建立,我计划这周内刷完河南省的。--Walter Grassroot () 2012年3月22日 (四) 04:49 (UTC)
要检查有多个页面(模板)链入同一个条目的话可以直接去查询数据库。Liangent (留言) 2012年3月22日 (四) 05:16 (UTC)
还有云南省--lavixcanvas M T C 2012年3月22日 (四) 07:26 (UTC)
(~)补充,如果会使用的AWB的话可以用上面和Symplectopedia类似的方法做成用逗号分隔的文本文件,然后用CSVLoader来自动创建(机器人可以自动保存)。使用步骤图解。--MakecatTalk 2012年3月22日 (四) 09:22 (UTC)
现在发现用symp的方式建的部分条目不查是否歧义,只要是蓝字,不管是否正确,直接跳过,这个补救起来需要些时间……--达师218372 2012年3月22日 (四) 11:41 (UTC)
我是来慰问各位的= =--铁铁的火大了抓兔子啦,抓兔子啦…… 2012年3月22日 (四) 12:29 (UTC)
刷的时后方便同时弄参考资料吗?--靖天子~北伐抗战军统局/真菌条目大跃进 2012年3月22日 (四) 14:47 (UTC)
@Hat600: 稍后我会列出所有存在歧义但条目内容不是消歧义的页面。Liangent (留言) 2012年3月27日 (二) 06:44 (UTC)

对手也在时刻注意着我们

就好比我们在关注对方的一举一动,对方也在时刻着注视我们这里的讨论,Cheers!的用户页,这次中越维基之战,结局势必更加扑朔迷离。--九紫离火很高兴认识你o(∩_∩)o 2012年3月22日 (四) 16:38 (UTC)

我不认为这是一场战争,只不过是维基编辑各自为战而已。我最初提醒大家,是希望每个人意识到我们从2008年以来,一直为缩小与瑞典语维基的差距而努力,这四年来相信以上很多人为此倾注了大量精力与感情;而这一努力在接近实现时,遇到了一些变数。而我定量越南维基,就是这种变数的代表。Cheers!的举动可谓伟大,既然他愿意引用我语,我当然欣然接受;但我希望他仔细想想,越南维基这几个月的增长,如果排除他一个人的努力外,又会如何?越南语有他,则奇强;无他,则极弱。一个维基百科的一半条目是一个人写的,那本身就是一种悲哀。越南语仍然保持在30条每天的自然增长速度;但相反,我们经过此事后,增加技能加速编辑的,已经不下十人。6670名活跃用户,这个才是中文维基更弥足珍贵的财富和资本。此事就算越南维基超过中文维基数万,我想我们比以往更团结,协作、互助等等维基百科应该提倡的精神,得到了变化。从此意义上,我们已经达到了目标。--Walter Grassroot () 2012年3月23日 (五) 00:39 (UTC)
在Cheers的讨论页上,你可以看到Symplectopedia的警告起到了反效果。。。You wanna advice me? but the way you do, the way you said that make me do inversely, even i can give up to be continue a sysop in Vietnamese wikipedia.--Cheers! (thảo luận) 13:26, ngày 20 tháng 3 năm 2012 (UTC), 我在想要不要加入越南语的争论,帮助Symplectopedia说话,但就像你说的,那样可能会让对方恼羞成怒。--九紫离火很高兴认识你o(∩_∩)o 2012年3月23日 (五) 02:05 (UTC)

Hi there. I am a member of Vietnamese wikipedia. I have worked in this Vi. wikipedia for many years and I have never seen any people who want to make war with other wikipedias. The "wikipedia war" that you zh.wiki creates is a completely new concept to us. So please stop imagining about unreal things, please, because it is very harmful for your mental health. We vi.wikipedians just have our own way to do things, and WE NEVER WANT TO MAKE WAR WITH ZH.WIKIPEDIA OR ANY OTHER WIKIPEDIAS, BECAUSE IT IS MEANINGLESS. Is that clear ? 137.132.236.175留言2012年3月23日 (五) 05:55 (UTC)

(把上面的留言移下来)@Symp: 所以如果你要tell stewards about this, 那我可以跟你说这个真的是他们社群自己的事情⋯⋯ @All: So can we leave each other's community alone? It's up to every individual if they consider this a race, and it is really viwp's business how they treat (un)translated articles. Leaving a reminder/opinion is fine, but there is indeed no point interfering or even provoke each other('s community). Be nice. And fix caplock please :) 所以我们能不能尽量不要到别人的社群里去干涉别人?如果作为个人将其视为是条目竞赛,当然没有问题,你也可以提出你的看法但是真的请不要用这样的语气和态度。如果他们都认为先保留不翻译完全的条目,以后慢慢更改,这是他们的决定,别人没啥权力干涉。Ben.MQ 2012年3月23日 (五) 00:53 (UTC)
无趣。故意以中文回答那位“实名”用户(再说一遍,这个词是shizhao说的)(话说你连什么叫实名都不能理解吧,更何况还是比喻义),如果你连用户名都不敢使用的话我们没有必要把你的话,尤其是很无礼的措辞和大写放在眼里。请任何人都不要把这段话主动翻译成其他文字。大家散了吧,有这时间都刷条目去。--达师218372 2012年3月23日 (五) 06:39 (UTC)
(!)意见:我早说过了,跟那些没几个人看的小语种有什么好争的,别跌了我们的身价了。别把时间浪费在这上面,还是脚踏实地,多写几个条目吧!——苏州宇文宙武之太阳殿 ♨迎仙宫 ★尚书省 2012年3月23日 (五) 07:19 (UTC)
再一次去Alexa看了流量,“没几个人看”的语种与中文版的差距,并不比中文与英语版的差距大。英语版流量是中文的30倍,而中文与越南语的差距只有10倍而已。越南语的情况还不算最绝的,有个Winaray语(菲律宾的一个极小语种)的百科(条目数排第38),109726的条目居然有100000多条全为一个叫JinJian的维基人所建,很多完全是机器人式的地理条目。-综合征与一万年留言2012年3月23日 (五) 11:02 (UTC)
各语言的浏览量可以参见内部统计[2],英语版约中文版的30多倍,中文版约越南语版的5倍左右。--Alexchris留言2012年3月23日 (五) 13:20 (UTC)
仔细的看了下数据,越南语的浏览量就和2008年时期的我们差不多,而我们上个月的浏览量高达2亿3800万,比总条目数排名第4位的荷兰语的1亿9900万浏览量还要多。--九紫离火很高兴认识你o(∩_∩)o 2012年3月23日 (五) 16:07 (UTC)
(:)回应以上各位,中文维基现在大陆有很多竞争对手,比如百度和互动,所以现在浏览量比较的结果是正常的,我们也因此在努力中,总有一天让中文维基成为最棒的在线中文百科,甚至全世界最棒的百科。说“没几个人看的小语种”云云没有看不起其他语种的意思,只是想提醒大家,中文维基再不济,也是用世界第一语文写就的,而且只有给看得懂中文的人看才有意义(英语文是世界通用语文,看的人多不奇怪),和其他语文版本的维基比较,既没意义,也无必要。与其在这里争吵,不如多编辑几个条目,大家说对吧?——苏州宇文宙武之太阳殿 ♨迎仙宫 ★尚书省 2012年3月26日 (一) 08:56 (UTC)

像S用户这样用居高临下的命令式口气去教导人家应该如何做实在……多此一举,那讨论下面没几人用你看得懂的文字回应你是因为那些回复基本都是他们为将行为合理化而进行的无力狡辩而已,S的留言只是使那边同样有的如Trongphu之辈只会嚷嚷的用户愈发感到自豪感被激发出来,因为中文版有人被越南人的“高超的造条目技术”威胁到了,因为他们着急到自找上门来气急败坏地发命令了。Cheers!倒还通情达理,终究讲了他会如何处理未译和半译的夹杂外文条目的问题,希望其他人帮他一并处理烂摊子。ɧ留言2012年3月23日 (五) 12:44 (UTC)

恫吓从来都没有用,只会被人理解为内心的恐惧和虚弱。--Gilgalad 2012年3月23日 (五) 13:16 (UTC)

中文维基的用户是何德何能,用居高临下的态度去对其他语言版发表意见?丢脸丢到外面去了。不过,看看这位用户自己的页面,看来他对于压制不同意见的幅度和广度进一步的提升到其他语言版去了。想想看,法语或者是德语版跑到这里来讲这种话,各位的感受是什么?所谓己所不欲,勿施于人,有些人的基本礼貌还真是惨烈啊。-199.83.40.32留言2012年3月23日 (五) 14:19 (UTC)

什么叫丢脸丢到外面去了?我看到别人做错了事,不管是中文维基的人也好,外文维基的人也好,我一定会直言不讳地指出,这是我一贯的做法,难道连这也不可以吗?还有什么叫压制不同意见?指出别人的错误也叫压制不同意见?而且这又不是像某些其他的事情,比如是否开放IP创建条目的权限,或者是否要罢免Shizhao的管理员权限,正反方都有很多论点,很难说哪一方是最正确的,创建大量未翻译的条目无论在哪个语言版本都肯定是不对的,这就好比杀人在哪个国家都是犯罪的一样,难道连这也不能指出?要是在现实当中有哪个国家杀了很多人,比如卢旺达大屠杀,或者斯雷布雷尼察大屠杀,那肯定是要受到其他国家谴责的,为什么越南语维基创建了大量未翻译的条目我就不能谴责一下?
如果法语或者德语版跑到中文维基指出这里的错误,那我们也要看情况,如果他们说得对,我们就应该虚心接受,如果他们说得不对,我们就反驳他们,或者干脆不理他们也可以,千万不可以用令人反感的口气叫他们滚开,不要干涉中文维基百科。这样才是正确的态度。--Symplectopedia留言2012年3月23日 (五) 15:20 (UTC)
我看到别人做错了事,这句话就足够描写你的心态和你的问题。你何德何能告诉其他语言用户他们做的是错误的,而你却不能接受你自己可能是错误的。这也说明所谓的压制是怎么出自你的思想和行动。会不会思考,够不够成熟,由此可看出差异。-199.83.40.32留言2012年3月23日 (五) 17:48 (UTC)
别以为你用IP我就不知道你是谁。中文维基的条目有一两句话不通顺你都会在Wikipedia:优良条目候选投反对票,对编者大加指责,现在越南语维基百科创建了大量未翻译的条目,你反而不让我指出他们的错误,真是双重标准啊。
你如果想继续指责我,请便。但如果你想改变我,想让我对别人的错误不管不问,不将它们指出,那我送你三个字:不 可 能。--Symplectopedia留言2012年3月23日 (五) 19:35 (UTC)
Cobrachen,仔细看苏州兄的对话,此事争议无意义,解决问题方法才是上策。--Walter Grassroot () 2012年3月23日 (五) 19:56 (UTC)

中文维基要怎么作,是中文维基社群的意向,越南语要怎么作,也是他们的社群来决定,跑到人家家里说三道四,先不说懂不懂基本礼仪,这种不成熟的动作,以后要是形成反效果可是要整个社群承担,搞出这种飞机可不是说个我负责(一个没肩膀的人说再多也扛不起来)就可以了事的。不想要争议,那就让引起这个争议的人去解决,而不是让社群来灭火。别人的错,不是另外一个人可以犯错的理由和借口。有人的例子殷鉴不远啊。-199.83.40.32留言2012年3月24日 (六) 14:24 (UTC)

那你说我要怎么做?难道要对越南语维基创建大量未翻译的条目不管不问吗?难道要眼睁睁地看着越南语版就用这样极其不公平的方法超过中文维基吗?人家有错我们就有权指出。想想现实社会中,要是哪个公司用不公平的方法来牟取暴利,比如出售黑心商品,那任何其他公司都是可以告它的。没错,到越南语维基“说三道四”是会让别人觉得反感、不舒服,但能不能做某件事要看整体的利弊,不是只看会不会让人反感,不然的话,学校老师惩罚顽皮的学生会让学生反感,于是就不惩罚了?公司的老板斥责不守规则的员工会让员工反感,于是就不斥责了?--Symplectopedia留言2012年3月24日 (六) 23:00 (UTC)
超越又怎么样了?天塌了?海啸了?还是你爱的AV女优都不出片了?不公平?谁的角度,谁的标准?这个世界又有几件事情是公平的?自比于公司的老版,你是哪个维基的老板?你又是哪个社群的老师?为了几个数字跳上跳下,你是把这当作期货还是股票在玩了。不懂得三思而后行的,也就是这样了。-71.246.222.20留言2012年3月25日 (日) 16:01 (UTC)
插一句,Symplectopedia作为一个维基人(这里或许称为wikimedian更为合适)在越南语维基百科提出问题,发起讨论很正常啊,至少我没觉得有什么不可以。维基百科各语言之间最缺乏的就是这种跨语言之间的沟通,这是好事情,而不是坏事情。只是不要以某语言维基社群的名义说话就没啥问题--百無一用是書生 () 2012年3月26日 (一) 01:57 (UTC)

继续回到编辑中

请各位克制情绪,不要把以前的个人恩怨再重新泛到水面。我和Symplectopedia此前的种种仇雠,不比你们以上的很多人少,现在讨论的如何充分利用数据库创建条目的情况。Symplectopedia说的那些数据库,我们尚可利用的并不多,现在做个小总结,这是集思广益解决问题的场所,不是讨论过去争议的地方。

  1. 中国大陆乡镇及行政区:已经建立将近15000;尚有30000可建
  2. 生物:尚有35000可建
  3. 小行星:尚有15000可建
  4. 中文明星:3000可建
  5. 中文电影:1700可建
  6. 中文电视剧:3700可建
  7. 中文音乐专辑:7700可建
  8. 日本铁路站:12000可建
  9. ??,请补充~ 谢谢

现在我先自作主张、按照大家最近负责的,希望能够大家分工明确、协力合作。我个人会继续用AWB去加速编写。

  • Symplectopedia兄,请将您写的那个行政区方法制作成一个单独手册,或作为一个个人陈述。你可以继续加速扩建,消歧义事情,由我负责纠正。谢谢。
  • Makecat兄,请将CSV使用方法进行本土化;这点非常重要。谢谢。
  • 达师兄、Dinger兄,请继续用你们的机器人扩建条目。此前扩建的消歧义事情,由我负责纠正。谢谢。
  • Stevenliuyi兄,请继续用AWB创建,非常感谢!
  • Alexchris兄,以及所有想学用AWB的朋友,请电邮联系我,我会亲自教你们使用AWB,希望增快你们的效率。
    • add by Justincheng12345-请先查看WP:AWB/UM
  • Angnation兄,请协助调查以及完善那些未建的乡镇区划模板,非常感谢!
  • Gilgalad兄,请帮助研究一些其他可以拓宽的数据库。谢谢。
  • 九紫离火兄,请抽空观察其他维基对此的态度和对策。谢谢。
  • Snorri兄,如阁下所说,有空帮忙协助创建消歧义的,有一些简单方法可以帮助查询,但需要手工。谢谢。
  • 乌拉兄及其他主要负责巡查的朋友,请抽空随机查询我们的机器人以及半机器人的编辑是否维基化,并及时提醒。谢谢。
  • 书生兄以及其他管理员,请及时查阅AWB和机器人的申请以及批准,方便我们快速上手,加速效率。谢谢。

希望大家能够齐心协力去做这个事情,非常感谢!GO TEAM! --Walter Grassroot () 2012年3月23日 (五) 17:02 (UTC)

大家加油!恕在下时间心力有限,又有既定的编辑计划要执行,暂时不敢冒然参与;但也趁这个势头调整作法:尽量新增条目,稍缓添加内容。希望其他版面的朋友多来这里关切,是否有必要与“捍卫战士”(只捍卫自己的条目、自已的原则者)耗时间,值得省思。-Kolyma留言2012年3月24日 (六) 01:03 (UTC)
会使用AWB应该能看懂图解步骤吧。小行星条目需要做程序下载数据并处理成所需的格式,手动不太现实,我得过几个月才有空做。--MakecatTalk 2012年3月24日 (六) 02:56 (UTC)
关于CSV Loader的使用方式可以参见Wikipedia:CSV,能够增加条目创建的效率,而Wikipedia:CSV的内容需要各位多加关注,如有错误麻烦修正,感谢。--Alexchris留言2012年3月24日 (六) 04:56 (UTC)
此外如果有人想创建恒星条目,中国古代的命名可参考中西对照恒星图表。--MakecatTalk 2012年3月24日 (六) 02:56 (UTC)
感谢各位。还有船只数据库的说。Justincheng12345留言2012年3月24日 (六) 03:34 (UTC)
虽然不懂怎么用机器人编辑但是我支持,单是深度我们的百科算是不错的了,是时候扩充一下条目也方便菜鸟们编辑,想一想他们有一些资料又看到不完整的条目他们会如何?所以又数量是很重要的,还有就是一些街道,看到一些人说同名问题干脆直接添加括号也是不错的方法,要是一些城市的马路都有我可以去拍拍照写东西多方便啊!Qa003qa003留言2012年4月23日 (一) 15:45 (UTC)

中国科学院院士数据库

我从中科院网站抓了全部院士的资料,一共1200左右,已有条目400多,还有700多可建。我觉得简介部分应该属于“事实新闻”,不受版权保护可以直接抄,我先处理了数学物理学部放在这里,可以发现这些资料还是很容易格式化的。唯一问题是已故院士那部分没有给出对应的学部。--Gilgalad 2012年3月24日 (六) 03:43 (UTC)
基本整理完毕,不包括外籍院士共544条。--Gilgalad 2012年3月24日 (六) 18:02 (UTC)
是否能做成EXCEL数据库,分列姓名、生、卒、地、领域、简介、链接、模板,这样机器人可以批量操作。此外中科院院士均有模板链接,已故院士应当在维基中有对应的模板。譬如Template:中国科学院数学物理学部院士,不妨可以用链入页面查询。--Walter Grassroot () 2012年3月24日 (六) 18:50 (UTC)
学部问题解决,出生日期已经模板化。但出生地、籍贯地的地名维基化还是不太好弄。--Gilgalad 2012年3月25日 (日) 02:20 (UTC)

小行星数据库建造讨论

消歧义的讨论

鱼类数据库的采用

该数据库的中文首页有清楚注明:“本网站采用 Creative Commons 条款作为资料使用的依据 使用的授权标章 CC-BY-NC-ND”。维基媒体计划不接受自由度偏低的“姓名标示─非商业性─禁止改作”授权。--章·安德鲁留言2012年3月25日 (日) 01:34 (UTC)
(:)回应感谢章·安德鲁的热心提醒,惟“CC-BY-NC-ND授权条款允许使用者重制、散布、传输著作,但不得为商业目的之使用,亦不得修改该著作。使用时必须按照著作人指定的方式表彰其姓名。”不得修改该著作是指 此即为在使用时必须清楚列明来源。维基百科也已经有相当庞大数量条目采用此一CC授权的来源,因此并非如章·安德鲁所述“不接受”,亦欢迎其他高手释疑。--安可与我对话 ☺) 2012年3月25日 (日) 02:26 (UTC)
(~)补充,依照以往经验,再多行补充一些资料以避免误解扩大,这边有中央研究院民族学研究所的引用须知以及 空中大学万维网的 “姓名标示-非商业性-禁止改作”范例,虽然是2.5版,但使用方式相差无几,况且知识共享之精神就是希望能散布的各式内容资源,嘉惠自己与其它众多的使用者,还望章公明鉴。--安可与我对话 ☺) 2012年3月25日 (日) 02:46 (UTC)
很抱歉,但是安可兄,这个不可以转移。请看Wikipedia:版权常见问题解答,里面明确说CC-by-nc-nd不能复制到维基百科。此数据库不能使用。--Walter Grassroot () 2012年3月25日 (日) 04:36 (UTC)
可以用作参考资料,不可以直接移动或者稍作修改加入。另,部分有版权的内容,由于里面净是些表格(单纯事实),著作权人只是有整理的著作权,而对数据本身没有权利,这样的内容可以用来做数据的。--达师218372 2012年3月25日 (日) 06:06 (UTC)

停止条目数比赛

中文维基可以抓取数据库大量创建条目,但请停止与其它语言维基百科比赛条目数而进行的一切讨论。比拼条目数而进行大量讨论是幼稚、可笑的。--王小朋友留言2012年3月24日 (六) 11:16 (UTC)

+1,但此讨论并非全部皆为比赛,因此可继续。Justincheng12345留言2012年3月24日 (六) 11:31 (UTC)
我认为应该停止关于越南语的讨论,虽然支持导入合适的数据库。--王小朋友留言2012年3月24日 (六) 12:09 (UTC)
请恕我冒昧,这并非编辑战,故我改了标题,至于此讨论是有益而非一昧地比较条目数量,敝人也在思筹如何在不失条目品质情况下,进行大量新增条目。--安可与我对话 ☺) 2012年3月24日 (六) 12:52 (UTC)
这样只需要提出如何大量新增条目,无需提到越南语。--王小朋友留言2012年3月24日 (六) 13:56 (UTC)
同感。建议将以上讨论尽快存档,停止与其他语言作比较的讨论,并且另开一个Wikipedia:利用数据库建立条目工作小组作为统筹工作的地方。--Hargau留言2012年3月24日 (六) 14:36 (UTC)

中文维基的条目数量,成长速率,参与人数等等,这些都是属于社群内部的事情,也是社群本身决定的事情,要怎么作,有什么资源可以使用,这些和其他语言一点关系都没有。所以,讨论之后分配工作就好了。

可是,有需要把其他语言当作是一种对手,甚至有些压力或者是威胁在其中吗?更有甚者,是把这种敌意传送出去,带到其他语言环境中,这样的用意是什么?对中文维基有什么好处,或者是坏处?一个人的独断独行也很有可能破坏整个团体的形象,评价或者是作为,引发不必要的争议,消耗已经很少的资源,到头来,社群得到的是什么正面性的价值或者是帮助呢?一件很简单的事情弄得像是要打仗,有必要吗?跑去别人家的地方说三道四,我们有这个资格吗?上面也有不少人提出同样的问题,或许,应该有更多人在热血之前,考虑一下为什么,才是对中文维基有正面的帮助。很多事情,大环境的压力会让一个人一定要改变,尽管社群不够大也没有这种压力就是了。-199.83.40.32留言2012年3月24日 (六) 14:52 (UTC)

没错,越南语大量未翻译条目等讨论已经离题,应该回归正题。这边是想人工方式大量创建条目,若未使用机器人,手工方式大量创建条目是颇有可行,或许未能即刻有几百条出现,但若各位能一同将已知的数据库或者百科类型丛书着手来写,大约在50字左右搭配英文版添加辅助资料,快速建个几十条也应该没问题,也建议使用子页面来追踪,待有余空再行加强。--安可与我对话 ☺) 2012年3月24日 (六) 15:12 (UTC)
可是半自动创建的条目都没参考资料的说……--铁铁的火大了抓兔子啦,抓兔子啦…… 2012年3月25日 (日) 08:31 (UTC)
来源就是参考资料吧。--王小朋友留言2012年3月25日 (日) 11:53 (UTC)
刚点了几下越南语维基的随机条目,基本两三下就会出来一个植物条目。这样的跛脚鸭,多么可悲,四十万的浮夸数字根本无法和中文维基百科比拟,我们何必大动肝火呢?何况中文维基虽然条目数进不了前十,还是能出现在www.wikipedia.org首页的最上方,这不就说明一切了嘛。余兮留言2012年3月26日 (一) 14:19 (UTC)
刚去点了20下,最长的条目是这个  囧rz...--铁铁的火大了抓兔子啦,抓兔子啦…… 2012年3月26日 (一) 14:25 (UTC)
  • 对于曾疯狂创建条目的我,对于这次讨论有着“保持中庸”的个人看法。以我为经验,我曾利用“半机器人”在大量创建“中日战争”小战役及台湾历届首长过程中,获得“许多”批评,但只要符合三大支柱并超越小条目,个人以为使用任何方式书写都无妨;毕竟“条目数量”也是种绩效表征。对了,离题一下,还有位管理员(?)因为宗教条目欠我个道歉,到现在还没还--Winertai留言2012年3月30日 (五) 06:30 (UTC)
  • 的确一味最求数量是不对的,但是很多编者都不回做复杂的编辑和编辑新条目,机器人能解决这些问题,我最初就是在一些已有条目上做小编辑的,除了一些我们可能有译名的星系,日本的一些小街道(可以创建大陆港澳台的街道啊),我们可以用机器人创建日韩越泰的艺人以及电视剧,韩剧和泰剧在国内的流行译名的问题不大。至于街道吗可以借用谷歌地区、谷歌地图(不知道技术能不能做的到),吧主要城市的道路都添加上去,还能写上坐标。以上说的很多都不错!注意维基百科编辑对菜鸟比较困难,只有有了数量才能让他们更好的编辑!Qa003qa003留言2012年4月21日 (六) 09:14 (UTC)

数据库/数据库

类别 名称 仍可创立数量 内容评价/备注 网址 现况
生物 《中国动物物种编目数据库》 35,000 未知 monkey.ioz.ac.cn/division/species1.html 回:服务器错误
《中国高等植物数据库全库》 未知 无法进入
中国经济真菌多媒体数据库 1300 内容表格化 http://www1.im.ac.cn/jjzj/index.htm 未开始
罕见遗传疾病一点通 200左右 需人工处理 http://www.genes-at-taiwan.com.tw/genehelp/dbindex.asp?kid=A 已开始,新来者建议从CD倒过来输入
台湾鱼类数据库 3087 http://fishdb.sinica.edu.tw/chi/fishlist.php 未开始
行政区划 行政区划网 约40,000 http://cn.quhua.org/ 进行中
天文学 JPL 100,000 http://ssd.jpl.nasa.gov/sbdb.cgi 暂停
娱乐 新浪娱乐互动数据库 30,000以上 未知 http://data.ent.sina.com.cn 未开始
铁路车站 未知 未统计 格式不规整、缺少可靠来源、
部分错误\过时
User:Liangent
人物 广州亚运会运动员 7000多 需要人工整理;
亚洲最高水平运动员,知名度足够
官方数据库 卡巴迪,现代五项和棒球已有人做
地理 中国大中型水库基本特征数据库 < 1622 格式化数据 http://brim.ihb.ac.cn/12/CN/12.asp User:Stevenliuyi进行中
中国河流基本特征数据库 350 格式化数据:河流名称,河流长度,流域面积,年均流量,自然落差,水能理论蕴藏量,所属水系。使用{{Geobox/river}}。 中国河流基本特征数据库,User:MtBell/F 未开始
中国湖泊基本情况数据库 < 865 表格 http://www.data.ac.cn/zrzy/BA21.asp?name=%CE%DE&pass=&danwei=%CE%DE 未开始
名称 仍可创立数量 内容评价/备注 网址 现况
饲用植物数据库 940 内容表格化。描述较长,可能有版权问题。基本信息可能可用 http://www.agridata.gov.cn/web/DataBaseVisit.aspx?DataBase=%E9%A5%B2%E7%94%A8%E6%A4%8D%E7%89%A9%E6%95%B0%E6%8D%AE%E5%BA%93 未开始
兽类资源数据库 58 内容表格化。描述较长,可能有版权问题。基本信息可能可用 http://www.agridata.gov.cn/web/DataBaseVisitDetail.aspx?DataBase=%E5%85%BD%E7%B1%BB%E8%B5%84%E6%BA%90%E6%95%B0%E6%8D%AE%E5%BA%93&SysId=58&order=Insert_Date&SearchWord= 未开始

北京农业数字信息资源中心还有更多数据库。--王小朋友留言2012年4月10日 (二) 10:31 (UTC)

今天怎么没人创建条目?

前几天每天都有许多人用AWB或机器人创建大量行政区划条目,但昨天只剩下我跟User:AddisWang,今天更是一个人都没有。User:StevenliuyiUser:Walter GrassrootUser:AlexchrisUser:AngnationUser:Bot600都哪里去了?

虽然越南语维基听从了我的建议,从上星期二就开始删除未翻译的条目,并且没有再用机器人创建大量条目,但这只是暂时的,过一两个星期等把所有未翻译的条目删除了,很可能还会再开始用机器人创建条目。因此,我们千万不可以松懈下来,一松懈就会落后,像龟兔赛跑中的兔子那样。

就算不会用AWB或机器人也没关系,我上面介绍了一种不用机器人又可以快速创建条目的方法,大家不妨尝试一下。我们现在已经创建了大约1万5千个行政区划条目,还剩两万个左右,大家再加把劲,尽快把它们全部创建。创建完中国行政区划条目之后,我们再讨论一下还有没有什么别的可写,再写两万条左右,这样基本上就可以摆脱越南语的追赶了。加油!--Symplectopedia留言2012年3月27日 (二) 12:57 (UTC)

保证质量。行政区划我准备处理,但需要先下载他们的全站数据以处理消歧义。现在下载到江苏了(页面上面的顺序)。Liangent (留言) 2012年3月27日 (二) 13:05 (UTC)
给我推荐一些能自动处理的吧,我可以同时并行处理多个(开着它自动运行就行)。Liangent (留言) 2012年3月27日 (二) 13:07 (UTC)
说实话,当时Symplectopedia、Stevenliuyi君处理的都是出现消歧义的问题,当初山东和辽宁是谁刷的?和这两个省的交织的消歧义最多。如果Liangent能解决消歧义纳最好。--Walter Grassroot () 2012年3月27日 (二) 13:37 (UTC)
私心等Liangent兄的机器人,不过希望有人写一下其他数据库创建条目的流程,方便大家共同创建,不过Symplectopedia和AddisWang继续创条目当然也很欢迎,当然也要感谢提供数据库的相关网站。--Alexchris留言2012年3月27日 (二) 14:26 (UTC)
对啊,Liangent都说做机器人了,我顿时觉得我们这些都算是小巫见大巫了。不如我们还是老实地写自己的领域,到时候看Liangent演大戏好了。--Walter Grassroot () 2012年3月28日 (三) 00:24 (UTC)
我真的没时间,手抓数据库……明天大概有一个地级市……--达师218372 2012年3月27日 (二) 15:11 (UTC)

我今天已经整理好了一个新数据库中的数据[6],明天起可以开始创建中国境内水库的条目了,大约可以新建1000多条。--Stevenliuyi留言2012年3月27日 (二) 15:21 (UTC)

这个不需要消歧义,又能在一页中列出来(名称直接搜索一个半角的百分号,另外此搜索表单貌似存在SQL注入漏洞),挺适合CSVLoader刷的。Liangent (留言) 2012年3月27日 (二) 15:52 (UTC)
直接用水库作为关键字已经找到1618条,还有4个名称没有水库?Justincheng12345留言2012年3月27日 (二) 23:29 (UTC)
广东金龙低库、广东金龙高库、湖北付家河一库、湖北回龙一库。Liangent (留言) 2012年3月28日 (三) 01:37 (UTC)
哈。另建议Liangent先拿User:MtBell/D的玩一下好了....Justincheng12345留言2012年3月28日 (三) 09:35 (UTC)
咕~~(╯﹏╰)b这个格式我还得处理一下,剩下来的还没有完全格式化。我刚发现一个中国经济真菌数据库,可惜只有200多条,Liangent可以牛刀小试。--Gilgalad 2012年3月28日 (三) 12:41 (UTC)
给一个样板页面吧。Liangent (留言) 2012年3月28日 (三) 13:19 (UTC)
已经按照cvs格式处理了信息学部和技术学部,格式为:姓名,职业,出生年,出生月日,出生地,籍贯地,毕业学校,简介。具体条目组成请看翟明国这个例子。另外,怎么才能让AWB自动运行呢,必须要bot权限?--Gilgalad 2012年3月29日 (四) 06:31 (UTC)
是的。Justincheng12345留言2012年3月29日 (四) 15:09 (UTC)
话说,加入是某县知县。。。有没有关注度(有来源)。--AddisWang (留言)协作计划 2012年3月28日 (三) 13:17 (UTC)
我觉得有关注度,但暂时是存在争议或反对意见。不妨先去做其他的,知府、布政使肯定没有关注度问题吧。--Walter Grassroot () 2012年3月29日 (四) 06:12 (UTC)
其实是因为知县的来源是现代汉语,古代汉语的资料倒不是看不懂,主要是不好辨认。--AddisWang (留言)协作计划 2012年3月29日 (四) 14:21 (UTC)

应移到专页讨论

我上面已经提过一次,但没人理会,现在只好另开一小段再重复一次。以上讨论已经严重偏离了“互助客栈 - 消息”的主题强烈建议另开一个Wikipedia:利用数据库建立条目工作小组(名称待议)作为统筹工作的地方。 --Hargau留言2012年3月28日 (三) 14:19 (UTC)

(&)建议:请不要急着移动。本议题原本即符合“消息”要件,后面的发展是也是良性的、对中文维基发展有利的。况且“消息”版面向来冷清,目前更没有其他“实质”议题,不会造成排挤作用。若冒然由关注度高的“互助客栈”移至关注度低的“专题”,反而不是好事。建议遵守版面规矩:“x月xx日之后没有新留言内容的议题应移动至相应页面的讨论页或者存档至x月存档”,或挂个 saveto 模板即可。--Kolyma留言2012年3月29日 (四) 10:16 (UTC)
 完成 {{saveto}}模板已挂,待14天无人讨论让机器人自动存档。--安可与我对话 ☺) 2012年3月29日 (四) 14:18 (UTC)
建议将#数据库/资料库存入Wikipedia:机器人建立条目小组以便指导添加工作——路过围观人士路过进来留个爪2012年3月29日 (四) 14:20 (UTC)

野人献曝

  • 因为“机器人申请”现规基本上是需要维基社群同意,“如果真要不记质、以改写方式来将合乎版权数据库扩充中文维基条目”,我个人有个方法,就是以数据库目录贴至excel,再以“制式word”SQL连结到那个EXCEL。例如鱼类数据库[7]改写成条目版式风格就是:‘中文名(栏位)为台湾常见鱼类之一,其正式属科为“科中文名(栏位)”,英文科名称则为“科名(栏位)”,正式学名则为“学名(栏位)”。<分段>资料来源:台湾鱼类数据库<网址>,category:台湾鱼类’;这样方式就轻松达到小条目标准。我曾实做类似这样方式,一分钟最快可以创建两条目。

最后重申,若以重质量立场,我对此方式并不特别推荐。除此再插个题外话,殊近“越文”百科如此疯狂,让我联想到被中文维基永久封禁的一位老朋友。--Winertai留言2012年3月30日 (五) 07:04 (UTC)

可以申请AWB权限,而且这个网站有资料导出,可以转变成相应的导入资料用AWB来创建条目,上面有AWB和CSV的教程,最近更改最近超多这些新建条目——路过围观人士路过进来留个爪2012年3月30日 (五) 07:14 (UTC)
严格上,如果“不改写”在版权上是有些问题,例如鱼类数据库是不可用于“非营利”上的。--Winertai留言2012年3月30日 (五) 07:23 (UTC)
问题是数据库没有要求相同方式分享......Justincheng12345留言2012年3月30日 (五) 09:43 (UTC)
这个应该查不出copyvio吧?--铁铁的火大了抓兔子啦,抓兔子啦…… 2012年3月30日 (五) 12:43 (UTC)
页面有注明“不可用于营利”的标志。--Winertai留言2012年3月30日 (五) 14:01 (UTC)
如果有不可盈利的话,对应CC的话就有nc了,这样可能不能使用这个数据库了——路过围观人士路过进来留个爪2012年3月31日 (六) 14:29 (UTC)
是的,我也想起了影武者,要是他没被封禁会对此事抱持什么立场,要知道他可是铁杆越南死忠捍卫者。--九紫离火很高兴认识你o(∩_∩)o 2012年3月31日 (六) 14:22 (UTC)
那个,如果是“台湾鱼类”的话未免有地域中心之嫌,除了特有鱼类之外,其余很多都是广泛分布于东亚的吧。--达师218372 2012年4月1日 (日) 04:05 (UTC)
赶英超美,指日可待!超光速是真理留言2012年4月1日 (日) 12:55 (UTC)

越南语维基百科又开始用机器人创建条目了

今天越南语维基百科又开始用机器人创建条目了:[8]

我们这几天创建条目的速度仍然太慢,每天只增加几百个条目。希望大家再加快一些速度,不要被越南语追上。加油!--Symplectopedia留言2012年4月2日 (一) 15:07 (UTC)

越南人创建的条目太差劲了,就模板加一句话,貌似模板都没有完全翻译。这种比百毒还差啊。Merphisto留言2012年4月3日 (二) 09:05 (UTC)

简直比我写的某些条目都差  囧rz...--铁铁的火大了抓兔子啦,抓兔子啦…… 2012年4月3日 (二) 09:25 (UTC)
  • 他们弄出那些条目超级浮夸,其实越南语门纲目科属种也有自己的名字,不都是照着拉丁语乱读的,那些物种名称也一样,许多是可以翻译的,他们竟然为了凑数直接把学名当做条目名称,我们可不能学这个,丢死人了。余兮留言2012年4月3日 (二) 11:21 (UTC)
  • 不要管越南人了,我们还是做好自己的条目。其实我们新建的这批区划条目质量也不高,人口、面积之类的必要信息一概没有。--Gilgalad 2012年4月3日 (二) 15:14 (UTC)
    • 关于人口和面积,我还没找到一个统一的数据库。虽然在一部分乡镇的政府网站中可以查到该乡镇的人口和面积,但没有一个统一的网站收录所有乡镇的人口和面积。--Symplectopedia留言2012年4月4日 (三) 11:08 (UTC)
刚才从马鞍山战斗开始,用连结做了北洋时期战斗几条条目,平均一分钟一条,请各位前往审核,这样使用半机器人编写的内容尚可“容忍”吗?--Winertai留言2012年4月5日 (四) 03:15 (UTC)

今天越南语维基百科又增加2000条了:[9]。--218.166.15.59 2012年4月10日 (四) 08:06 (UTC)

越南语维基百科达到40万(400000)条目了。--218.166.179.216 2012年4月11日 (四) 13:28 (UTC)

不要在管他们了!他们这样做不利于他们“语言”的百科在越南发展,我们的机器人专门创建好创建的就好!Qa003qa003留言2012年4月21日 (六) 09:22 (UTC)

各位呀,宁缺,勿滥。-TW-mmm333k (Talk) 2012年4月21日 (六) 13:59 (UTC)

加上坐标

建议用机器人把新增加的地区条目用{{Coord}}加上坐标,或者人工。这样Google Earth用户在浏览到该地方时就会看到了。我想大部分人都会用Google Earth看自己的家乡的,同时看到维基百科的条目,这样就可能加快了丰富条目的速度,也减轻了未来逐个维护的成本。可以在[10]类似的网站找坐标。--王小朋友留言2012年4月3日 (二) 13:03 (UTC)

哪里找这些数据呢?其实瑞典语在刷的法国市镇虽然一个镇就就几百人,关注度相当不够,而我们一个乡镇街道有几万人,但他们的条目信息比我们刷的乡镇条目充分多了,有历年人口、面积、邮编、坐标,比如sv:Villenave-de-Rions。--Gilgalad 2012年4月3日 (二) 15:12 (UTC)
[11]类似的网站--王小朋友留言2012年4月4日 (三) 02:10 (UTC)
很简单,它们有法文版可以搬运,而且不用翻译地名。--MakecatTalk 2012年4月4日 (三) 01:44 (UTC)
昨天看到“涉县”条目,吓了一跳。堂堂一个河北省的县级行政区,除了基本讯息,几乎没有其他内容。看起来除了量的追求之外,可能要有人专注于质的提升。--Kolyma留言2012年4月4日 (三) 00:24 (UTC)
不是有些历史和地理的内容么?--铁铁的火大了抓兔子啦,抓兔子啦…… 2012年4月4日 (三) 02:16 (UTC)
那是刚才玖巧仔君加上去的,我发言的时候是这样的内容。--Kolyma留言2012年4月4日 (三) 05:30 (UTC)
本来只想加几句的,可惜停不下手了,越填越多。这个条目的乡镇都建有条目,很奇怪,相比之下,不少县的条目的乡镇都是空白,全是红链。--玖巧仔留言 2012年4月4日 (三) 07:23 (UTC)

现在先快点创建条目,避免被越南语追上,坐标、人口、面积等数据以后再慢慢添加也可以。添加数据,也是增加内容;创建条目,也是增加内容。但是,创建条目,可以增加条目数量;添加数据,不会增加条目数量。因此,“两利相权取其重”,还是先快点创建条目吧。--Symplectopedia留言2012年4月4日 (三) 11:43 (UTC)

条目数增加后别懒惰就好。--王小朋友留言2012年4月4日 (三) 11:52 (UTC)
So far, the Zh-wiki has more bots than authors, and I lost most "entertainment" in checking "Special:NewPages". --Mewaqua 2012年4月7日 (六) 03:55 (UTC)

用google搜索各区县的第六次人口普查数据公报,可以找到一部分街道、乡镇的人口数据:[12]--Gilgalad 2012年4月6日 (五) 03:30 (UTC) 有没有可能用bot或者awb自动在行政区模板里添加人口、人口密度这些数据?如果可行,我们只要先统计数据就可以了。--Gilgalad 2012年4月6日 (五) 04:11 (UTC)

波斯文大量导入化学条目

监视列表刷得很厉害……大量复制英文版,只有名称、化学式和摩尔质量。这种应该不要学了吧?--MakecatTalk 2012年4月6日 (五) 13:11 (UTC)

有些化合物的关注度太低了,基本没人看,话说如何看一个条目的浏览量呢?Merphisto留言2012年4月7日 (六) 02:51 (UTC)

其实主要问题是那些条目除了让人知道有那种物质以外一点用也没有。--MakecatTalk 2012年4月7日 (六) 04:22 (UTC)
偶尔还需要查一下这个物质的性质的时候有用,不过也可以在Chemical Book里面查。其实我发觉很多的化合物条目用的参考资料都是Sigma-Aldrich。直接把他们公司的化合物目录照搬过来。结果我顺便看了中文维基竟然没有Sigma-Aldrich的条目,呵呵。Merphisto留言2012年4月7日 (六) 09:17 (UTC)
另外话说我最近没事已经消除红链,弄了几十个小条目了,感觉人肉翻译小条目不算快但没压力。Merphisto留言2012年4月7日 (六) 09:19 (UTC)
在条目的历史页面有外部工具:修订历史统计 · <lang> 搜索编辑历史 · 监视者人数 · 本月页面浏览统计 --九紫离火很高兴认识你o(∩_∩)o 2012年4月7日 (六) 04:20 (UTC)
谢谢!Merphisto留言2012年4月7日 (六) 09:17 (UTC)

简直想帮一些只有几百几千条目的语言刷条目了   囧rz...--lavixcanvas M T C 2012年4月7日 (六) 07:58 (UTC)

化学品的条目还是有用,经常上去en.wp去看。--留言2012年4月28日 (六) 02:58 (UTC)

关于机器人刷条目

我一向不反对使用机器人刷条目,但是在刷条目的时候,请大家认真一点,拜托诸位了!今天看到Liangent的行政区划机器人所做的很多错误编辑,实在非常痛心,比如消歧义页,机器人新生成的内容把所有中国大陆之外的乡的同命条目都清除掉了,而且新内容是一些机器代码,后人是无法解读的,对于经常有行政区划变动的大陆行政区来说,我们以后怎么维护?早前也有维基人使用机器人来帮忙处理行政区划工作的,但使用时都非常小心,使用过后还会认真去检查。所以请不要单纯贪图速度,这样生成的一个中文维基百科,给你们战胜其它语言了,那也只是一个垃圾堆!--长夜无风留言—以上未签名的留言是于2012年4月10日 (二) 02:00 (UTC)之前加入的。

  1. 技术员能做的只到这里,部分检查还需手动。如果楼主有兴趣,完全可以参与。
  2. 由于卡在一些手工的事情上,目前整个工作还没有做完。请不要在别人做到一半的时候就说做的不好。说实话新的乡镇行政区划质量比前阵子多人手工建立要强的多。
  3. 如上所述,事情没有做完。技术文档会尽快写出来,因为上传了系统的数据所以维护并不是难事,有一些比如易名做起来非常简单,合并或者调整则复杂一些但也很快,如果有需要也可以使用机器人修改。而且找到了每年更新的数据库,所以这个机器人以后一年会开一次,同步更新数据。--达师218372 2012年4月10日 (二) 03:22 (UTC)

抱歉,昨晚因为忙到天亮,脾气暴燥了一点。我觉得主要有以下几个问题需要改进的:

  1. 那个行政区划网的数据库一直都在,但它也是一群人收集的,有些不准确,甚至错误的地方,需要慢慢核对的。比如东莞市的南城区,无论是南城区办事处的招牌,还是东莞两级政府的官网,都是以南城区命名的,但那里称为南城街道。这样的例子有很多,我们通常都拿那个数据库做辅助使用,然后再比对官网,以前的一些旧有条目经多人修正后,错误减少了很多。所以我觉得不要轻易让机器人去动以前的一些条目和模板,只让机器人去新增之前没有的条目和模板。
  2. 消歧义页也一样,原有的消歧义页包含了很多中国大陆以外的乡镇消歧义内容,但机器人把这些同名条目都清除掉了,比如机器人新生成的简体的龙潭乡,和繁体的龙潭乡相比,少了台湾的龙潭乡,而且也没有将旧页面重定向到新页面,造成有两个重复页面。因此,我觉得处理消歧义页时,能不能不要改变以前的旧有内容,只增加新的消歧义内容上去?
  3. 机器人新生成的模板和消歧义页都是多重模板,而且代码很难解读,不方便后来者维护,要知道大陆的乡级行政区是变换频密的,需要经常维护的。所以希望恢复成原来的模板,简单易维护。

最后谢谢各位的努力,请忽略我昨晚的留言。--长夜无风留言2012年4月10日 (二) 08:30 (UTC)

  1. 数据是从国家统计局来的,如东莞市#行政区划所说,不设县/区。
  2. 其他地区乡镇的问题没考虑,等会我弄个bot爬一遍历史版本吧。移除原有内容的是因为有区划调整带来列表项删除,但又找不到具体撤销过哪些区划名,于是直接重写页面了。
  3. 模板就不是给用户看代码的,弄完我会写一些手册页面。留有各种模板交叉引用的代码是出于以后统计局发布新数据的时候方便批量调整。
Liangent (留言) 2012年4月10日 (二) 08:59 (UTC)
东莞这缺县级的好像还处理的不对……得看看。Liangent (留言) 2012年4月10日 (二) 09:10 (UTC)
现实的行政区划是很复杂的,南城区虽然是街道级别的,但东莞两级政府就以区来命名。关于模板再举一个例子,旧有的Template:惠州市惠城区行政区划,下面有行字的,那里说明了一些镇的实际管辖状态,而新的Template:广东省惠州市惠城区行政区划没有注明这些情况,并且那个“惠州市林场”连个政府的派出机构都没有,可能就是因为历史问题,有个行政区划代码而已。这样吧,等你们批量建完之后,我负责核对广东省的所有内容了,包括重定向页、消歧义页、模板、条目页等。你们大家也认领一些熟悉的省了,尽量通过人工把问题减到最小了。另外,广东省的那些模板我已恢复到旧有的模板,因为去年我按广东民政局的资料刚更新过的,到今天的话,需要更新的内容很少。--长夜无风留言2012年4月10日 (二) 09:30 (UTC)
注释想过,但一直不知道往哪里放好。Liangent (留言) 2012年4月10日 (二) 09:32 (UTC)
所有我覆盖过的消歧义页都检查了一遍,把看起来不像中国大陆的行补回去了。Liangent (留言) 2012年4月10日 (二) 10:52 (UTC)
志松哥哥可能还不清楚中国大陆国营林场的复杂性吧。在中国大陆,国营林场本身不是政府,也不是企业,而是事业单位。由于不是政府,所以不可能设立“某某林场人民政府”。因为是事业单位,所以上级政府不会在林场设立派出机构。但是,林场又实际地管辖一片地区和一定的人口(不一定是职工),所以在算行政区划的时候,往往又把它算在里面。所以,只要这个林场没有被撤销,它就实际地担负一定的行政管理职能,管辖一定的人口。而惠州市林场显然还活着([13])。--罪孽深重的爱学习的饭桶 (留言) 2012年4月11日 (三) 13:25 (UTC)
拥有一个行政区划代码不代表就是一个行政区,比如Template:广东省韶关市浈江区行政区划里面的韶关冶炼厂,它连事业单位都不是,只是一个企业。--长夜无风留言2012年4月13日 (五) 21:38 (UTC)
国家统计局的资料可能也有一些不准确的地方,比如Template:广东省广州市番禺区行政区划,其中沙湾镇已经升级为沙湾街道了,而石基镇应为石碁镇,可见广东民政厅的资料。--长夜无风留言2012年4月13日 (五) 20:55 (UTC)
User:Choihei的资料有点过时啊,很多模板本来是对的,又被修改回去。如:阳江市江城区行政区划,把我删掉的那个海陵镇又加了回去,而海陵镇已经并入闸坡镇了,政府消息见这里肇庆市端州区行政区划,把我更新的两个街道,又恢复回镇一级,政府消息见这里。类似的情况还有很多啊,一定要认真啊,不要只求量,不重质啊!--长夜无风留言2012年4月14日 (六) 00:12 (UTC)
对不起!修改的时候忘了看历史,也忘了查GOOGLE。以后会小心,感谢核对。-Choihei留言2012年4月16日 (一) 12:29 (UTC)

现在我们已经写了大约25,000个中国行政区划条目了,还差一万多个没写

非常感谢User:Walter GrassrootUser:StevenliuyiUser:AddisWangUser:AlexchrisUser:AngnationUser:ChoiheiUser:Bot600,在这段时间为中文维基百科贡献了大量中国行政区划条目。中文版与越南语的条目数量差距已经从3月20日的24212条扩大到现在的42331条,跟瑞典语的差距也从3月16日的34662条缩小到现在的12642条。

现在已经基本完成的省份有北京、天津、上海、河北、山西、辽宁、江苏、福建、山东、河南、湖北、湖南、海南、贵州、陕西、甘肃、青海、内蒙古、西藏、宁夏、新疆。部分完成的有黑龙江浙江安徽江西广东云南。尚未开始的有重庆吉林四川广西

既然已经开始了,那就要把它做完,不要半途而废。我从明天开始一直到4月24日都很忙,没时间上维基百科,因此这项工作就交给大家了。我希望4月24日回来时,能看到中国所有的乡级行政区划条目全部写完。加油!--Symplectopedia留言2012年4月11日 (三) 12:23 (UTC)

最近刷的反而找麻烦。见我的talk。Liangent (留言) 2012年4月11日 (三) 12:27 (UTC)
所以有要以机器人创建条目吗?--Alexchris留言2012年4月11日 (三) 12:42 (UTC)

英语维基百科以前大量创建条目的机器人

en:User:Kotboten:User:Polbot,好像也是从别的语言导入当地的行政区划,分别创建了5万多、将近4万个条目,我们可不可以参考一下?还有些见这里:en:Wikipedia:List of Wikipedians by article count(名字有bot的就是),好像英文版以前也用机器人建了不少条目。此外有些内容是直接复制美国联邦政府的资料,我们是没法用的。--MakecatTalk 2012年4月12日 (四) 13:00 (UTC)

还可以参考Mass content adding--百無一用是書生 () 2012年4月13日 (五) 02:44 (UTC)

能否以机器人导入中国各县市地区生产总值?

如题,中国各县市地区生产总值已经创建完成,例如新疆各县市地区生产总值列表等,能否直接导入表格中的数据至各个县市地区条目?--Alexchris留言2012年5月16日 (三) 12:46 (UTC)

关于刷条目

大家如果有可用的数据库可以放到Wikipedia:机器人建立条目小组

另外那些已有的里面哪些没有人在做,我来创建一些。最近瑞典语快追上了。--MakecatTalk 2012年6月12日 (二) 01:42 (UTC)

数量如浮云,何需重视,拿第上又不会得奖,还是提升现有质素吧--Dragoon16c留言2012年6月12日 (二) 14:40 (UTC)
瑞典语维基正在创建法国各省市镇条目,由于翻译是一大难题,中文版是否可以先用拉丁名称批量建立类似条目(同时加注template:notchinesetitle),然后再人工移动到中文名称?。此外,云南数字乡村网站上有云南省全部13431个行政村的面积、人口、气候等详细信息,建议通过机器人来抓取并建立相关条目。而且该网站的网址为分层结构,利用起来较方便,如云南省大理大理市下关镇玉龙村的相关信息网址为[14],而且该网站数据为政府部门提供,较具权威性,也能解决关注度问题。--Tianyamm2留言2012年6月13日 (三) 15:28 (UTC)
地名翻译的话,可以下载“世界地名翻译大辞典”的txt版本,然后搜索匹配的中文译名。里面应该有大部分的法国市镇名。—Snorri留言2012年6月13日 (三) 16:07 (UTC)
我看过这本书,里面法国的市镇也只是很小一部分,最多不会超过1000。余兮留言2012年6月14日 (四) 15:22 (UTC)
那真是可惜了。另外还有93版的《世界地名译名手册》和《21世纪世界地名录》可以试一试,不过似乎没有txt版本。—Snorri留言2012年6月14日 (四) 15:32 (UTC)
如果手动翻译出所有市镇的中文名字,之后是不是就可以大批量自动创建了?法语的名字我倒是可以帮助翻译。余兮留言2012年6月14日 (四) 15:41 (UTC)
还要找资料库。INSEE有比较全的,但需要付费,完全公开的还没见过。—Snorri留言2012年6月14日 (四) 15:48 (UTC)
直接把法文维基的模板移过来可行吗?配上手工翻译的市镇名。余兮留言2012年6月15日 (五) 13:50 (UTC)
大概可以做到这个条目的水平,技术上我不大懂,应该可行。—Snorri留言2012年6月15日 (五) 13:58 (UTC)
乡村的抓了也没处写,或者有这些数据的就建成条目?Liangent留言 2012年6月13日 (三) 17:13 (UTC)
反对大量使用拉丁文名称做条目名。可以接受在非条目空间临时建立,然后有中文名在移过去。--铁铁的火大了留言2012年6月14日 (四) 13:03 (UTC)
我认为,我们暂时没有必要建议行政村。因为在大陆行政机构,最低一级的行政单位是乡镇级;再往下走就是村名自治组织,这些组织本身结构并非完全稳定;此外同名的条目的村名简直太多,消歧义也会也压力。
其次,作为与中文相近的瑞典维基,其实是由Nasko一人创建法国市镇条目,按照他的速度和容量,还有将近12000的条目有待建造。如果没有找到确切的数据库可以对照,中文暂时不必勉强建造法国市镇。如果只是担心被瑞典语超过,只要保证我们抵达495000就可以甩开。--Walter Grassroot () 2012年6月13日 (三) 21:03 (UTC)
要不我写个程序来根据英文创建一些化学条目,内容上不会比波斯文刷的那些少。另外机器翻译不能翻句子,翻译那些简短词组还是可以的,比如Chembox中的“odorless”、“decomposes in alcohol and organic solvents”等。--MakecatTalk 2012年6月14日 (四) 06:27 (UTC)
难道被瑞典语超过,中文维基就末日吗?--Dragoon16c留言2012年6月14日 (四) 13:38 (UTC)
不如先预编一个,然后大家具体讨论看是否应该推广。我仔细看了一下瑞典语编写的机器人条目,他们的质量还是很高的。我认为在机器人编辑速度上,AWB的技术并不是难事,中文维基上至少有20人懂得如何用AWB批量操作。主要问题,仍然是我们在信息收集过程中如何能够整合数据库,以使得条目变得相对丰富、质量较高。AWB的精髓是在于高效的自动化或半自动化的批量编辑,创建条目本身并非是最重要的。瑞典维基的Nasko在编辑法国市镇的条目,质量是远超过其他维基百科。他设计的机器人,无论条目、模版、制图、归类,都是非常高超的;这也给我个人一个提醒,如果我们一开始不利用这些好资源或者技术,而草率地批量编辑,以后修改完善那些条目(特别是那些我们此生无缘经过的法国小镇)更遥遥无期了。在两个月前我们在和越南语比赛时候,越南语急于求成而建造了将近十万烂尾条目,就是一个教训。同时我们必须承认我们也创建了许多质量不高的中国乡镇条目,我也因为实验各种机器人编码也草率创建上千小作品。至于翻译,我认为的确是一个不甚重要的,只要技术熟练,我相信这里很多朋友愿意用一天时间翻译几百个地名,而后的批量创建应该只是一个小时的事情。AWB的技术多少是由瑞典语引荐给中文的,他们比我们更清楚,相距4000条目,彼此的排名转化也是瞬息之间。--Walter Grassroot () 2012年6月14日 (四) 20:12 (UTC)
我都套着模板写目的之一就是为了方便后来补其他数据(至少方便把数据和现有条目对应,在有歧义的情况下),本来还想用更多inline模板的,Hat600不让我用。Liangent留言 2012年6月14日 (四) 20:20 (UTC)
已有国外的网站有星表的详细数据,是否可考虑把某星等以内或肉眼可见的星星筛选出来,全给建上去。--Jasonzhuocn留言2012年6月17日 (日) 07:18 (UTC)
请提供网址。--MakecatTalk 2012年6月17日 (日) 07:20 (UTC)
我对这方面并不了解,不清楚从那一个星表下手比较适合,希望能有专家出来参与。第谷第二星表条目有附一个多语言的星表索引网站 http://cds.u-strasbg.fr/ --Jasonzhuocn留言2012年6月17日 (日) 07:31 (UTC)
试着用AWB建了几个法国市镇的条目(如阿邦库尔阿布塞孔艾伯阿勒讷莱马赖),各位可以看下有没有什么问题。--Stevenliuyi留言2012年6月18日 (一) 13:51 (UTC)
挺好的。—Snorri留言2012年6月18日 (一) 14:00 (UTC)
 Waihorace觉得这挺赞的。--HW 2012年6月18日 (一) 14:02 (UTC)
 Walter Grassroot觉得这挺赞的。--Walter Grassroot () 2012年6月18日 (一) 20:28 (UTC)
 Makecat觉得这挺赞的。--MakecatTalk 2012年6月19日 (二) 05:29 (UTC)
这几个译名靠谱?Abscon的发音接近于阿普斯孔,阿布塞孔的“塞”从哪里来的?--Gilgalad 2012年6月19日 (二) 17:25 (UTC)
的确“斯”的发音更像一点,不过官网上的翻译是阿布塞孔。—Snorri留言2012年6月19日 (二) 17:41 (UTC)
译名的话,我优先采用的是《世界地名翻译大辞典》中的翻译,如果没有的话就在网上找是否有比较通用或正式的译名,再没有的话就用《外国地名译名手册》中的法汉译音表手工翻译。我法语虽然只学过点皮毛,但幸好法语的发音比较规则,应该问题不大。--Stevenliuyi留言2012年6月20日 (三) 08:46 (UTC)
我也觉得应该翻译成阿普斯孔,阿布塞孔和法语发音差的太远了,没有把单独s翻译成塞之例。另外,Allennes也应该翻译成阿莱讷吧,不是阿勒讷,这里发音是/lɛ/。余兮留言2012年6月20日 (三) 12:18 (UTC)
另外,世界地名翻译大辞典里面,一些地名中可以意译的部分是意译的,比如xxx-les-Bois、xxx-sous-Bois就翻译成森林xxx,而不翻译成莱博瓦、苏博瓦;bourg结尾的一般翻译成堡;xxx-sur-Seine一般翻译成塞纳河畔xxx;xxx-sur-Mer一般翻译成滨海xxx,而不翻译成xxx叙尔迈尔。不过,这本书里面也不是特别统一标准,xxx-les-Marais翻译成沼泽xxx还是直接音译就没有定规。余兮留言2012年6月20日 (三) 12:24 (UTC)
“阿勒讷”的译名也是来自annuaire-mairie.fr这个网站,估计是把闭音的e译为开音的e了。需要统一一下,到底应该优先采用有来源的译名,还是优先保证译音的准确性。--Stevenliuyi留言2012年6月20日 (三) 14:30 (UTC)
据我所知,这些法文网站经常找一些当地华人帮助翻译,弄出来的中文诘曲聱牙,译名随心所欲,没有定规,不能作为参考。虽说是“名从主人”,但当地人自己也不知道中文到底该怎么翻译,只好请人代劳了,所以这种翻译的好坏完全取决于代劳者的水准。我们还是以两岸四地的标准作为根据比较好。余兮留言2012年6月20日 (三) 14:46 (UTC)
窃以为《世界地名翻译大辞典》是不错的标准,一些地名虽然辞典中没有收录,但可以根据其他地名中类似音节的翻译做出标准翻译。比较容易造成混乱的,比如lon译为隆,ron译为龙,lo译为洛,ro译为罗,大部分还是有章法可循。如果网上个别来源翻译明显不符合发音,那还不如我们根据翻译规则自己翻译,这也不能算原创研究。余兮留言2012年6月20日 (三) 14:49 (UTC)
按照通用的翻译规则修正译名也是个不错的选择。可以先建立《世界地名翻译大辞典》里面有的市镇条目,然后按照通用的翻译规则或《世界地名翻译大辞典》内类似地名的类比来确定其它的地名译名。—Snorri留言2012年6月20日 (三) 17:06 (UTC)
我先建了一个省的市镇(诺尔省市镇列表),译名尽量参照《世界地名翻译大辞典》的标准,但因法语水平所限,翻译错误在所难免。如果有人发现误译之处希望能够指出。--Stevenliuyi留言2012年6月23日 (六) 04:24 (UTC)
(&)建议可以试着加入导航模板(Navbox)。--Alexchris留言2012年6月22日 (五) 04:02 (UTC)

刚发现英文版也刷过很多小行星条目:[15]。--MakecatTalk 2012年6月23日 (六) 06:01 (UTC)

返回到项目页面“机器人建立条目小组/存档1”。