維基百科討論:機器人建立條目小組/存檔1

由Makecat在話題關於刷條目上作出的最新留言:12 年前

無標題

這個應該屬於專題吧?--百無一用是書生 () 2012年3月30日 (五) 13:22 (UTC)

瑞典語、烏克蘭語、越南語都在採用機器人

我希望讓大家能夠跟蹤一下最近其他各語言維基百科的增長情況。在兩個月內,越南語維基增加了將近15萬的條目,大概很多都是生物物種的。我們曾經在將近一年時間中,和挪威語保持膠着上升狀態;但越南語在極短的時間內就超過了挪威,而且非常快就逼近加泰羅尼亞語。我們按照現有的速度,應該在這一年內超過瑞典語,無論是否採用機器人(一次機器人操作可能會擴建5000新條目的編輯,可能需要我們用50天時間消化趕上,但也就是延緩我們趕超的時間而已)。在過去的三年裡,我們花費大量力氣去追趕拉近和它們的差距,現在在三萬左右,這是好事。但我所關心的是越南語和我們隨後的烏克蘭語都在採用機器人以加緊編輯速度,他們超過中文維基的可能性存在,但因為人口基礎太少(活躍編輯不足我們的1/3),它們編輯速度更多取決於那些操作機器人的數據庫容量。我們曾經在去年險些被加泰羅尼亞語超過,但也沒有採用機器人去保持差距,後來證明它們仍然沒有足夠的數據庫以支持它們進度。越南語的情況是否雷同,尚不得知。--Walter Grassroot () 2012年3月5日 (一) 20:56 (UTC)

我會在接下的一些時間內用Subst半自動地加速擴建一些外交官條目,在數據庫支持的情況下,我能夠製作將近20-50個/天(周末可以做到100個/天),總量將近2000個,期間我也學習改善模型,所以這段時間也是一種嘗試摸索,也彌補由於其他語種採用機器人,而使得我們落後的差距。如果一切合適的話,我考慮以機器人方式去創建中國古代人物條目(以職務先後為序)。當然模型化的操作也意味着條目本身內容趣味性的減少,這種方式也是容易招致批評的,但這個是我個人意願,如果編輯次數和資歷在我之下的用戶,就請不要勸阻或增麻煩了;但我非常歡迎各種建議和數據庫提供。如果保持一個高水平的增長速度,會能夠吸引大量用戶參與到編輯,而人物條目的擴建自然是最容易讓新用戶着手的。--Walter Grassroot () 2012年3月5日 (一) 20:56 (UTC)
最主要的是中文能夠提供自由版權內容的來源太少--百無一用是書生 () 2012年3月6日 (二) 02:14 (UTC)
中科院的那些數據庫不能用?烏拉跨氪 2012年3月6日 (二) 04:03 (UTC)
把其他語言的翻譯過來不可?他們寫什麼我們也寫什麼?--鐵鐵的火大了抓兔子啦,抓兔子啦…… 2012年3月6日 (二) 10:22 (UTC)
那豈不是機器翻譯?烏拉跨氪 2012年3月6日 (二) 11:46 (UTC)
其他語言編寫的是地域條目,因為他們語系都是採用拉丁文或者英文命名,則製作出數據庫和操作就很容易,但我們卻不能直接採用了,唉。Walter Grassroot () 2012年3月6日 (二) 14:34 (UTC)
我贊同上面有人建議說的用機器人編輯小行星條目,現成的數據庫沒有版權問題,至於古代人物的數據庫是要從哪裡入手? --九紫離火很高興認識你o(∩_∩)o 2012年3月6日 (二) 05:34 (UTC)
古代人物的條目是用方志。某一地方上都會寫明一個縣或者府的行政長官名字、出身、籍貫、以及任期、餘事,這樣就可以製作數據庫,並用機器人操作。Walter Grassroot () 2012年3月6日 (二) 14:38 (UTC)
只要沒有版權問題,我很贊成你這樣做,希望能早日看到你的機器人編修古代人物條目成果 --九紫離火很高興認識你o(∩_∩)o 2012年3月8日 (四) 09:46 (UTC)
只要是沒有侵權疑慮,我個人很歡迎大家寫機器人建立適當的條目,畢竟這種方式效率很高,在中文維基也已經實作過了(菲菇有用過生物資料庫),我只有比較好奇同名之類的條目要怎麼處理。--章·安德魯留言2012年3月6日 (二) 09:58 (UTC)
菲菇做的那個生物的,我已經發現過10幾個重複的了,估計還有重複的沒發現--百無一用是書生 () 2012年3月6日 (二) 12:25 (UTC)
重複也不算是錯誤吧。後來人再查就可以了。烏拉跨氪 2012年3月6日 (二) 14:01 (UTC)

我認為:機器條目應該有個底線,就是『不對生物現實和種群上的個體或整體進行價值判斷』,作為非生命體,機器不應站在生物主體的角度,那樣的話必然都只能是胡說了,胡說對生命和wiki有任何意義嗎?--User:lgj

NASA JPL的數據庫有幾十萬個小行星的數據,比如100000號(需翻牆  囧rz...)。希望討論出個關注度標準吧?英文版貌似是六七千以前都是全的。--MakecatTalk 2012年3月9日 (五) 12:21 (UTC)

如果能查到英文的機器人條目,我們可以把所有格式性的文字翻譯過來,之後關鍵詞設定翻譯表,可以達到半自動化處理。--達師218372 2012年3月9日 (五) 17:38 (UTC)

我發現了一個越語版上面寫二裂果蠅的條目(vi:Drosophila_bifurca),機器人建的,全英文,到現在都沒人譯成越南語。這個條目還並不是唯一的例子。這種條目數排名與流量排名極其不相稱。荷蘭語版就是用機器人飆到第四的(本來它的社群好像還雄心勃勃想超越德語版),實際上其條目素質根本不行,其特色條目的質量很可能是前十名里最差的-綜合徵與一萬年~facebook~twitter~微博 2012年3月10日 (六) 15:14 (UTC)
越南語那些條目基本都只有一句話,而且生物學分類和條目分類都是好多紅鏈……--MakecatTalk 2012年3月13日 (二) 13:03 (UTC)
我已經在這十天內增加了800餘條目外交官,可是這個數據庫已經被我用盡。唉,瑞典語用機器人刷法國99個省下的鎮市,現在刷到第13個省,下面他們可以創製的還有將近20000至50000條目;烏克蘭語用小行星數據,可以有將近100000條目可建。這兩個數據庫最大的弊病就是他們沒有對應的中文名,難道就是這樣眼看着他們超過麼?--Walter Grassroot () 2012年3月11日 (日) 03:00 (UTC)
法國的市鎮數量好像有36785個。(市鎮 (法國))--Alexchris留言2012年3月11日 (日) 09:34 (UTC)
也許,小行星條目先不用中文名,先保證有簡單中文內容,創建了再說?-綜合徵與一萬年~facebook~twitter~微博 2012年3月11日 (日) 03:03 (UTC)
我們有Category:中華人民共和國行政區劃列表。鄉級行政區有4萬,中西部省份的基本都是紅字,起碼能增加3萬條目。--Gilgalad 2012年3月11日 (日) 10:03 (UTC)
中國科學院院士中國工程院院士加起來得有兩千人,官方網站上有全部名單和介紹。現在維基條目大概只有五六百,這也是個可以發掘的資源。--Gilgalad 2012年3月11日 (日) 10:20 (UTC)
行政區劃和院士的條目如果能夠開動機器人,最重要的是要有數據庫,一個很簡明,但是信息對應變量的數據庫。可是暫時這兩類都沒有。--Walter Grassroot () 2012年3月11日 (日) 16:05 (UTC)

越南語維基百科條目數量於2012年3月11日超越加泰羅尼亞語維基百科。--Alexchris留言2012年3月11日 (日) 16:25 (UTC)

行政區劃的數據庫還是有的:http://cn.quhua.org 。--Symplectopedia留言2012年3月11日 (日) 16:29 (UTC)

既然所有百科都在使用機器人,那我們也要用,不用就會落後,而且也不公平。 --九紫離火很高興認識你o(∩_∩)o 2012年3月11日 (日) 18:38 (UTC)

是啊。英語、法語、荷蘭語、波蘭語、俄語、葡萄牙語、加泰羅尼亞語和烏克蘭語維基百科都曾經用機器人創建了數以萬計甚至十萬計的條目。前十大語言版本中唯一沒有用機器人創建條目的是日語版,所以你們看,日語維基的條目數量排名才會從2005年初的第三位驟降至現在的第九位。
前面User:Walter Grassroot說到大部分語言都是使用拉丁字母,因此如果某個語言版本用機器人創建了條目,其他語言版本不需將條目名稱進行翻譯,直接照搬過來就行;但中文使用漢字,因此必須翻譯,不能直接照搬,這樣就大大增加了利用機器人創建條目的難度。他說的有一定的道理,但事情並非如他所說的那麼嚴重。首先,把一個條目名稱進行翻譯並不是那麼難的事,我們有《世界人名翻譯大辭典》、《世界地名翻譯大辭典》,還有Category:外語譯音表;其次,我們可以用機器人創建中國的事物(行政區劃、人物、公路、鐵路等),不一定非要創建其他國家的條目,中國的事物也夠多了,鄉級行政區劃就有四萬個。
那麼我們現在就具體分析一下,有哪些類型的條目可以用機器人創建,可以寫些什麼內容,條目名稱如何翻譯,以及其他需要注意的問題:
  1. 第一是生物類條目。
    生物的學名是拉丁文,中文譯名一般用意譯而不是音譯,而且譯名又無規則可循,因此不能使用機器人進行翻譯。我們只能用機器人創建已經有中文譯名的生物。User:P-botUser:WebBot在2009年曾經創建了大約25,000個動物和植物條目,條目名稱和內容來自《中國動物物種編目數據庫》和《中國高等植物數據庫全庫》。這兩個數據庫共收錄了大約六萬種動物和植物,但User:P-botUser:WebBot只創建了25,000個條目,也就是說,還有大約35,000個條目沒有創建。現在我們可以創建這些剩下的動物和植物條目。
  2. 第二是行政區劃類條目。
    前面我已經說到了,中國的鄉級行政區劃有四萬個,並且有一個數據庫http://cn.quhua.org 。條目內容方面,我們可以寫這個鄉級行政區劃屬於哪個市哪個縣,下轄哪些村和社區。至於其他國家的行政區劃,美國有大約3萬個城市和城鎮,法國有大約4萬個德國1萬個意大利8千西班牙7千巴西5千捷克5千匈牙利羅馬尼亞斯洛伐克各三千左右。這些地名的譯名可以參考《世界地名翻譯大辭典》(中國工具書網絡出版總庫中有收錄,也可以從這裡下載)。如果世界地名翻譯大辭典中沒有,可以按照Category:外語譯音表進行音譯(英國和美國的地名除外,因為英語的拼寫很不規則,一個字母可以有很多種不同的讀音,因此,英國和美國的地名最好不要按照Category:外語譯音表進行音譯)。條目內容方面,我們可以寫人口、面積、海拔、地理位置等,這些數據一般在其他語言版本的條目中可以找到。
  3. 第三是天文學條目(小行星、恆星等)。
    目前英文維基百科有大約14,000個小行星條目。條目名稱的翻譯不是問題,因為中文裡的小行星命名一般只用編號,不像英語同時用編號和暱稱,如en:11352 Koldewey,中文只要翻譯成「小行星11352」就行了。小行星的各項數據如離心率、軌道周期等可以參考這個數據庫http://ssd.jpl.nasa.gov/sbdb.cgi 。但是,很不幸的是,英文維基百科有不少小行星條目都被掛上了關注度不足的模板:en:Category:Articles with topics of unclear notability from February 2012。我不確定這些條目的關注度是否足夠,它們似乎不符合英文維基中的天體關注度指引。為了保險起見,建議還是不要用機器人創建這些小行星條目。
    除了小行星以外,還有恆星。烏克蘭語維基百科最近就用機器人創建了許多恆星條目:[1]。這些條目的關注度如何,也很難說。
  4. 第四是交通運輸類條目,包括鐵路和道路等。
    目前唯一收錄大量鐵路條目的語言版本是日語維基百科,共收錄了約12,000個日本鐵路車站的條目。其他語言版本都只有數百個車站條目。如果我們用機器人創建這些條目,需要注意一定要把日本漢字轉換成標準中文漢字。此外中國也有五千多個鐵路車站,但目前為止還沒有一個可以使用的中國鐵路車站數據庫。雖然在網上可以找到大量查詢火車時刻表的網站,但這不是維基百科應該收錄的內容,維基百科應該收錄的是車站的興建日期、每日載客量、與鄰近車站的距離等信息,而這些通常在網上都找不到。
    此外還有道路。跟鐵路一樣,目前也是只有日文維基收錄了大量日本道路的條目。但是,這些條目的關注度很低,而且en:Wikipedia:Notability (highways)#Japan明確說了日本的都道府縣道一般都關注度不足。
  5. 第五是歌手、演員、電影、電視劇、音樂專輯等娛樂類條目。
    http://data.ent.sina.com.cn 收錄了8000多個明星、5000多部電影、5000多部電視劇和四萬多張音樂專輯。如果用機器人創建這些條目,一個可能出現的問題是會創建重複條目。許多外國電影、電視劇都有兩個以上譯名,如果用機器人創建,很容易跟中文維基原有的條目重複。因此,最好只創建中國大陸、香港和台灣的明星(約3000個)、電影(約1700個)、電視劇(約3700個)和音樂專輯(約7700個)條目。大中華地區的電影和電視劇一般都有一個確定的官方名稱,除此以外不會有其他名稱,因此不需擔心會出現重複條目。
最後我們計算一下,不計那些關注度可能不足的條目,我們可以用機器人創建35,000個生物條目、四萬個中國行政區劃條目、八萬個外國行政區劃條目、12,000個日本鐵路車站條目、3000個明星條目、1700個電影條目、3700個電視劇條目、7700個音樂條目,總共約18萬個條目,還是很多的。現在越南語維基百科已經有37萬條目了,要是我們還不趕快用機器人創建條目,估計再過不到一個月就會被越南語超過。那麼越南語維基現在創建的都是些什麼條目呢?看一看vi:Special:Log/import就可以知道,越南語正在從荷蘭語版大量導入條目。荷蘭語維基百科去年10月至12月用機器人創建了約25萬個生物條目。越南語從荷蘭語大量導入條目之前,大約有22萬個條目,如果把荷蘭語用機器人創建的條目全部導入越南語,越南語就會增加到47萬條目。而我們現在有40萬個條目,所以,這意味着我們至少要創建7萬條目左右,才能擺脫越南語的追趕。就看有沒有人願意創建了。--Symplectopedia留言2012年3月12日 (一) 08:13 (UTC)
恆星是很難弄的,很多有重要性的恆星中國古代就有命名,但是不太好查。--MakecatTalk 2012年3月13日 (二) 13:13 (UTC)
我支持補全中國鄉級行政區劃的4萬個條目,但是翻譯美國法國的市鎮條目意義不大。首先,歐美市鎮規模很小,法國市鎮人口的中位數只有600多人,重要性關注度普遍很低,對比一下中國鄉級行政區平均人口是3萬人。第二,歐美市鎮條目在其他語言的百科裡已經存在了,再翻譯過來意思不大,而中國鄉級行政區是整個維基百科都沒有的內容。第三,雖然中國鄉級行政區沒有一個格式化的數據庫,但我覺得發動整個zhwp的人力是可以人工完成的。比如,中國地級行政區有300多個,以現在中文維基的活躍用戶人數,可以做到每個人認領一個地級市(家鄉,現住在地,等等),一個人用一到兩個月的時間完全可以完成一個地級市下設的鄉級行政區條目。甚至,因為這類條目編寫的門檻很低,可以發動新用戶參與進來寫一寫自己的家鄉,興趣也是足夠的。--Gilgalad 2012年3月12日 (一) 10:02 (UTC)
(!)意見:寧缺毋濫。我認為應該在確保質量的基礎上追求數量,像那些小語種維基,就算排名靠前了,可有意思嗎?有幾個人會看?中文維基應本着為全球14億多中文用戶服務的原則,以改善條目質量為第一要務。——蘇州宇文宙武之太陽殿 ♨迎仙宮 ★尚書省 2012年3月12日 (一) 08:26 (UTC)
現在中文維基百科的條目質量已經很不錯了,有843篇優良條目。而日語、葡萄牙語和瑞典語分別只有616篇284篇369篇優良條目,均少於中文版。而且,中文維基只有240個條目需要維基化4個條目需要清理。看看其他語言版本,英文版有21478個條目需要維基化22384個條目需要清理;俄語有22648個條目需要維基化6263個條目需要清理;法語有2574個條目需要維基化2764個條目需要清理;日語有744個條目需要維基化895個條目需要清理。--Symplectopedia留言2012年3月12日 (一) 11:17 (UTC)
(:)回應:如果取得這麼一點小小的成績就滿足的話,中文維基是沒有希望的。漢語文是世界第一大語文,取得如此成績並不稀罕。我們的目標應該是所有語言版本中質量最高的,不一定要數量最多,多不代表好。——蘇州宇文宙武之太陽殿 ♨迎仙宮 ★尚書省 2012年3月13日 (二) 06:38 (UTC)
完全不同意你的說法。為什麼條目數量多不代表好?條目數量多,提供的信息就多,這樣讀者就更容易查找到想尋找的信息;而且條目數量多,在搜索引擎上被搜索到的機會就大,瀏覽量就更多。為什麼百度百科、互動百科的參與人數和瀏覽量大大高於中文維基?就是因為他們條目數量多的緣故。反過來質量差一點,缺少參考資料、沒有維基化等,並不是大問題,只要沒有明顯錯誤,讀起來基本通順就行;質量再好,頂多是多贏得一些讚美而已,用處不大。--Symplectopedia留言2012年3月13日 (二) 07:36 (UTC)
(:)回應:拿百度、互動來和維基作比較,維基果然墮落了啊。無所謂,誰愛開機器人誰開(我是不會用的)。我反正是以抓質量為第一要務,等到什麼時候中文維基特色、優良條目變成第一了,基本上差不多了,趕數量交給機器人好了。另外,怕被越南、瑞典、烏克蘭等趕超,堂堂世界第一語文,不覺得跌身價麼?——蘇州宇文宙武之太陽殿 ♨迎仙宮 ★尚書省 2012年3月13日 (二) 08:56 (UTC)
(!)意見。拿中文的優良和特色條目的數量來比較,對應到現在所謂的投票和檢查的過程,毋寧是自曝其短,邏輯矛盾。既然要拼數量,那就拿數量來說,還偏偏要用品質極度不穩定,在外界批評甚多的所謂優良和特色條目當理由,真的要說是搞不清楚狀況嗎?連中文的資料都掌握不好,只會計較多幾個,少幾個條目,有什麼幫助?數量多,語法亂七八糟,用詞不知所云,頂多就是會出現在搜尋引擎的結果上,但是,可讀性很差的東西可以被很多人找到的時候,留下的印象是什麼呢?就是現在普遍可以聽到的:中文維基的內容不好(這已經算是比較客氣的用詞)。老在用搜尋引擎的數量當佐證,而不是真的去閱讀一些內容和消化,看到的就只能是表面。-199.83.40.32留言2012年3月23日 (五) 14:16 (UTC)
(!)意見,有些東西有了也不是壞事,比如說外國城鎮什麼的,我能查到這個地名就行。至少這段時間我已經用到好幾個這種地名了,比如比利比諾拉利貝拉 etc.--鐵鐵的火大了抓兔子啦,抓兔子啦…… 2012年3月12日 (一) 10:11 (UTC)
這類條目在查地名時確實很有幫助。--Alexchris留言2012年3月12日 (一) 12:53 (UTC)
可以考慮利用中文維基現有的一些列表,比如:
每個省的省級文物保護單位少則幾百多則上千,總計這類紅字條目應該上萬了。而且列表里已經給出了名稱、編號、地點等基本信息,有的還附圖。像這類既有數量又符合關注度要求的列表,值得利用。--Gilgalad 2012年3月12日 (一) 10:40 (UTC)
話說回來,菲菇那個生物機器人為什麼突然停掉了,記得當初好像就是靠那個機器人突破30萬大關的,我當時還說了句」超瑞趕俄,可立而待「,突破40萬大關時候居然還是這句話。。。。。。--九紫離火很高興認識你o(∩_∩)o 2012年3月12日 (一) 12:14 (UTC)
日語版排名的下降,不一定完全是因為沒用機器人,記得過去上alexa上看日語版的流量占全站的14%多,現已降至7.08%,被西班牙語超越,有一段時間甚至被俄語版超越。俄語版的上升與瑞典語、越南語性質不同,不全是因為機器人的緣故。至於重複條目,有一點兒似乎也無妨,即使不用機器人也肯定存在許多重複。-綜合徵與一萬年留言2012年3月12日 (一) 14:06 (UTC)
我可以最近加快大陸行政條目的建設,但編輯仍然需要仰賴數據庫。行政條目有四萬,我就算達到自己的極限,一天製作500條,也需要80天時間做完。而根據皇帝所說的越南語所複製的荷蘭語生物庫的容量,他們仍有將近十二萬的容量,而且他們的機器人複製容易,每天平均創建2000條,在60天內就可以完成。換句話說,在現有數據庫條件基礎下,他們超越中文維基在60天就可以完成,而我所做的頂多是能夠勉強超過瑞典語的機器人效率。越南語的數據庫到47萬就是關卡,他們無法逾越那個;只要我們能夠順利度過47萬,就可以說暫時一年內不會擔憂有被超越的可能。不用機器人,我們不僅無法超過瑞典語,就連後面的烏克蘭語和越南語,也很輕易把我們甩掉五萬以上。--Walter Grassroot () 2012年3月12日 (一) 16:58 (UTC)
他們能用的數據庫是有限的,而我們自然的條目增長是無限的,所以我覺得不必在意一時名次的得失。每個人業餘時間有限,你也不必勉強自己一個人挑這麼重的擔子。我認領南京市所屬的鄉級條目,大概七八十個吧,慢慢來用十來天時間總歸能完成。--Gilgalad 2012年3月12日 (一) 20:48 (UTC)
嘗試了一下,效率太低。行政區劃同名的幾乎近一半。建兩個條目就得手動建造一個消歧義。--Walter Grassroot () 2012年3月13日 (二) 00:07 (UTC)
能否先創建條目,同時把需要建消歧義的條目記錄下來,最後大家一起手動創建?—Snorri留言2012年3月13日 (二) 00:36 (UTC)
乾脆直接加上縣市後綴消歧義,比如烏江鎮 (南京市)或者烏江鎮 (浦口區)。--Gilgalad 2012年3月13日 (二) 01:50 (UTC)

@Symplectopedia:這有個不記得從哪個網站存下來的鐵路車站數據表,可以寫一些車站小作品,只是格式不規整不很方便機器處理,然後還有缺少可靠來源的嫌疑,同時數據有些老還有部分錯誤(好像還是六提前的)。

站名	站址	邮编	建设时间	里程	等级	客货运情况
天津站	天津市河北区海河东路	300010	1888年	137	特等站	客运:办理旅客乘降;行李、包裹托运;货运:办理整车、零担、集装箱货物发到;办理整车承运前保管;不办理危险货物发到

Liangent (留言) 2012年3月13日 (二) 04:51 (UTC)

關於小行星條目,我想技術上是沒什麼問題的,建立到一萬左右應該大部分人都沒意見。那麼如果想其他語言一樣弄了幾萬甚至十萬以上(數據庫完全夠,關注度明顯不足),各位意見是什麼?--MakecatTalk 2012年3月13日 (二) 13:45 (UTC)

意見很簡單,別的語言有多少,我們也要搞多少,不落後也不讓別人說閒話 --九紫離火很高興認識你o(∩_∩)o 2012年3月13日 (二) 14:21 (UTC)
上面某人領會錯我的意思了,我並不反對增加條目數量,只是更注重條目質量。如果能在保證條目質量的基礎上增加條目質量,我自然樂見其成。——蘇州宇文宙武之太陽殿 ♨迎仙宮 ★尚書省 2012年3月14日 (三) 01:52 (UTC)
@ Liangent,目前我和AddisWang正在做內地的火車站。由於需要整理數據庫,一天可能有300左右條目。內地有資料的火車站數量可能在數千個吧。--達師218372 2012年3月15日 (四) 04:39 (UTC)
做了哪些線路了?Liangent (留言) 2012年3月15日 (四) 05:28 (UTC)
@ WG:現在連41萬都還沒有,什麼時候才能到達47萬呢?--達師218372 2012年3月15日 (四) 04:39 (UTC)

@ Makecat: 反對學習外語刷小行星。至於小行星條目,我的底線是有反照率數據。這個比英文版嚴很多,但是是唯一有效而且有道理的限制手段,否則和不限制沒有任何區別。--達師218372 2012年3月15日 (四) 04:48 (UTC)

@ Liangent :已經刷了京九、隴海、蘭新、濱洲、通霍、大秦,大概。以前已經補滿了的有青藏(格拉段)、鳳上、濱綏、京包。個人所知,很可能不全,而且不包括高速線和部分特別短的線。--達師218372 2012年3月15日 (四) 12:55 (UTC)

已經開始刷行政了,到41萬了。越南語的速度太快,每天4000誰也受不了,直接複製波蘭語的,連數據庫整理都省了。--Walter Grassroot () 2012年3月17日 (六) 06:37 (UTC)
謝謝您,Walter Grassroot。另外糾正一下,越南語不是每天4000,是每隔三、四天創建4000左右。也就是說,他們平均每天只增加1000多個條目。--Symplectopedia留言2012年3月17日 (六) 07:31 (UTC)
也謝謝你,大家都很努力地寫條目。其實編寫速度,完全取決於兩個人:越南語的Cheers!和瑞典語的Nasko。如果沒有這兩個人開動機器人,我們就根本不需要這次討論和現在的努力。他們應當也在盯着中文維基的動態,以隨時改變策略。--Walter Grassroot () 2012年3月18日 (日) 06:43 (UTC)
Cheers!創的條目有很多根本不是越南語,整篇都是荷蘭語,這種情況即使在一些最小語種的維基百科都會被速刪,可越南語社群卻對其放任不管。這可怎麼辦呢……-綜合徵與一萬年留言2012年3月18日 (日) 09:03 (UTC)
是啊,越南語維基百科有不少條目都完全沒有翻譯,搜索speciesgenusasteroidsoort(荷蘭語「物種」的意思)等詞就可以找到一大堆未翻譯和未完全翻譯的條目。我們可以到vi:Wikipedia:Thảo luận對越南語社群作出警告。如果他們還是不聽我們的勸告,仍然不肯刪掉沒有翻譯的條目,繼續用機器人創建未完全翻譯的條目,那我們就可以提報至元維基meta:Requests for comment。--Symplectopedia留言2012年3月18日 (日) 09:17 (UTC)
複製了那麼多外文條目……根本不可能有足夠的人去翻譯啊。--MakecatTalk 2012年3月18日 (日) 09:19 (UTC)
為什麼他們不先把荷蘭語的條目翻譯成越南語,然後再用機器人創建?為什麼他們明知不可能有足夠的人去翻譯,還要複製那麼多外文條目?在哪個語言版本創建條目就要用哪種語言,這是最基本的原則不是嗎?要不然越南語維基百科幹嗎要叫越南語維基百科?我們堅決反對他們用這種不正當、不公平、甚至可以稱為作弊的手段,使條目數量超過中文維基。我已經在vi:Wikipedia:Thảo luận#Stop using bots to create articles, immediately!對越南語社群作出了警告。--Symplectopedia留言2012年3月18日 (日) 09:49 (UTC)

等了這麼多天,還是沒有人回覆菲菇那個生物機器人為什麼突然停掉了,也罷,當初就是靠那個機器人突破30萬大關,後面還有35000多個生物條目沒有創建,該數據庫是現成的,不利用一下太可惜。將該機器人重新開動起來,至少可以和越南語,瑞典語形成互角之勢。--九紫離火很高興認識你o(∩_∩)o 2012年3月18日 (日) 09:08 (UTC)

我前幾天問了User talk:PhiLiP#請問您是否有興趣用機器人創建生物條目?,他仍然沒有回應。--Symplectopedia留言2012年3月18日 (日) 09:18 (UTC)
剛才仔細回想了一下,如果沒記錯的話,那個機器人好象是因為會重複創建條目還是什麼別的原因,導致我們的條目暴增,擔心被上頭發現,所以才停掉的,我當時還堅決反對過停止該機器人運行。後來過了這麼長時間,當初創建的那麼多條目,也沒有被上頭發現刪掉,正好趁這個機會再度開動,把剩餘的35000生物條目補完,反正其他語種都在大用特用機器人,不是就我們獨此一家。--九紫離火很高興認識你o(∩_∩)o 2012年3月18日 (日) 09:23 (UTC)

(~)補充:如果有數據但不會用機器人的可參見User:Makecat/使用機器人創建條目。--MakecatTalk 2012年3月18日 (日) 09:12 (UTC)

有數據也可以貼到用戶頁下,之後找我(如果不能貼就別找了)--達師218372 2012年3月18日 (日) 09:54 (UTC)

我測試了一下AWB的CSVLoader插件,經過調試以後基本可以全自動運行,效果大概是這樣(不用管編輯歷史,那時測試時沒設置好造成的)。--MakecatTalk 2012年3月18日 (日) 13:05 (UTC)

@九紫離火,上頭是什麼?--百無一用是書生 () 2012年3月19日 (一) 02:19 (UTC)
既是中文維基百科的上層組織,如維基媒體基金會,當然時隔多年,也可能是我記錯了,所以才會在這裡詢問。--九紫離火很高興認識你o(∩_∩)o 2012年3月19日 (一) 02:46 (UTC)
(:)回應補充,於2011年台灣冬聚Tilman Bayer(基金會的員工)明確表示,基金會是絕對不會涉入維基計畫的編輯作業,這屬於管理員階層的自我約束,也許是擔心Bot創建過多條目會影響品質觀感。--安可與我對話 ☺) 2012年3月24日 (六) 18:33 (UTC)
感謝大家的努力,人多了力量就大,效率高。現在已經到達41.4萬條目,如果機器人能開動生物類,就能夠達到47萬,我們應該可以擺脫越南維基的追趕。謝謝S帝的警告,希望越南語內部有所爭議和顧慮,就算是機器人仍然我行我素,但至少給我們爭取了幾天時間。--Walter Grassroot () 2012年3月19日 (一) 05:22 (UTC)
這件事可以考慮貼到m:RfC,不過這樣擴大化不知道是否合適。--達師218372 2012年3月19日 (一) 08:24 (UTC)
建議不要,Cheers!也算是越南維基的元老級編輯,如果他能用機器人創建,也可以用機器人修改。他的修改本身就為我們贏得時間。盲目請求上級裁斷,會讓其他維基輕視我們中文沒有度量。--Walter Grassroot () 2012年3月19日 (一) 15:01 (UTC)
我們不是在進行條目數量比賽,沒有必要贏得時間。我想沒有人會因為中文維基多創建幾個條目而認為中文維基「沒有度量」的。--王小朋友留言2012年3月20日 (二) 11:17 (UTC)
看來Cheers!並沒有打算照我所說的去做。雖然他昨天友善地回應了我的警告,可是他今天仍然繼續用機器人創建條目:vi:Special:Log/import。我已經對他發出了最後警告
我們這幾天的條目增長速度快了不少,但仍然不足以擺脫越南語的追趕。也許是因為中文維基會使用機器人的人太少的原因,現在只有我、User:StevenliuyiUser:Walter Grassroot每天創建數百條目。
我現在教大家一種不用機器人,又能快速創建條目的方法。我這兩天就是用這種方法手動創建了兩千多個中國行政區劃條目。首先,要想好創建哪個地級市的鄉級行政區劃條目。下面以成都市為例。
1. 打開http://cn.quhua.net ,點擊「四川」,再點擊「成都市」。
2. 點擊「錦江區」,進入http://cn.quhua.net/51/510104000000.htm 。然後把「村級以上行政區劃一覽」一段複製到記事本(Notepad)。
督院街街道办事处: 青石桥社区 滨江路社区 督院街社区
盐市口街道办事处: 学道街社区 青年路社区
……
三圣街道办事处: 江家堰村 大安桥村 幸福村 驸马村 红砂村 万福村
3. 在記事本中點「編輯」(Edit),再點擊「替換」/「取代」(Replace),將「: 」(冒號加空格)替換成「|錦江區|」。替換後的文字如下:
督院街街道办事处|锦江区|青石桥社区 滨江路社区 督院街社区
盐市口街道办事处|锦江区|学道街社区 青年路社区
……
三圣街道办事处|锦江区|江家堰村 大安桥村 幸福村 驸马村 红砂村 万福村
4. 將記事本中的這段文字複製到Microsoft Word。
5. 回到http://cn.quhua.net/51/510100000000.htm ,點擊下一個區/縣(青羊區),重複以上步驟(複製到記事本,替換,再複製到Microsoft Word)。再點擊第三個區/縣,以此類推,直到最後一個區/縣為止。
6. 以上步驟做完了以後,回到Microsoft Word,現在Microsoft Word中的內容應該是這樣:
督院街街道办事处|锦江区|青石桥社区 滨江路社区 督院街社区
盐市口街道办事处|锦江区|学道街社区 青年路社区
……
三圣街道办事处|锦江区|江家堰村 大安桥村 幸福村 驸马村 红砂村 万福村
太升路街道办事处|青羊区|鼓楼南街社区 太升南路社区 德盛路社区 小关庙社区 玉沙路社
草市街街道办事处|青羊区|文殊院社区 玉带桥社区 双眼井社区
……
集贤乡|崇州市|文锦社区 华兴村 梁景村 山泉村
7. 好了,現在開始就要在Microsoft Word中進行一系列的替換了。
第一步,點擊「編輯」(Edit),再點擊「替換」/「取代」(Replace),將「街道辦事處」替換成「街道」。因為中文維基的街道條目名稱通常不加「辦事處」。
督院街街道|锦江区|青石桥社区 滨江路社区 督院街社区
盐市口街道|锦江区|学道街社区 青年路社区
……
三圣街道|锦江区|江家堰村 大安桥村 幸福村 驸马村 红砂村 万福村
太升路街道|青羊区|鼓楼南街社区 太升南路社区 德盛路社区 小关庙社区 玉沙路社区
草市街街道|青羊区|文殊院社区 玉带桥社区 双眼井社区
……
集贤乡|崇州市|文锦社区 华兴村 梁景村 山泉村
第二步(最關鍵的一步):將「^p」替換成「}}^p{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|」。這裡「^p」是換行的意思。
督院街街道|锦江区|青石桥社区 滨江路社区 督院街社区 }}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|盐市口街道|锦江区|学道街社区 青年路社区 }}
……
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|三圣街道|锦江区|江家堰村 大安桥村 幸福村 驸马村 红砂村 万福村 }}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|太升路街道|青羊区|鼓楼南街社区 太升南路社区 德盛路社区 小关庙社区 玉沙路社区 }}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|草市街街道|青羊区|文殊院社区 玉带桥社区 双眼井社区 }}
……
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|集贤乡|崇州市|文锦社区 华兴村 梁景村 山泉村
當然,最前面和最後面也要分別加上「{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|」和「}}」。
第三步,將「 }}」(空格加}})替換成「}}」。也就是把「}}」前面的空格去掉。
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|督院街街道|锦江区|青石桥社区 滨江路社区 督院街社区}}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|盐市口街道|锦江区|学道街社区 青年路社区}}
……
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|三圣街道|锦江区|江家堰村 大安桥村 幸福村 驸马村 红砂村 万福村}}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|太升路街道|青羊区|鼓楼南街社区 太升南路社区 德盛路社区 小关庙社区 玉沙路社区}}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|草市街街道|青羊区|文殊院社区 玉带桥社区 双眼井社区}}
……
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|集贤乡|崇州市|文锦社区 华兴村 梁景村 山泉村}}
第四步,將「 」(兩個空格)替換成「、」。注意是兩個空格,不是一個。
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|督院街街道|锦江区|青石桥社区、滨江路社区、督院街社区}}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|盐市口街道|锦江区|学道街社区、青年路社区}}
……
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|三圣街道|锦江区|江家堰村、大安桥村、幸福村、驸马村、红砂村、万福村}}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|太升路街道|青羊区|鼓楼南街社区、太升南路社区、德盛路社区、小关庙社区、玉沙路社区}}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|草市街街道|青羊区|文殊院社区、玉带桥社区、双眼井社区}}
……
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|集贤乡|崇州市|文锦社区、华兴村、梁景村、山泉村}}
最後一步,將「街道|」替換成「街道|街道|」,「鄉|」替換成「鄉|鄉|」,「鎮|」替換成「鎮|鎮|」。
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|督院街街道|街道|锦江区|青石桥社区、滨江路社区、督院街社区}}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|盐市口街道|街道|锦江区|学道街社区、青年路社区}}
……
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|三圣街道|街道|锦江区|江家堰村、大安桥村、幸福村、驸马村、红砂村、万福村}}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|太升路街道|街道|青羊区|鼓楼南街社区、太升南路社区、德盛路社区、小关庙社区、玉沙路社区}}
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|草市街街道|街道|青羊区|文殊院社区、玉带桥社区、双眼井社区}}
……
{{subst:User:Symplectopedia/Template/TownshipofthePeoplesRepublicofChina|四川|省|成都|集贤乡|乡|崇州市|文锦社区、华兴村、梁景村、山泉村}}
好了!全部替換完畢了。現在,回到維基百科,打開四川省鄉級以上行政區列表,開始一個一個創建吧。
用我所說的辦法,可以在半小時之內創建一百多個條目,大家不妨嘗試一下。也許第一次會慢一些,多做幾次就熟練了。如果不會使用機器人,可以用這種辦法創建條目。會使用機器人的用戶,也可以一邊用機器人創建條目,一邊用我所說的辦法手動創建條目。--Symplectopedia留言2012年3月20日 (二) 13:18 (UTC)
感謝Symplectopedia提供創建行政區條目的方法,不過在對於同名鄉級行政區,消歧異條目後的括號是要放置地級行政區還是縣級行政區,例如鳳凰路街道 (紅塔區)鳳凰路街道 (玉溪市),目前在維基上的條目好像兩種方式都有。--Alexchris留言2012年3月21日 (三) 04:10 (UTC)
隨便,消歧義括號中放置地級行政區還是縣級行政區都可以,這算什麼問題,芝麻大的小事,現在首要的任務是創建條目,避免被越南語追上,消歧義的問題可以以後再慢慢討論。--Symplectopedia留言2012年3月21日 (三) 10:39 (UTC)
我括號內會填入縣級行政區,不過製作消歧異頁面的確需要些時間。--Alexchris留言2012年3月22日 (四) 12:08 (UTC)

用AWB和CSV Loader創建中國行政區條目

使用AWB創建條目的效率較高,也可以不用該很多分頁來創建條目,不過需要申請AWB的使用權限;不過在消歧異頁方面可能需要先手動創建,並需要修改消歧異條目所在的導航模板,似乎是比較麻煩的地方。

第一步:請至Wikipedia_talk:AutoWikiBrowser/CheckPage申請AWB使用權限,已經獲得認可者可略過此步驟,當然也不要忘了從AWB上的下載連結下載AWB。
第二步:請至Wikipedia:CSV下載CSV Loader,並按照該頁上的方法安裝
第三步:進入http://cn.quhua.net/(行政區劃網),下以四川省成都市錦江區為範例,從網站上複製下來的資料到Word上應該會呈現這樣。
• 督院街街道办事处: 青石桥社区 滨江路社区 督院街社区

• 盐市口街道办事处: 学道街社区 青年路社区
• 春熙路街道办事处: 总府路社区 华兴街社区 岳府街社区
• 书院街街道办事处: 福字街社区 天涯石社区 东较场社区
• 合江亭街道办事处: 大慈寺路社区 东升街社区 合江亭社区
• 水井坊街道办事处: 水井坊社区 交子社区
• 牛市口街道办事处: 得胜路社区 水碾河路南社区 华成路社区
• 龙舟路街道办事处: 河滨社区 龙舟社区 顺江社区
• 双桂路街道办事处: 牛沙路社区 五福桥社区 东大路社区
• 莲新街道办事处: 海椒市社区 莲花社区 九眼桥社区
• 沙河街道办事处: 塔子山社区 沙河社区
• 东光街道办事处: 东怡社区 新莲新社区 五桂社区 永兴社区
• 狮子山街道办事处: 四川师大社区 万科城花社区 菱窠社区 花果村
• 成龙路街道办事处: 金象花园社区 皇经社区 花香苑社区 国槐路社区 棬子树村 金像寺村 皇经楼村 大观村 粮丰村 华新村
• 柳江街道办事处: 柳江社区 生研所社区 锦馨社区 包江桥村 祝国寺村 潘家沟村

• 三圣街道办事处: 江家堰村 大安桥村 幸福村 驸马村 红砂村 万福村
第四步:把內容按Ctrl+A全選後複製到記事本,再按Ctrl+H取代功能,
將「• 」取代為無內容。
將「 」(兩個空白)取代為「、」(全形頓號)。
將「: 」(全形冒號+一格空白)取代為「,成都市,錦江區,」(半形逗點+地級市+半形逗點+縣級行政區+半形逗點),CSV就是以逗號分隔各項參數。
將「街道辦事處」取代為「街道」(如果有街道行政區的情況)。

應該會有以下的結果

督院街街道,成都市,锦江区,青石桥社区、滨江路社区、督院街社区

盐市口街道,成都市,锦江区,学道街社区、青年路社区
春熙路街道,成都市,锦江区,总府路社区、华兴街社区、岳府街社区
书院街街道,成都市,锦江区,福字街社区、天涯石社区、东较场社区
合江亭街道,成都市,锦江区,大慈寺路社区、东升街社区、合江亭社区
水井坊街道,成都市,锦江区,水井坊社区、交子社区
牛市口街道,成都市,锦江区,得胜路社区、水碾河路南社区、华成路社区
龙舟路街道,成都市,锦江区,河滨社区、龙舟社区、顺江社区
双桂路街道,成都市,锦江区,牛沙路社区、五福桥社区、东大路社区
莲新街道,成都市,锦江区,海椒市社区、莲花社区、九眼桥社区
沙河街道,成都市,锦江区,塔子山社区、沙河社区
东光街道,成都市,锦江区,东怡社区、新莲新社区、五桂社区、永兴社区
狮子山街道,成都市,锦江区,四川师大社区、万科城花社区、菱窠社区、花果村
成龙路街道,成都市,锦江区,金象花园社区、皇经社区、花香苑社区、国槐路社区、棬子树村、金像寺村、皇经楼村、大观村、粮丰村、华新村
柳江街道,成都市,锦江区,柳江社区、生研所社区、锦馨社区、包江桥村、祝国寺村、潘家沟村

三圣街道,成都市,锦江区,江家堰村、大安桥村、幸福村、驸马村、红砂村、万福村
第五步:把記事本存檔,不過編碼方式務必點選UTF+8。
第六步:開啟AWB和外掛程式CSV Loader後,在CSV Loader Setting中輸入設定
Column headers欄位中填入「##name##,##city##,##region##,##in##」(代表剛剛建立的txt檔案資料庫內容分別是名稱地級市行政區縣級行政區下轄村級行政區)
Append/Prepend/Replace tex欄位中填入以下內容(不過省份方面需要跟著行政區所在的省份修改,分別是模板中的上級行政區、本文中和小作品模板三處需要更改)
{{中国乡级行政区

| 行政区全称 = ##name##
| 景观照片文件名 =
| 景观照片描述 =
| 汉语拼音 =
| 通用拼音 =
| 注音符號 =
| 其它标音类型1 =
| 其它标音1 =
| 其它标音类型2 =
| 其它标音2 =
| 其它语言类型1 =
| 其它语言地名1 =
| 其它语言类型2 =
| 其它语言地名2 =
| 上级行政区 = [[四川省]][[##city##]][[##region##]]
| 行政区类别 = [[乡镇]]
| 行政区划代码 =
| 地理坐标 =
| 总面积 =
| 户籍人口 =
| 户籍人口年份 =
| 常住人口 =
| 常住人口年份 =
| 人口密度 =
| 行政区划 =
| 官方网站 =
| 政府驻地 =
| 邮政编码 =
| 毗邻行政区 =
| 位置图文件名 =
| 位置图描述 =
}}
'''##name##''',是[[中华人民共和国|中国]][[四川省]][[##city##]][[##region##]]下辖的一个[[乡镇]]级行政单位。

== 行政区划 ==
'''##name##'''共辖以下地区:

##in##。

{{四川小作品}}
{{##region##行政区划}}
[[Category:##region##]]

第七步:設定完成後,在從AWB→Plugins→CSV Loader Plugin開啟先前儲存的txt檔案,即可進行匯入。
第八步:建議將AWB中的Skip設定改為Don't careExist,以利發現消歧異頁的存在,並將匯入內容剪下從該行政區的導航模板(Navbox)連結中手動創建條目,然後再Skip該條目,繼續創建下一條再從編輯框上的Logs按鈕查看Skip頁面。
  • Add by Justincheng12345-設定為Exist,完成某一輪後從Log獲取Skip了甚麼。

希望以上步驟對於各位用戶有所幫助,上述方法如有更好的改進方式也歡迎提供意見,各位辛苦了。--Alexchris留言2012年3月26日 (一) 16:17 (UTC)

行政區劃網我包了吧,都別建了,看了一下這個數據庫結構貌似不錯。Liangent (留言) 2012年3月26日 (一) 16:45 (UTC)
你說你包了可以,你不能讓別人都別建了啊。Alexchris,沒關係,別聽Liangent的,繼續創建。--Symplectopedia留言2012年3月26日 (一) 16:55 (UTC)
建的話那保證消歧義正確,不然機器人全部跑過之後還得手工修。Liangent (留言) 2012年3月26日 (一) 16:58 (UTC)
另外請教消歧義頁的格式怎麼寫?Liangent (留言) 2012年3月26日 (一) 17:15 (UTC)
@Alexchris,還是Skip了好,一不小心編輯了就慘了,而Skip了的話可以從Log看出Skip了甚麼。Justincheng12345留言2012年3月26日 (一) 23:26 (UTC)
@Liangent:

XXX可以指:

{{Disambig}} (ABC非必要)

(ABC非必要)。Justincheng12345留言2012年3月26日 (一) 23:31 (UTC)
@Liangent:請閣下用機器人建造,這樣我們就可以做別的數據庫了。--Walter Grassroot () 2012年3月26日 (一) 23:36 (UTC)
@Liangent:希望閣下用機器人創建條目,消歧異頁面格式大概已如Justincheng12345所述,但是其中YYY、ZZZ的標題,如果是EE市(地級市)FF區(市轄區),YYY以「YYY (FF區)」為標題,如果是EE市(地級市)FF縣(縣級行政區),YYY以「YYY (FF縣)」為標題,好像是這樣,也請WG兄確認一下,謝謝。--Alexchris留言2012年3月27日 (二) 01:15 (UTC)
@Liangent:
消歧義標題,給些具體例子吧。然後ABC寫什麼內容?Liangent (留言) 2012年3月27日 (二) 02:15 (UTC)
@Liangent:例如:四川省成都市青羊區下轄的光華街道以光華街道 (成都市)作為標題名稱,而不是光華街道 (青羊區),括號中填入成都市(地級市行政區)。另外,例如貴州省六盤水市水城縣下轄的董地鄉則以董地鄉 (水城縣)作為標題名稱,括號中填入縣級行政區名稱,縣級市、縣、自治縣、特區皆是以此方式處理。--Alexchris留言2012年3月27日 (二) 13:57 (UTC)

有一些不太「正常」的名字,看看怎麼處理:

  • 管莊地區辦事處
  • 北京經濟技術開發區虛擬社區 110115403498

Liangent (留言) 2012年3月27日 (二) 03:20 (UTC)

虛擬社區是不存在,請跳過去不要建造。通常都是地方給上級申報的一些開發區,但是並沒有實際運作或開發。--Walter Grassroot () 2012年3月27日 (二) 04:07 (UTC)
這樣的虛擬社區還是被寫到了條目裡面。Liangent (留言) 2012年3月27日 (二) 04:54 (UTC)
  • '土山花社區園居委會','120101004006'
  • '金盾里社區家委會','120102007021'
  • '紅旗農場虛擬生活區','120113500598'
  • '東於莊村農工商公司(村)','120113100209'

……不想一個個看了,太多了,有誰創建過程中看到的特殊情況列舉一下吧。Liangent (留言) 2012年3月27日 (二) 04:46 (UTC)

  • 區劃網 » 中國行政區劃 » 雲南省 » 西雙版納傣族自治州 » 景洪市 » 西雙版納州渡假區管理委員 » 曼弄楓虛擬村

Liangent (留言) 2012年3月27日 (二) 09:10 (UTC)

(參考資料)http://www.jssb.gov.cn/zdbz/tjbz/201109/P020110906388497492673.doc :類似鄉級單位(@Hat600:兵團在這裡面)、類似居民委員會、類似村民委員會以及提到的198,398,498,598代碼的處理?@Alexchris:Hat600解釋,是說街道用地市級,其他用縣級,是這樣嗎?Liangent (留言) 2012年3月27日 (二) 15:01 (UTC)

(?)疑問:運行AWB和CSV Loader的最後一步(點選已經儲存成txt檔案的資料庫,即可執行)究竟是如何執行?我點選txt文件後,只能看見[make list]方框下面顯示要創建的條目名單,如何具體執行創建呢?--敢為天下先留言2012年3月29日 (四) 04:56 (UTC)

請確定括號和「辦事處」怎麼處理(不只是有「xx街道辦事處」)。Liangent (留言) 2012年3月29日 (四) 05:37 (UTC)

User:Liangent/prcadmin 這個列表是完成(1)結尾的「地區辦事處」->「地區」(2)結尾的「街道辦事處」->街道 的替換後,剩下的含有「辦事處」的條目。

加一小段

我認為Symplectopedia的警告只會讓那個越南語的機器人編輯會勃然大怒,加速進程也說不定。我仔細想了一下,如果越南語強行釋放所有的數據庫,這樣就會導致屆時47萬的條目中,只要隨即刷新就能找到50%的小小條目以及其中沒有翻譯本土化的作品,這樣必定減損了越南維基自己的質量形象。我倒是覺得越南語如果加速,只會自取其辱,但建議S皇克制自己,不要激怒;除非你認為這樣的激怒,反而有助於問題更易在元維基得到重視、以及更易促使他們對越南語進行懲罰。--Walter Grassroot () 2012年3月21日 (三) 00:13 (UTC)

越南機器人可能會覺得我們在這個「競賽」里心虛了,更變本加厲也說不定。另外我發現那個區劃數據庫有點老,似乎是2010年以前的,使用之前最好先核對一下最近的區劃變動。--Gilgalad 2012年3月21日 (三) 00:55 (UTC)
變本加厲意味着他們才是心虛了吧,自然增長的差距就很明顯,何況我們也在刷。--達師218372 2012年3月21日 (三) 08:52 (UTC)
我是說越南機器人可能會以為我們「彈藥」不夠,這對他反而是種鼓舞。--Gilgalad 2012年3月23日 (五) 03:48 (UTC)
越南語那邊已經開始討論起來了:vi:Wikipedia:Thảo luận#Stop using bots to create articles, immediately!。這裡有會越南語的嗎?我看不懂他們在說什麼,用Google翻譯也沒能完全看懂。似乎有支持刪掉未翻譯內容的,也有反對的。
建議大家一起向越南語維基百科施壓,人多了力量就大,目前只有我一個人跟越南語幾個人爭論,難免勢單力薄。--Symplectopedia留言2012年3月21日 (三) 10:32 (UTC)
各位怎麼都那麼小氣,好像比我還小朋友。--王小朋友留言2012年3月21日 (三) 11:49 (UTC)
@ Symp: 不要都過去施壓,壓力過大會引起反彈。讓他們自己想通。想不通那我們就刷,不就是比誰刷得快麼。我們從41萬開始刷,四萬鄉鎮就45萬,大家再都出點力刷點別的,就過47萬了。--達師218372 2012年3月21日 (三) 12:01 (UTC)
在越南語維基歷史上,除了他外還有其他人用機器人刷麼?我認為對他們這種自然生長率30條每天的維基語種而言,擁有個那麼高效率的機器人和數據庫不用,似乎誘惑太高。此外另一個事情,S皇此前手動編輯的大量條目,我現在發現有出現同義的情況,可能需要花點時間進行消歧義調整。--Walter Grassroot () 2012年3月22日 (四) 00:49 (UTC)
你能查歧義?那就先把所有消歧義建起來…… --達師218372 2012年3月22日 (四) 01:49 (UTC)
技術上不難做,問題就是比較耗時,而且如果一些省份沒有建立鄉鎮一級的模板,我是沒法查出來的。只能一個個地移動。用AWB時候,可以點"what's link to/from"那一項,可以追蹤所有連入的模板,如果有兩個以上就可能意味着是存在兩個同名的。--Walter Grassroot () 2012年3月22日 (四) 02:24 (UTC)
那先至少把這套模板做齊吧……(不過應該基本不缺……)那還是邊刷邊建消歧義好了。--達師218372 2012年3月22日 (四) 04:38 (UTC)
暫時粗略看,模板尚未建造完成的是黑龍江省,其餘都建立。我的策略是在編輯某省前,先看他們的「鄉級以上行政區列表」中的已經變藍的條目,如果其中現實是指向錯的,那就建立消歧義,如果沒有的話就直接刷。這樣遇到新的再去補過去舊的就好,效率應該最快。其中北京、上海、山東、山西、福建的基本全部建立,我計劃這周內刷完河南省的。--Walter Grassroot () 2012年3月22日 (四) 04:49 (UTC)
要檢查有多個頁面(模板)鏈入同一個條目的話可以直接去查詢數據庫。Liangent (留言) 2012年3月22日 (四) 05:16 (UTC)
還有雲南省--lavixcanvas M T C 2012年3月22日 (四) 07:26 (UTC)
(~)補充,如果會使用的AWB的話可以用上面和Symplectopedia類似的方法做成用逗號分隔的文本文件,然後用CSVLoader來自動創建(機器人可以自動保存)。使用步驟圖解。--MakecatTalk 2012年3月22日 (四) 09:22 (UTC)
現在發現用symp的方式建的部分條目不查是否歧義,只要是藍字,不管是否正確,直接跳過,這個補救起來需要些時間……--達師218372 2012年3月22日 (四) 11:41 (UTC)
我是來慰問各位的= =--鐵鐵的火大了抓兔子啦,抓兔子啦…… 2012年3月22日 (四) 12:29 (UTC)
刷的時後方便同時弄參考資料嗎?--靖天子~北伐抗戰軍統局/真菌條目大躍進 2012年3月22日 (四) 14:47 (UTC)
@Hat600: 稍後我會列出所有存在歧義但條目內容不是消歧義的頁面。Liangent (留言) 2012年3月27日 (二) 06:44 (UTC)

對手也在時刻注意著我們

就好比我們在關注對方的一舉一動,對方也在時刻著注視我們這裡的討論,Cheers!的用戶頁,這次中越維基之戰,結局勢必更加撲朔迷離。--九紫離火很高興認識你o(∩_∩)o 2012年3月22日 (四) 16:38 (UTC)

我不認為這是一場戰爭,只不過是維基編輯各自為戰而已。我最初提醒大家,是希望每個人意識到我們從2008年以來,一直為縮小與瑞典語維基的差距而努力,這四年來相信以上很多人為此傾注了大量精力與感情;而這一努力在接近實現時,遇到了一些變數。而我定量越南維基,就是這種變數的代表。Cheers!的舉動可謂偉大,既然他願意引用我語,我當然欣然接受;但我希望他仔細想想,越南維基這幾個月的增長,如果排除他一個人的努力外,又會如何?越南語有他,則奇強;無他,則極弱。一個維基百科的一半條目是一個人寫的,那本身就是一種悲哀。越南語仍然保持在30條每天的自然增長速度;但相反,我們經過此事後,增加技能加速編輯的,已經不下十人。6670名活躍用戶,這個才是中文維基更彌足珍貴的財富和資本。此事就算越南維基超過中文維基數萬,我想我們比以往更團結,協作、互助等等維基百科應該提倡的精神,得到了變化。從此意義上,我們已經達到了目標。--Walter Grassroot () 2012年3月23日 (五) 00:39 (UTC)
在Cheers的討論頁上,你可以看到Symplectopedia的警告起到了反效果。。。You wanna advice me? but the way you do, the way you said that make me do inversely, even i can give up to be continue a sysop in Vietnamese wikipedia.--Cheers! (thảo luận) 13:26, ngày 20 tháng 3 năm 2012 (UTC), 我在想要不要加入越南語的爭論,幫助Symplectopedia說話,但就像你說的,那樣可能會讓對方惱羞成怒。--九紫離火很高興認識你o(∩_∩)o 2012年3月23日 (五) 02:05 (UTC)

Hi there. I am a member of Vietnamese wikipedia. I have worked in this Vi. wikipedia for many years and I have never seen any people who want to make war with other wikipedias. The "wikipedia war" that you zh.wiki creates is a completely new concept to us. So please stop imagining about unreal things, please, because it is very harmful for your mental health. We vi.wikipedians just have our own way to do things, and WE NEVER WANT TO MAKE WAR WITH ZH.WIKIPEDIA OR ANY OTHER WIKIPEDIAS, BECAUSE IT IS MEANINGLESS. Is that clear ? 137.132.236.175留言2012年3月23日 (五) 05:55 (UTC)

(把上面的留言移下來)@Symp: 所以如果你要tell stewards about this, 那我可以跟你說這個真的是他們社群自己的事情⋯⋯ @All: So can we leave each other's community alone? It's up to every individual if they consider this a race, and it is really viwp's business how they treat (un)translated articles. Leaving a reminder/opinion is fine, but there is indeed no point interfering or even provoke each other('s community). Be nice. And fix caplock please :) 所以我們能不能儘量不要到別人的社群里去干涉別人?如果作為個人將其視為是條目競賽,當然沒有問題,你也可以提出你的看法但是真的請不要用這樣的語氣和態度。如果他們都認為先保留不翻譯完全的條目,以後慢慢更改,這是他們的決定,別人沒啥權力干涉。Ben.MQ 2012年3月23日 (五) 00:53 (UTC)
無趣。故意以中文回答那位「實名」用戶(再說一遍,這個詞是shizhao說的)(話說你連什麼叫實名都不能理解吧,更何況還是比喻義),如果你連用戶名都不敢使用的話我們沒有必要把你的話,尤其是很無禮的措辭和大寫放在眼裡。請任何人都不要把這段話主動翻譯成其他文字。大家散了吧,有這時間都刷條目去。--達師218372 2012年3月23日 (五) 06:39 (UTC)
(!)意見:我早說過了,跟那些沒幾個人看的小語種有什麼好爭的,別跌了我們的身價了。別把時間浪費在這上面,還是腳踏實地,多寫幾個條目吧!——蘇州宇文宙武之太陽殿 ♨迎仙宮 ★尚書省 2012年3月23日 (五) 07:19 (UTC)
再一次去Alexa看了流量,「沒幾個人看」的語種與中文版的差距,並不比中文與英語版的差距大。英語版流量是中文的30倍,而中文與越南語的差距只有10倍而已。越南語的情況還不算最絕的,有個Winaray語(菲律賓的一個極小語種)的百科(條目數排第38),109726的條目居然有100000多條全為一個叫JinJian的維基人所建,很多完全是機器人式的地理條目。-綜合徵與一萬年留言2012年3月23日 (五) 11:02 (UTC)
各語言的瀏覽量可以參見內部統計[2],英語版約中文版的30多倍,中文版約越南語版的5倍左右。--Alexchris留言2012年3月23日 (五) 13:20 (UTC)
仔細的看了下數據,越南語的瀏覽量就和2008年時期的我們差不多,而我們上個月的瀏覽量高達2億3800萬,比總條目數排名第4位的荷蘭語的1億9900萬瀏覽量還要多。--九紫離火很高興認識你o(∩_∩)o 2012年3月23日 (五) 16:07 (UTC)
(:)回應以上各位,中文維基現在大陸有很多競爭對手,比如百度和互動,所以現在瀏覽量比較的結果是正常的,我們也因此在努力中,總有一天讓中文維基成為最棒的在線中文百科,甚至全世界最棒的百科。說「沒幾個人看的小語種」云云沒有看不起其他語種的意思,只是想提醒大家,中文維基再不濟,也是用世界第一語文寫就的,而且只有給看得懂中文的人看才有意義(英語文是世界通用語文,看的人多不奇怪),和其他語文版本的維基比較,既沒意義,也無必要。與其在這裡爭吵,不如多編輯幾個條目,大家說對吧?——蘇州宇文宙武之太陽殿 ♨迎仙宮 ★尚書省 2012年3月26日 (一) 08:56 (UTC)

像S用戶這樣用居高臨下的命令式口氣去教導人家應該如何做實在……多此一舉,那討論下面沒幾人用你看得懂的文字回應你是因為那些回覆基本都是他們為將行為合理化而進行的無力狡辯而已,S的留言只是使那邊同樣有的如Trongphu之輩只會嚷嚷的用戶愈發感到自豪感被激發出來,因為中文版有人被越南人的「高超的造條目技術」威脅到了,因為他們著急到自找上門來氣急敗壞地發命令了。Cheers!倒還通情達理,終究講了他會如何處理未譯和半譯的夾雜外文條目的問題,希望其他人幫他一併處理爛攤子。ɧ留言2012年3月23日 (五) 12:44 (UTC)

恫嚇從來都沒有用,只會被人理解為內心的恐懼和虛弱。--Gilgalad 2012年3月23日 (五) 13:16 (UTC)

中文維基的用戶是何德何能,用居高臨下的態度去對其他語言版發表意見?丟臉丟到外面去了。不過,看看這位用戶自己的頁面,看來他對於壓制不同意見的幅度和廣度進一步的提升到其他語言版去了。想想看,法語或者是德語版跑到這裡來講這種話,各位的感受是什麼?所謂己所不欲,勿施於人,有些人的基本禮貌還真是慘烈啊。-199.83.40.32留言2012年3月23日 (五) 14:19 (UTC)

什麼叫丟臉丟到外面去了?我看到別人做錯了事,不管是中文維基的人也好,外文維基的人也好,我一定會直言不諱地指出,這是我一貫的做法,難道連這也不可以嗎?還有什麼叫壓制不同意見?指出別人的錯誤也叫壓制不同意見?而且這又不是像某些其他的事情,比如是否開放IP創建條目的權限,或者是否要罷免Shizhao的管理員權限,正反方都有很多論點,很難說哪一方是最正確的,創建大量未翻譯的條目無論在哪個語言版本都肯定是不對的,這就好比殺人在哪個國家都是犯罪的一樣,難道連這也不能指出?要是在現實當中有哪個國家殺了很多人,比如盧旺達大屠殺,或者斯雷布雷尼察大屠殺,那肯定是要受到其他國家譴責的,為什麼越南語維基創建了大量未翻譯的條目我就不能譴責一下?
如果法語或者德語版跑到中文維基指出這裡的錯誤,那我們也要看情況,如果他們說得對,我們就應該虛心接受,如果他們說得不對,我們就反駁他們,或者乾脆不理他們也可以,千萬不可以用令人反感的口氣叫他們滾開,不要干涉中文維基百科。這樣才是正確的態度。--Symplectopedia留言2012年3月23日 (五) 15:20 (UTC)
我看到別人做錯了事,這句話就足夠描寫你的心態和你的問題。你何德何能告訴其他語言用戶他們做的是錯誤的,而你卻不能接受你自己可能是錯誤的。這也說明所謂的壓制是怎麼出自你的思想和行動。會不會思考,夠不夠成熟,由此可看出差異。-199.83.40.32留言2012年3月23日 (五) 17:48 (UTC)
別以為你用IP我就不知道你是誰。中文維基的條目有一兩句話不通順你都會在Wikipedia:優良條目候選投反對票,對編者大加指責,現在越南語維基百科創建了大量未翻譯的條目,你反而不讓我指出他們的錯誤,真是雙重標準啊。
你如果想繼續指責我,請便。但如果你想改變我,想讓我對別人的錯誤不管不問,不將它們指出,那我送你三個字:不 可 能。--Symplectopedia留言2012年3月23日 (五) 19:35 (UTC)
Cobrachen,仔細看蘇州兄的對話,此事爭議無意義,解決問題方法才是上策。--Walter Grassroot () 2012年3月23日 (五) 19:56 (UTC)

中文維基要怎麼作,是中文維基社群的意向,越南語要怎麼作,也是他們的社群來決定,跑到人家家裡說三道四,先不說懂不懂基本禮儀,這種不成熟的動作,以後要是形成反效果可是要整個社群承擔,搞出這種飛機可不是說個我負責(一個沒肩膀的人說再多也扛不起來)就可以了事的。不想要爭議,那就讓引起這個爭議的人去解決,而不是讓社群來滅火。別人的錯,不是另外一個人可以犯錯的理由和藉口。有人的例子殷鑑不遠啊。-199.83.40.32留言2012年3月24日 (六) 14:24 (UTC)

那你說我要怎麼做?難道要對越南語維基創建大量未翻譯的條目不管不問嗎?難道要眼睜睜地看着越南語版就用這樣極其不公平的方法超過中文維基嗎?人家有錯我們就有權指出。想想現實社會中,要是哪個公司用不公平的方法來牟取暴利,比如出售黑心商品,那任何其他公司都是可以告它的。沒錯,到越南語維基「說三道四」是會讓別人覺得反感、不舒服,但能不能做某件事要看整體的利弊,不是只看會不會讓人反感,不然的話,學校老師懲罰頑皮的學生會讓學生反感,於是就不懲罰了?公司的老闆斥責不守規則的員工會讓員工反感,於是就不斥責了?--Symplectopedia留言2012年3月24日 (六) 23:00 (UTC)
超越又怎麼樣了?天塌了?海嘯了?還是你愛的AV女優都不出片了?不公平?誰的角度,誰的標準?這個世界又有幾件事情是公平的?自比於公司的老版,你是哪個維基的老闆?你又是哪個社群的老師?為了幾個數字跳上跳下,你是把這當作期貨還是股票在玩了。不懂得三思而後行的,也就是這樣了。-71.246.222.20留言2012年3月25日 (日) 16:01 (UTC)
插一句,Symplectopedia作為一個維基人(這裡或許稱為wikimedian更為合適)在越南語維基百科提出問題,發起討論很正常啊,至少我沒覺得有什麼不可以。維基百科各語言之間最缺乏的就是這種跨語言之間的溝通,這是好事情,而不是壞事情。只是不要以某語言維基社群的名義說話就沒啥問題--百無一用是書生 () 2012年3月26日 (一) 01:57 (UTC)

繼續回到編輯中

請各位克制情緒,不要把以前的個人恩怨再重新泛到水面。我和Symplectopedia此前的種種仇讎,不比你們以上的很多人少,現在討論的如何充分利用數據庫創建條目的情況。Symplectopedia說的那些數據庫,我們尚可利用的並不多,現在做個小總結,這是集思廣益解決問題的場所,不是討論過去爭議的地方。

  1. 中國大陸鄉鎮及行政區:已經建立將近15000;尚有30000可建
  2. 生物:尚有35000可建
  3. 小行星:尚有15000可建
  4. 中文明星:3000可建
  5. 中文電影:1700可建
  6. 中文電視劇:3700可建
  7. 中文音樂專輯:7700可建
  8. 日本鐵路站:12000可建
  9. ??,請補充~ 謝謝

現在我先自作主張、按照大家最近負責的,希望能夠大家分工明確、協力合作。我個人會繼續用AWB去加速編寫。

  • Symplectopedia兄,請將您寫的那個行政區方法製作成一個單獨手冊,或作為一個個人陳述。你可以繼續加速擴建,消歧義事情,由我負責糾正。謝謝。
  • Makecat兄,請將CSV使用方法進行本土化;這點非常重要。謝謝。
  • 達師兄、Dinger兄,請繼續用你們的機器人擴建條目。此前擴建的消歧義事情,由我負責糾正。謝謝。
  • Stevenliuyi兄,請繼續用AWB創建,非常感謝!
  • Alexchris兄,以及所有想學用AWB的朋友,請電郵聯繫我,我會親自教你們使用AWB,希望增快你們的效率。
    • add by Justincheng12345-請先查看WP:AWB/UM
  • Angnation兄,請協助調查以及完善那些未建的鄉鎮區劃模板,非常感謝!
  • Gilgalad兄,請幫助研究一些其他可以拓寬的數據庫。謝謝。
  • 九紫離火兄,請抽空觀察其他維基對此的態度和對策。謝謝。
  • Snorri兄,如閣下所說,有空幫忙協助創建消歧義的,有一些簡單方法可以幫助查詢,但需要手工。謝謝。
  • 烏拉兄及其他主要負責巡查的朋友,請抽空隨機查詢我們的機器人以及半機器人的編輯是否維基化,並及時提醒。謝謝。
  • 書生兄以及其他管理員,請及時查閱AWB和機器人的申請以及批准,方便我們快速上手,加速效率。謝謝。

希望大家能夠齊心協力去做這個事情,非常感謝!GO TEAM! --Walter Grassroot () 2012年3月23日 (五) 17:02 (UTC)

大家加油!恕在下時間心力有限,又有既定的編輯計畫要執行,暫時不敢冒然參與;但也趁這個勢頭調整作法:儘量新增條目,稍緩添加內容。希望其他版面的朋友多來這裡關切,是否有必要與「捍衛戰士」(只捍衛自己的條目、自已的原則者)耗時間,值得省思。-Kolyma留言2012年3月24日 (六) 01:03 (UTC)
會使用AWB應該能看懂圖解步驟吧。小行星條目需要做程序下載數據並處理成所需的格式,手動不太現實,我得過幾個月才有空做。--MakecatTalk 2012年3月24日 (六) 02:56 (UTC)
關於CSV Loader的使用方式可以參見Wikipedia:CSV,能夠增加條目創建的效率,而Wikipedia:CSV的內容需要各位多加關注,如有錯誤麻煩修正,感謝。--Alexchris留言2012年3月24日 (六) 04:56 (UTC)
此外如果有人想創建恆星條目,中國古代的命名可參考中西對照恆星圖表。--MakecatTalk 2012年3月24日 (六) 02:56 (UTC)
感謝各位。還有船隻資料庫的說。Justincheng12345留言2012年3月24日 (六) 03:34 (UTC)
雖然不懂怎麼用機器人編輯但是我支持,單是深度我們的百科算是不錯的了,是時候擴充一下條目也方便菜鳥們編輯,想一想他們有一些資料又看到不完整的條目他們會如何?所以又數量是很重要的,還有就是一些街道,看到一些人說同名問題乾脆直接添加括號也是不錯的方法,要是一些城市的馬路都有我可以去拍拍照寫東西多方便啊!Qa003qa003留言2012年4月23日 (一) 15:45 (UTC)

中國科學院院士數據庫

我從中科院網站抓了全部院士的資料,一共1200左右,已有條目400多,還有700多可建。我覺得簡介部分應該屬於「事實新聞」,不受版權保護可以直接抄,我先處理了數學物理學部放在這裡,可以發現這些資料還是很容易格式化的。唯一問題是已故院士那部分沒有給出對應的學部。--Gilgalad 2012年3月24日 (六) 03:43 (UTC)
基本整理完畢,不包括外籍院士共544條。--Gilgalad 2012年3月24日 (六) 18:02 (UTC)
是否能做成EXCEL數據庫,分列姓名、生、卒、地、領域、簡介、鏈接、模板,這樣機器人可以批量操作。此外中科院院士均有模板鏈接,已故院士應當在維基中有對應的模板。譬如Template:中國科學院數學物理學部院士,不妨可以用鏈入頁面查詢。--Walter Grassroot () 2012年3月24日 (六) 18:50 (UTC)
學部問題解決,出生日期已經模板化。但出生地、籍貫地的地名維基化還是不太好弄。--Gilgalad 2012年3月25日 (日) 02:20 (UTC)

小行星數據庫建造討論

消歧義的討論

魚類資料庫的採用

該資料庫的中文首頁有清楚註明:「本網站採用 Creative Commons 條款作為資料使用的依據 使用的授權標章 CC-BY-NC-ND」。維基媒體計劃不接受自由度偏低的「姓名標示─非商業性─禁止改作」授權。--章·安德魯留言2012年3月25日 (日) 01:34 (UTC)
(:)回應感謝章·安德魯的熱心提醒,惟「CC-BY-NC-ND授權條款允許使用者重製、散布、傳輸著作,但不得為商業目的之使用,亦不得修改該著作。使用時必須按照著作人指定的方式表彰其姓名。」不得修改該著作是指 此即為在使用時必須清楚列明來源。維基百科也已經有相當龐大數量條目採用此一CC授權的來源,因此並非如章·安德魯所述「不接受」,亦歡迎其他高手釋疑。--安可與我對話 ☺) 2012年3月25日 (日) 02:26 (UTC)
(~)補充,依照以往經驗,再多行補充一些資料以避免誤解擴大,這邊有中央研究院民族學研究所的引用須知以及 空中大學全球資訊網的 「姓名標示-非商業性-禁止改作」範例,雖然是2.5版,但使用方式相差無幾,況且創用CC之精神就是希望能散布的各式內容資源,嘉惠自己與其它眾多的使用者,還望章公明鑑。--安可與我對話 ☺) 2012年3月25日 (日) 02:46 (UTC)
很抱歉,但是安可兄,這個不可以轉移。請看Wikipedia:版權常見問題解答,裡面明確說CC-by-nc-nd不能複製到維基百科。此數據庫不能使用。--Walter Grassroot () 2012年3月25日 (日) 04:36 (UTC)
可以用作參考資料,不可以直接移動或者稍作修改加入。另,部分有版權的內容,由於裡面淨是些表格(單純事實),著作權人只是有整理的著作權,而對數據本身沒有權利,這樣的內容可以用來做數據的。--達師218372 2012年3月25日 (日) 06:06 (UTC)

停止條目數比賽

中文維基可以抓取數據庫大量創建條目,但請停止與其它語言維基百科比賽條目數而進行的一切討論。比拼條目數而進行大量討論是幼稚、可笑的。--王小朋友留言2012年3月24日 (六) 11:16 (UTC)

+1,但此討論並非全部皆為比賽,因此可繼續。Justincheng12345留言2012年3月24日 (六) 11:31 (UTC)
我認為應該停止關於越南語的討論,雖然支持導入合適的數據庫。--王小朋友留言2012年3月24日 (六) 12:09 (UTC)
請恕我冒昧,這並非編輯戰,故我改了標題,至於此討論是有益而非一昧地比較條目數量,敝人也在思籌如何在不失條目品質情況下,進行大量新增條目。--安可與我對話 ☺) 2012年3月24日 (六) 12:52 (UTC)
這樣只需要提出如何大量新增條目,無需提到越南語。--王小朋友留言2012年3月24日 (六) 13:56 (UTC)
同感。建議將以上討論盡快存檔,停止與其他語言作比較的討論,並且另開一個Wikipedia:利用數據庫建立條目工作小組作為統籌工作的地方。--Hargau留言2012年3月24日 (六) 14:36 (UTC)

中文維基的條目數量,成長速率,參與人數等等,這些都是屬於社群內部的事情,也是社群本身決定的事情,要怎麼作,有什麼資源可以使用,這些和其他語言一點關係都沒有。所以,討論之後分配工作就好了。

可是,有需要把其他語言當作是一種對手,甚至有些壓力或者是威脅在其中嗎?更有甚者,是把這種敵意傳送出去,帶到其他語言環境中,這樣的用意是什麼?對中文維基有什麼好處,或者是壞處?一個人的獨斷獨行也很有可能破壞整個團體的形象,評價或者是作為,引發不必要的爭議,消耗已經很少的資源,到頭來,社群得到的是什麼正面性的價值或者是幫助呢?一件很簡單的事情弄得像是要打仗,有必要嗎?跑去別人家的地方說三道四,我們有這個資格嗎?上面也有不少人提出同樣的問題,或許,應該有更多人在熱血之前,考慮一下為什麼,才是對中文維基有正面的幫助。很多事情,大環境的壓力會讓一個人一定要改變,儘管社群不夠大也沒有這種壓力就是了。-199.83.40.32留言2012年3月24日 (六) 14:52 (UTC)

沒錯,越南語大量未翻譯條目等討論已經離題,應該回歸正題。這邊是想人工方式大量創建條目,若未使用機器人,手工方式大量創建條目是頗有可行,或許未能即刻有幾百條出現,但若各位能一同將已知的資料庫或者百科類型叢書著手來寫,大約在50字左右搭配英文版添加輔助資料,快速建個幾十條也應該沒問題,也建議使用子頁面來追蹤,待有餘空再行加強。--安可與我對話 ☺) 2012年3月24日 (六) 15:12 (UTC)
可是半自動創建的條目都沒參考資料的說……--鐵鐵的火大了抓兔子啦,抓兔子啦…… 2012年3月25日 (日) 08:31 (UTC)
來源就是參考資料吧。--王小朋友留言2012年3月25日 (日) 11:53 (UTC)
剛點了幾下越南語維基的隨機條目,基本兩三下就會出來一個植物條目。這樣的跛腳鴨,多麼可悲,四十萬的浮誇數字根本無法和中文維基百科比擬,我們何必大動肝火呢?何況中文維基雖然條目數進不了前十,還是能出現在www.wikipedia.org首頁的最上方,這不就說明一切了嘛。余兮留言2012年3月26日 (一) 14:19 (UTC)
剛去點了20下,最長的條目是這個  囧rz...--鐵鐵的火大了抓兔子啦,抓兔子啦…… 2012年3月26日 (一) 14:25 (UTC)
  • 對於曾瘋狂創建條目的我,對於這次討論有著「保持中庸」的個人看法。以我為經驗,我曾利用「半機器人」在大量創建「中日戰爭」小戰役及臺灣歷屆首長過程中,獲得「許多」批評,但只要符合三大支柱並超越小條目,個人以為使用任何方式書寫都無妨;畢竟「條目數量」也是種績效表徵。對了,離題一下,還有位管理員(?)因為宗教條目欠我個道歉,到現在還沒還--Winertai留言2012年3月30日 (五) 06:30 (UTC)
  • 的確一味最求數量是不對的,但是很多編者都不回做複雜的編輯和編輯新條目,機器人能解決這些問題,我最初就是在一些已有條目上做小編輯的,除了一些我們可能有譯名的星系,日本的一些小街道(可以創建大陸港澳台的街道啊),我們可以用機器人創建日韓越泰的藝人以及電視劇,韓劇和泰劇在國內的流行譯名的問題不大。至於街道嗎可以借用谷歌地區、谷歌地圖(不知道技術能不能做的到),吧主要城市的道路都添加上去,還能寫上坐標。以上說的很多都不錯!注意維基百科編輯對菜鳥比較困難,只有有了數量才能讓他們更好的編輯!Qa003qa003留言2012年4月21日 (六) 09:14 (UTC)

數據庫/資料庫

類別 名稱 仍可創立數量 內容評價/備注 網址 現況
生物 《中國動物物種編目數據庫》 35,000 未知 monkey.ioz.ac.cn/division/species1.html 回:服務器錯誤
《中國高等植物數據庫全庫》 未知 無法進入
中國經濟真菌多媒體數據庫 1300 內容表格化 http://www1.im.ac.cn/jjzj/index.htm 未開始
罕見遺傳疾病一點通 200左右 需人工處理 http://www.genes-at-taiwan.com.tw/genehelp/dbindex.asp?kid=A 已開始,新來者建議從CD倒過來輸入
台灣魚類資料庫 3087 http://fishdb.sinica.edu.tw/chi/fishlist.php 未開始
行政區劃 行政區劃網 約40,000 http://cn.quhua.org/ 進行中
天文學 JPL 100,000 http://ssd.jpl.nasa.gov/sbdb.cgi 暫停
娛樂 新浪娛樂互動資料庫 30,000以上 未知 http://data.ent.sina.com.cn 未開始
鐵路車站 未知 未統計 格式不規整、缺少可靠來源、
部分錯誤\過時
User:Liangent
人物 廣州亞運會運動員 7000多 需要人工整理;
亞洲最高水平運動員,知名度足夠
官方數據庫 卡巴迪,現代五項和棒球已有人做
地理 中國大中型水庫基本特徵數據庫 < 1622 格式化數據 http://brim.ihb.ac.cn/12/CN/12.asp User:Stevenliuyi進行中
中國河流基本特徵數據庫 350 格式化數據:河流名稱,河流長度,流域面積,年均流量,自然落差,水能理論蘊藏量,所屬水系。使用{{Geobox/river}}。 中國河流基本特徵數據庫,User:MtBell/F 未開始
中國湖泊基本情況數據庫 < 865 表格 http://www.data.ac.cn/zrzy/BA21.asp?name=%CE%DE&pass=&danwei=%CE%DE 未開始
名稱 仍可創立數量 內容評價/備注 網址 現況
飼用植物數據庫 940 內容表格化。描述較長,可能有版權問題。基本信息可能可用 http://www.agridata.gov.cn/web/DataBaseVisit.aspx?DataBase=%E9%A5%B2%E7%94%A8%E6%A4%8D%E7%89%A9%E6%95%B0%E6%8D%AE%E5%BA%93 未開始
獸類資源數據庫 58 內容表格化。描述較長,可能有版權問題。基本信息可能可用 http://www.agridata.gov.cn/web/DataBaseVisitDetail.aspx?DataBase=%E5%85%BD%E7%B1%BB%E8%B5%84%E6%BA%90%E6%95%B0%E6%8D%AE%E5%BA%93&SysId=58&order=Insert_Date&SearchWord= 未開始

北京農業數字信息資源中心還有更多數據庫。--王小朋友留言2012年4月10日 (二) 10:31 (UTC)

今天怎麼沒人創建條目?

前幾天每天都有許多人用AWB或機器人創建大量行政區劃條目,但昨天只剩下我跟User:AddisWang,今天更是一個人都沒有。User:StevenliuyiUser:Walter GrassrootUser:AlexchrisUser:AngnationUser:Bot600都哪裡去了?

雖然越南語維基聽從了我的建議,從上星期二就開始刪除未翻譯的條目,並且沒有再用機器人創建大量條目,但這只是暫時的,過一兩個星期等把所有未翻譯的條目刪除了,很可能還會再開始用機器人創建條目。因此,我們千萬不可以鬆懈下來,一鬆懈就會落後,像龜兔賽跑中的兔子那樣。

就算不會用AWB或機器人也沒關係,我上面介紹了一種不用機器人又可以快速創建條目的方法,大家不妨嘗試一下。我們現在已經創建了大約1萬5千個行政區劃條目,還剩兩萬個左右,大家再加把勁,儘快把它們全部創建。創建完中國行政區劃條目之後,我們再討論一下還有沒有什麼別的可寫,再寫兩萬條左右,這樣基本上就可以擺脫越南語的追趕了。加油!--Symplectopedia留言2012年3月27日 (二) 12:57 (UTC)

保證質量。行政區劃我準備處理,但需要先下載他們的全站數據以處理消歧義。現在下載到江蘇了(頁面上面的順序)。Liangent (留言) 2012年3月27日 (二) 13:05 (UTC)
給我推薦一些能自動處理的吧,我可以同時並行處理多個(開着它自動運行就行)。Liangent (留言) 2012年3月27日 (二) 13:07 (UTC)
說實話,當時Symplectopedia、Stevenliuyi君處理的都是出現消歧義的問題,當初山東和遼寧是誰刷的?和這兩個省的交織的消歧義最多。如果Liangent能解決消歧義納最好。--Walter Grassroot () 2012年3月27日 (二) 13:37 (UTC)
私心等Liangent兄的機器人,不過希望有人寫一下其他資料庫創建條目的流程,方便大家共同創建,不過Symplectopedia和AddisWang繼續創條目當然也很歡迎,當然也要感謝提供資料庫的相關網站。--Alexchris留言2012年3月27日 (二) 14:26 (UTC)
對啊,Liangent都說做機器人了,我頓時覺得我們這些都算是小巫見大巫了。不如我們還是老實地寫自己的領域,到時候看Liangent演大戲好了。--Walter Grassroot () 2012年3月28日 (三) 00:24 (UTC)
我真的沒時間,手抓數據庫……明天大概有一個地級市……--達師218372 2012年3月27日 (二) 15:11 (UTC)

我今天已經整理好了一個新數據庫中的數據[6],明天起可以開始創建中國境內水庫的條目了,大約可以新建1000多條。--Stevenliuyi留言2012年3月27日 (二) 15:21 (UTC)

這個不需要消歧義,又能在一頁中列出來(名稱直接搜索一個半角的百分號,另外此搜索表單貌似存在SQL注入漏洞),挺適合CSVLoader刷的。Liangent (留言) 2012年3月27日 (二) 15:52 (UTC)
直接用水库作為關鍵字已經找到1618條,還有4個名稱沒有水庫?Justincheng12345留言2012年3月27日 (二) 23:29 (UTC)
廣東金龍低庫、廣東金龍高庫、湖北付家河一庫、湖北回龍一庫。Liangent (留言) 2012年3月28日 (三) 01:37 (UTC)
哈。另建議Liangent先拿User:MtBell/D的玩一下好了....Justincheng12345留言2012年3月28日 (三) 09:35 (UTC)
咕~~(╯﹏╰)b這個格式我還得處理一下,剩下來的還沒有完全格式化。我剛發現一個中國經濟真菌數據庫,可惜只有200多條,Liangent可以牛刀小試。--Gilgalad 2012年3月28日 (三) 12:41 (UTC)
給一個樣板頁面吧。Liangent (留言) 2012年3月28日 (三) 13:19 (UTC)
已經按照cvs格式處理了信息學部和技術學部,格式為:姓名,職業,出生年,出生月日,出生地,籍貫地,畢業學校,簡介。具體條目組成請看翟明國這個例子。另外,怎麼才能讓AWB自動運行呢,必須要bot權限?--Gilgalad 2012年3月29日 (四) 06:31 (UTC)
是的。Justincheng12345留言2012年3月29日 (四) 15:09 (UTC)
話說,加入是某縣知縣。。。有沒有關注度(有來源)。--AddisWang (留言)協作計劃 2012年3月28日 (三) 13:17 (UTC)
我覺得有關注度,但暫時是存在爭議或反對意見。不妨先去做其他的,知府、布政使肯定沒有關注度問題吧。--Walter Grassroot () 2012年3月29日 (四) 06:12 (UTC)
其實是因為知縣的來源是現代漢語,古代漢語的資料倒不是看不懂,主要是不好辨認。--AddisWang (留言)協作計劃 2012年3月29日 (四) 14:21 (UTC)

應移到專頁討論

我上面已經提過一次,但沒人理會,現在只好另開一小段再重覆一次。以上討論已經嚴重偏離了「互助客棧 - 消息」的主題強烈建議另開一個Wikipedia:利用數據庫建立條目工作小組(名稱待議)作為統籌工作的地方。 --Hargau留言2012年3月28日 (三) 14:19 (UTC)

(&)建議:請不要急著移動。本議題原本即符合「消息」要件,後面的發展是也是良性的、對中文維基發展有利的。況且「消息」版面向來冷清,目前更沒有其他「實質」議題,不會造成排擠作用。若冒然由關注度高的「互助客棧」移至關注度低的「專題」,反而不是好事。建議遵守版面規矩:「x月xx日之後沒有新留言內容的議題應移動至相應頁面的討論頁或者存檔至x月存檔」,或掛個 saveto 模板即可。--Kolyma留言2012年3月29日 (四) 10:16 (UTC)
 完成 {{saveto}}模板已掛,待14天無人討論讓機器人自動存檔。--安可與我對話 ☺) 2012年3月29日 (四) 14:18 (UTC)
建議將#數據庫/資料庫存入Wikipedia:機器人建立條目小組以便指導添加工作——路過圍觀人士路過進來留個爪2012年3月29日 (四) 14:20 (UTC)

野人獻曝

  • 因為「機器人申請」現規基本上是需要維基社群同意,「如果真要不記質、以改寫方式來將合乎版權資料庫擴充中文維基條目」,我個人有個方法,就是以資料庫目錄貼至excel,再以「制式word」SQL連結到那個EXCEL。例如魚類資料庫[7]改寫成條目版式風格就是:『中文名(欄位)為臺灣常見魚類之一,其正式屬科為「科中文名(欄位)」,英文科名稱則為「科名(欄位)」,正式學名則為「學名(欄位)」。<分段>資料來源:臺灣魚類資料庫<網址>,category:臺灣魚類』;這樣方式就輕鬆達到小條目標準。我曾實做類似這樣方式,一分鐘最快可以創建兩條目。

最後重申,若以重質量立場,我對此方式並不特別推薦。除此再插個題外話,殊近「越文」百科如此瘋狂,讓我聯想到被中文維基永久封禁的一位老朋友。--Winertai留言2012年3月30日 (五) 07:04 (UTC)

可以申請AWB權限,而且這個網站有資料導出,可以轉變成相應的導入資料用AWB來創建條目,上面有AWB和CSV的教程,最近更改最近超多這些新建條目——路過圍觀人士路過進來留個爪2012年3月30日 (五) 07:14 (UTC)
嚴格上,如果「不改寫」在版權上是有些問題,例如魚類資料庫是不可用於「非營利」上的。--Winertai留言2012年3月30日 (五) 07:23 (UTC)
問題是資料庫沒有要求相同方式分享......Justincheng12345留言2012年3月30日 (五) 09:43 (UTC)
這個應該查不出copyvio吧?--鐵鐵的火大了抓兔子啦,抓兔子啦…… 2012年3月30日 (五) 12:43 (UTC)
頁面有註明「不可用於營利」的標誌。--Winertai留言2012年3月30日 (五) 14:01 (UTC)
如果有不可盈利的話,對應CC的話就有nc了,這樣可能不能使用這個數據庫了——路過圍觀人士路過進來留個爪2012年3月31日 (六) 14:29 (UTC)
是的,我也想起了影武者,要是他沒被封禁會對此事抱持什麼立場,要知道他可是鐵桿越南死忠捍衛者。--九紫離火很高興認識你o(∩_∩)o 2012年3月31日 (六) 14:22 (UTC)
那個,如果是「台灣魚類」的話未免有地域中心之嫌,除了特有魚類之外,其餘很多都是廣泛分布於東亞的吧。--達師218372 2012年4月1日 (日) 04:05 (UTC)
趕英超美,指日可待!超光速是真理留言2012年4月1日 (日) 12:55 (UTC)

越南語維基百科又開始用機器人創建條目了

今天越南語維基百科又開始用機器人創建條目了:[8]

我們這幾天創建條目的速度仍然太慢,每天只增加幾百個條目。希望大家再加快一些速度,不要被越南語追上。加油!--Symplectopedia留言2012年4月2日 (一) 15:07 (UTC)

越南人創建的條目太差勁了,就模板加一句話,貌似模板都沒有完全翻譯。這種比百毒還差啊。Merphisto留言2012年4月3日 (二) 09:05 (UTC)

簡直比我寫的某些條目都差  囧rz...--鐵鐵的火大了抓兔子啦,抓兔子啦…… 2012年4月3日 (二) 09:25 (UTC)
  • 他們弄出那些條目超級浮誇,其實越南語門綱目科屬種也有自己的名字,不都是照着拉丁語亂讀的,那些物種名稱也一樣,許多是可以翻譯的,他們竟然為了湊數直接把學名當做條目名稱,我們可不能學這個,丟死人了。余兮留言2012年4月3日 (二) 11:21 (UTC)
  • 不要管越南人了,我們還是做好自己的條目。其實我們新建的這批區劃條目質量也不高,人口、面積之類的必要信息一概沒有。--Gilgalad 2012年4月3日 (二) 15:14 (UTC)
    • 關於人口和面積,我還沒找到一個統一的數據庫。雖然在一部分鄉鎮的政府網站中可以查到該鄉鎮的人口和面積,但沒有一個統一的網站收錄所有鄉鎮的人口和面積。--Symplectopedia留言2012年4月4日 (三) 11:08 (UTC)
剛才從馬鞍山戰鬥開始,用連結做了北洋時期戰鬥幾條條目,平均一分鐘一條,請各位前往審核,這樣使用半機器人編寫的內容尚可「容忍」嗎?--Winertai留言2012年4月5日 (四) 03:15 (UTC)

今天越南語維基百科又增加2000條了:[9]。--218.166.15.59 2012年4月10日 (四) 08:06 (UTC)

越南語維基百科達到40萬(400000)條目了。--218.166.179.216 2012年4月11日 (四) 13:28 (UTC)

不要在管他們了!他們這樣做不利於他們「語言」的百科在越南發展,我們的機器人專門創建好創建的就好!Qa003qa003留言2012年4月21日 (六) 09:22 (UTC)

各位呀,寧缺,勿濫。-TW-mmm333k (Talk) 2012年4月21日 (六) 13:59 (UTC)

加上坐標

建議用機器人把新增加的地區條目用{{Coord}}加上坐標,或者人工。這樣Google Earth用戶在瀏覽到該地方時就會看到了。我想大部分人都會用Google Earth看自己的家鄉的,同時看到維基百科的條目,這樣就可能加快了豐富條目的速度,也減輕了未來逐個維護的成本。可以在[10]類似的網站找坐標。--王小朋友留言2012年4月3日 (二) 13:03 (UTC)

哪裡找這些數據呢?其實瑞典語在刷的法國市鎮雖然一個鎮就就幾百人,關注度相當不夠,而我們一個鄉鎮街道有幾萬人,但他們的條目信息比我們刷的鄉鎮條目充分多了,有歷年人口、面積、郵編、坐標,比如sv:Villenave-de-Rions。--Gilgalad 2012年4月3日 (二) 15:12 (UTC)
[11]類似的網站--王小朋友留言2012年4月4日 (三) 02:10 (UTC)
很簡單,它們有法文版可以搬運,而且不用翻譯地名。--MakecatTalk 2012年4月4日 (三) 01:44 (UTC)
昨天看到「涉縣」條目,嚇了一跳。堂堂一個河北省的縣級行政區,除了基本訊息,幾乎沒有其他內容。看起來除了量的追求之外,可能要有人專注於質的提昇。--Kolyma留言2012年4月4日 (三) 00:24 (UTC)
不是有些歷史和地理的內容麼?--鐵鐵的火大了抓兔子啦,抓兔子啦…… 2012年4月4日 (三) 02:16 (UTC)
那是剛才玖巧仔君加上去的,我發言的時候是這樣的內容。--Kolyma留言2012年4月4日 (三) 05:30 (UTC)
本來只想加幾句的,可惜停不下手了,越填越多。這個條目的鄉鎮都建有條目,很奇怪,相比之下,不少縣的條目的鄉鎮都是空白,全是紅鏈。--玖巧仔留言 2012年4月4日 (三) 07:23 (UTC)

現在先快點創建條目,避免被越南語追上,坐標、人口、面積等數據以後再慢慢添加也可以。添加數據,也是增加內容;創建條目,也是增加內容。但是,創建條目,可以增加條目數量;添加數據,不會增加條目數量。因此,「兩利相權取其重」,還是先快點創建條目吧。--Symplectopedia留言2012年4月4日 (三) 11:43 (UTC)

條目數增加後別懶惰就好。--王小朋友留言2012年4月4日 (三) 11:52 (UTC)
So far, the Zh-wiki has more bots than authors, and I lost most "entertainment" in checking "Special:NewPages". --Mewaqua 2012年4月7日 (六) 03:55 (UTC)

用google搜索各區縣的第六次人口普查數據公報,可以找到一部分街道、鄉鎮的人口數據:[12]--Gilgalad 2012年4月6日 (五) 03:30 (UTC) 有沒有可能用bot或者awb自動在行政區模板里添加人口、人口密度這些數據?如果可行,我們只要先統計數據就可以了。--Gilgalad 2012年4月6日 (五) 04:11 (UTC)

波斯文大量導入化學條目

監視列表刷得很厲害……大量複製英文版,只有名稱、化學式和摩爾質量。這種應該不要學了吧?--MakecatTalk 2012年4月6日 (五) 13:11 (UTC)

有些化合物的關注度太低了,基本沒人看,話說如何看一個條目的瀏覽量呢?Merphisto留言2012年4月7日 (六) 02:51 (UTC)

其實主要問題是那些條目除了讓人知道有那種物質以外一點用也沒有。--MakecatTalk 2012年4月7日 (六) 04:22 (UTC)
偶爾還需要查一下這個物質的性質的時候有用,不過也可以在Chemical Book裡面查。其實我發覺很多的化合物條目用的參考資料都是Sigma-Aldrich。直接把他們公司的化合物目錄照搬過來。結果我順便看了中文維基竟然沒有Sigma-Aldrich的條目,呵呵。Merphisto留言2012年4月7日 (六) 09:17 (UTC)
另外話說我最近沒事已經消除紅鏈,弄了幾十個小條目了,感覺人肉翻譯小條目不算快但沒壓力。Merphisto留言2012年4月7日 (六) 09:19 (UTC)
在條目的歷史頁面有外部工具:修訂歷史統計 · <lang> 搜索編輯歷史 · 監視者人數 · 本月頁面瀏覽統計 --九紫離火很高興認識你o(∩_∩)o 2012年4月7日 (六) 04:20 (UTC)
謝謝!Merphisto留言2012年4月7日 (六) 09:17 (UTC)

簡直想幫一些只有幾百幾千條目的語言刷條目了   囧rz...--lavixcanvas M T C 2012年4月7日 (六) 07:58 (UTC)

化學品的條目還是有用,經常上去en.wp去看。--留言2012年4月28日 (六) 02:58 (UTC)

關於機器人刷條目

我一向不反對使用機器人刷條目,但是在刷條目的時候,請大家認真一點,拜託諸位了!今天看到Liangent的行政區劃機器人所做的很多錯誤編輯,實在非常痛心,比如消歧義頁,機器人新生成的內容把所有中國大陸之外的鄉的同命條目都清除掉了,而且新內容是一些機器代碼,後人是無法解讀的,對於經常有行政區劃變動的大陸行政區來說,我們以後怎麼維護?早前也有維基人使用機器人來幫忙處理行政區劃工作的,但使用時都非常小心,使用過後還會認真去檢查。所以請不要單純貪圖速度,這樣生成的一個中文維基百科,給你們戰勝其它語言了,那也只是一個垃圾堆!--長夜無風留言—以上未簽名的留言是於2012年4月10日 (二) 02:00 (UTC)之前加入的。

  1. 技術員能做的只到這裡,部分檢查還需手動。如果樓主有興趣,完全可以參與。
  2. 由於卡在一些手工的事情上,目前整個工作還沒有做完。請不要在別人做到一半的時候就說做的不好。說實話新的鄉鎮行政區劃質量比前陣子多人手工建立要強的多。
  3. 如上所述,事情沒有做完。技術文檔會儘快寫出來,因為上傳了系統的數據所以維護並不是難事,有一些比如易名做起來非常簡單,合併或者調整則複雜一些但也很快,如果有需要也可以使用機器人修改。而且找到了每年更新的數據庫,所以這個機器人以後一年會開一次,同步更新數據。--達師218372 2012年4月10日 (二) 03:22 (UTC)

抱歉,昨晚因為忙到天亮,脾氣暴燥了一點。我覺得主要有以下幾個問題需要改進的:

  1. 那個行政區劃網的數據庫一直都在,但它也是一群人收集的,有些不準確,甚至錯誤的地方,需要慢慢核對的。比如東莞市的南城區,無論是南城區辦事處的招牌,還是東莞兩級政府的官網,都是以南城區命名的,但那裡稱為南城街道。這樣的例子有很多,我們通常都拿那個數據庫做輔助使用,然後再比對官網,以前的一些舊有條目經多人修正後,錯誤減少了很多。所以我覺得不要輕易讓機器人去動以前的一些條目和模板,只讓機器人去新增之前沒有的條目和模板。
  2. 消歧義頁也一樣,原有的消歧義頁包含了很多中國大陸以外的鄉鎮消歧義內容,但機器人把這些同名條目都清除掉了,比如機器人新生成的簡體的龍潭鄉,和繁體的龍潭鄉相比,少了台灣的龍潭鄉,而且也沒有將舊頁面重定向到新頁面,造成有兩個重複頁面。因此,我覺得處理消歧義頁時,能不能不要改變以前的舊有內容,只增加新的消歧義內容上去?
  3. 機器人新生成的模板和消歧義頁都是多重模板,而且代碼很難解讀,不方便後來者維護,要知道大陸的鄉級行政區是變換頻密的,需要經常維護的。所以希望恢復成原來的模板,簡單易維護。

最後謝謝各位的努力,請忽略我昨晚的留言。--長夜無風留言2012年4月10日 (二) 08:30 (UTC)

  1. 數據是從國家統計局來的,如東莞市#行政區劃所說,不設縣/區。
  2. 其他地區鄉鎮的問題沒考慮,等會我弄個bot爬一遍歷史版本吧。移除原有內容的是因為有區劃調整帶來列表項刪除,但又找不到具體撤銷過哪些區劃名,於是直接重寫頁面了。
  3. 模板就不是給用戶看代碼的,弄完我會寫一些手冊頁面。留有各種模板交叉引用的代碼是出於以後統計局發布新數據的時候方便批量調整。
Liangent (留言) 2012年4月10日 (二) 08:59 (UTC)
東莞這缺縣級的好像還處理的不對……得看看。Liangent (留言) 2012年4月10日 (二) 09:10 (UTC)
現實的行政區劃是很複雜的,南城區雖然是街道級別的,但東莞兩級政府就以區來命名。關於模板再舉一個例子,舊有的Template:惠州市惠城區行政區劃,下面有行字的,那裡說明了一些鎮的實際管轄狀態,而新的Template:廣東省惠州市惠城區行政區劃沒有註明這些情況,並且那個「惠州市林場」連個政府的派出機構都沒有,可能就是因為歷史問題,有個行政區劃代碼而已。這樣吧,等你們批量建完之後,我負責核對廣東省的所有內容了,包括重定向頁、消歧義頁、模板、條目頁等。你們大家也認領一些熟悉的省了,儘量通過人工把問題減到最小了。另外,廣東省的那些模板我已恢復到舊有的模板,因為去年我按廣東民政局的資料剛更新過的,到今天的話,需要更新的內容很少。--長夜無風留言2012年4月10日 (二) 09:30 (UTC)
注釋想過,但一直不知道往哪裡放好。Liangent (留言) 2012年4月10日 (二) 09:32 (UTC)
所有我覆蓋過的消歧義頁都檢查了一遍,把看起來不像中國大陸的行補回去了。Liangent (留言) 2012年4月10日 (二) 10:52 (UTC)
志松哥哥可能還不清楚中國大陸國營林場的複雜性吧。在中國大陸,國營林場本身不是政府,也不是企業,而是事業單位。由於不是政府,所以不可能設立「某某林場人民政府」。因為是事業單位,所以上級政府不會在林場設立派出機構。但是,林場又實際地管轄一片地區和一定的人口(不一定是職工),所以在算行政區劃的時候,往往又把它算在裡面。所以,只要這個林場沒有被撤銷,它就實際地擔負一定的行政管理職能,管轄一定的人口。而惠州市林場顯然還活着([13])。--罪孽深重的愛學習的飯桶 (留言) 2012年4月11日 (三) 13:25 (UTC)
擁有一個行政區劃代碼不代表就是一個行政區,比如Template:廣東省韶關市湞江區行政區劃裡面的韶關冶煉廠,它連事業單位都不是,只是一個企業。--長夜無風留言2012年4月13日 (五) 21:38 (UTC)
國家統計局的資料可能也有一些不準確的地方,比如Template:廣東省廣州市番禺區行政區劃,其中沙灣鎮已經升級為沙灣街道了,而石基鎮應為石碁鎮,可見廣東民政廳的資料。--長夜無風留言2012年4月13日 (五) 20:55 (UTC)
User:Choihei的資料有點過時啊,很多模板本來是對的,又被修改回去。如:陽江市江城區行政區劃,把我刪掉的那個海陵鎮又加了回去,而海陵鎮已經併入閘坡鎮了,政府消息見這裡肇慶市端州區行政區劃,把我更新的兩個街道,又恢復回鎮一級,政府消息見這裡。類似的情況還有很多啊,一定要認真啊,不要只求量,不重質啊!--長夜無風留言2012年4月14日 (六) 00:12 (UTC)
對不起!修改的時候忘了看歷史,也忘了查GOOGLE。以後會小心,感謝核對。-Choihei留言2012年4月16日 (一) 12:29 (UTC)

現在我們已經寫了大約25,000個中國行政區劃條目了,還差一萬多個沒寫

非常感謝User:Walter GrassrootUser:StevenliuyiUser:AddisWangUser:AlexchrisUser:AngnationUser:ChoiheiUser:Bot600,在這段時間為中文維基百科貢獻了大量中國行政區劃條目。中文版與越南語的條目數量差距已經從3月20日的24212條擴大到現在的42331條,跟瑞典語的差距也從3月16日的34662條縮小到現在的12642條。

現在已經基本完成的省份有北京、天津、上海、河北、山西、遼寧、江蘇、福建、山東、河南、湖北、湖南、海南、貴州、陝西、甘肅、青海、內蒙古、西藏、寧夏、新疆。部分完成的有黑龍江浙江安徽江西廣東雲南。尚未開始的有重慶吉林四川廣西

既然已經開始了,那就要把它做完,不要半途而廢。我從明天開始一直到4月24日都很忙,沒時間上維基百科,因此這項工作就交給大家了。我希望4月24日回來時,能看到中國所有的鄉級行政區劃條目全部寫完。加油!--Symplectopedia留言2012年4月11日 (三) 12:23 (UTC)

最近刷的反而找麻煩。見我的talk。Liangent (留言) 2012年4月11日 (三) 12:27 (UTC)
所以有要以機器人創建條目嗎?--Alexchris留言2012年4月11日 (三) 12:42 (UTC)

英語維基百科以前大量創建條目的機器人

en:User:Kotboten:User:Polbot,好像也是從別的語言導入當地的行政區劃,分別創建了5萬多、將近4萬個條目,我們可不可以參考一下?還有些見這裡:en:Wikipedia:List of Wikipedians by article count(名字有bot的就是),好像英文版以前也用機器人建了不少條目。此外有些內容是直接複製美國聯邦政府的資料,我們是沒法用的。--MakecatTalk 2012年4月12日 (四) 13:00 (UTC)

還可以參考Mass content adding--百無一用是書生 () 2012年4月13日 (五) 02:44 (UTC)

能否以機器人導入中國各縣市地區生產總值?

如題,中國各縣市地區生產總值已經創建完成,例如新疆各縣市地區生產總值列表等,能否直接導入表格中的數據至各個縣市地區條目?--Alexchris留言2012年5月16日 (三) 12:46 (UTC)

關於刷條目

大家如果有可用的數據庫可以放到Wikipedia:機器人建立條目小組

另外那些已有的裡面哪些沒有人在做,我來創建一些。最近瑞典語快追上了。--MakecatTalk 2012年6月12日 (二) 01:42 (UTC)

數量如浮雲,何需重視,拿第上又不會得獎,還是提升現有質素吧--Dragoon16c留言2012年6月12日 (二) 14:40 (UTC)
瑞典語維基正在創建法國各省市鎮條目,由於翻譯是一大難題,中文版是否可以先用拉丁名稱批量建立類似條目(同時加注template:notchinesetitle),然後再人工移動到中文名稱?。此外,雲南數字鄉村網站上有雲南省全部13431個行政村的面積、人口、氣候等詳細信息,建議通過機器人來抓取並建立相關條目。而且該網站的網址為分層結構,利用起來較方便,如雲南省大理大理市下關鎮玉龍村的相關信息網址為[14],而且該網站數據為政府部門提供,較具權威性,也能解決關注度問題。--Tianyamm2留言2012年6月13日 (三) 15:28 (UTC)
地名翻譯的話,可以下載「世界地名翻譯大辭典」的txt版本,然後搜索匹配的中文譯名。裡面應該有大部分的法國市鎮名。—Snorri留言2012年6月13日 (三) 16:07 (UTC)
我看過這本書,裏面法國的市鎮也只是很小一部份,最多不會超過1000。余兮留言2012年6月14日 (四) 15:22 (UTC)
那真是可惜了。另外還有93版的《世界地名譯名手冊》和《21世紀世界地名錄》可以試一試,不過似乎沒有txt版本。—Snorri留言2012年6月14日 (四) 15:32 (UTC)
如果手動翻譯出所有市鎮的中文名字,之後是不是就可以大批量自動創建了?法語的名字我倒是可以幫助翻譯。余兮留言2012年6月14日 (四) 15:41 (UTC)
還要找資料庫。INSEE有比較全的,但需要付費,完全公開的還沒見過。—Snorri留言2012年6月14日 (四) 15:48 (UTC)
直接把法文維基的模板移過來可行嗎?配上手工翻譯的市鎮名。余兮留言2012年6月15日 (五) 13:50 (UTC)
大概可以做到這個條目的水平,技術上我不大懂,應該可行。—Snorri留言2012年6月15日 (五) 13:58 (UTC)
鄉村的抓了也沒處寫,或者有這些數據的就建成條目?Liangent留言 2012年6月13日 (三) 17:13 (UTC)
反對大量使用拉丁文名稱做條目名。可以接受在非條目空間臨時建立,然後有中文名在移過去。--鐵鐵的火大了留言2012年6月14日 (四) 13:03 (UTC)
我認為,我們暫時沒有必要建議行政村。因為在大陸行政機構,最低一級的行政單位是鄉鎮級;再往下走就是村名自治組織,這些組織本身結構並非完全穩定;此外同名的條目的村名簡直太多,消歧義也會也壓力。
其次,作為與中文相近的瑞典維基,其實是由Nasko一人創建法國市鎮條目,按照他的速度和容量,還有將近12000的條目有待建造。如果沒有找到確切的數據庫可以對照,中文暫時不必勉強建造法國市鎮。如果只是擔心被瑞典語超過,只要保證我們抵達495000就可以甩開。--Walter Grassroot () 2012年6月13日 (三) 21:03 (UTC)
要不我寫個程序來根據英文創建一些化學條目,內容上不會比波斯文刷的那些少。另外機器翻譯不能翻句子,翻譯那些簡短詞組還是可以的,比如Chembox中的「odorless」、「decomposes in alcohol and organic solvents」等。--MakecatTalk 2012年6月14日 (四) 06:27 (UTC)
難道被瑞典語超過,中文維基就末日嗎?--Dragoon16c留言2012年6月14日 (四) 13:38 (UTC)
不如先預編一個,然後大家具體討論看是否應該推廣。我仔細看了一下瑞典語編寫的機器人條目,他們的質量還是很高的。我認為在機器人編輯速度上,AWB的技術並不是難事,中文維基上至少有20人懂得如何用AWB批量操作。主要問題,仍然是我們在信息收集過程中如何能夠整合數據庫,以使得條目變得相對豐富、質量較高。AWB的精髓是在於高效的自動化或半自動化的批量編輯,創建條目本身並非是最重要的。瑞典維基的Nasko在編輯法國市鎮的條目,質量是遠超過其他維基百科。他設計的機器人,無論條目、模版、製圖、歸類,都是非常高超的;這也給我個人一個提醒,如果我們一開始不利用這些好資源或者技術,而草率地批量編輯,以後修改完善那些條目(特別是那些我們此生無緣經過的法國小鎮)更遙遙無期了。在兩個月前我們在和越南語比賽時候,越南語急於求成而建造了將近十萬爛尾條目,就是一個教訓。同時我們必須承認我們也創建了許多質量不高的中國鄉鎮條目,我也因為實驗各種機器人編碼也草率創建上千小作品。至於翻譯,我認為的確是一個不甚重要的,只要技術熟練,我相信這裡很多朋友願意用一天時間翻譯幾百個地名,而後的批量創建應該只是一個小時的事情。AWB的技術多少是由瑞典語引薦給中文的,他們比我們更清楚,相距4000條目,彼此的排名轉化也是瞬息之間。--Walter Grassroot () 2012年6月14日 (四) 20:12 (UTC)
我都套着模板寫目的之一就是為了方便後來補其他數據(至少方便把數據和現有條目對應,在有歧義的情況下),本來還想用更多inline模板的,Hat600不讓我用。Liangent留言 2012年6月14日 (四) 20:20 (UTC)
已有國外的網站有星表的詳細數據,是否可考慮把某星等以內或肉眼可見的星星篩選出來,全給建上去。--Jasonzhuocn留言2012年6月17日 (日) 07:18 (UTC)
請提供網址。--MakecatTalk 2012年6月17日 (日) 07:20 (UTC)
我對這方面並不了解,不清楚從那一個星表下手比較適合,希望能有專家出來參與。第谷第二星表條目有附一個多語言的星表索引網站 http://cds.u-strasbg.fr/ --Jasonzhuocn留言2012年6月17日 (日) 07:31 (UTC)
試着用AWB建了幾個法國市鎮的條目(如阿邦庫爾阿布塞孔艾伯阿勒訥萊馬賴),各位可以看下有沒有什麼問題。--Stevenliuyi留言2012年6月18日 (一) 13:51 (UTC)
挺好的。—Snorri留言2012年6月18日 (一) 14:00 (UTC)
 Waihorace覺得這挺贊的。--HW 2012年6月18日 (一) 14:02 (UTC)
 Walter Grassroot覺得這挺贊的。--Walter Grassroot () 2012年6月18日 (一) 20:28 (UTC)
 Makecat覺得這挺贊的。--MakecatTalk 2012年6月19日 (二) 05:29 (UTC)
這幾個譯名靠譜?Abscon的發音接近於阿普斯孔,阿布塞孔的「塞」從哪裡來的?--Gilgalad 2012年6月19日 (二) 17:25 (UTC)
的確「斯」的發音更像一點,不過官網上的翻譯是阿布塞孔。—Snorri留言2012年6月19日 (二) 17:41 (UTC)
譯名的話,我優先採用的是《世界地名翻譯大辭典》中的翻譯,如果沒有的話就在網上找是否有比較通用或正式的譯名,再沒有的話就用《外國地名譯名手冊》中的法漢譯音表手工翻譯。我法語雖然只學過點皮毛,但幸好法語的發音比較規則,應該問題不大。--Stevenliuyi留言2012年6月20日 (三) 08:46 (UTC)
我也覺得應該翻譯成阿普斯孔,阿布塞孔和法語發音差的太遠了,沒有把單獨s翻譯成塞之例。另外,Allennes也應該翻譯成阿萊訥吧,不是阿勒訥,這裡發音是/lɛ/。余兮留言2012年6月20日 (三) 12:18 (UTC)
另外,世界地名翻譯大辭典裡面,一些地名中可以意譯的部分是意譯的,比如xxx-les-Bois、xxx-sous-Bois就翻譯成森林xxx,而不翻譯成萊博瓦、蘇博瓦;bourg結尾的一般翻譯成堡;xxx-sur-Seine一般翻譯成塞納河畔xxx;xxx-sur-Mer一般翻譯成濱海xxx,而不翻譯成xxx敘爾邁爾。不過,這本書裡面也不是特別統一標準,xxx-les-Marais翻譯成沼澤xxx還是直接音譯就沒有定規。余兮留言2012年6月20日 (三) 12:24 (UTC)
「阿勒訥」的譯名也是來自annuaire-mairie.fr這個網站,估計是把閉音的e譯為開音的e了。需要統一一下,到底應該優先採用有來源的譯名,還是優先保證譯音的準確性。--Stevenliuyi留言2012年6月20日 (三) 14:30 (UTC)
據我所知,這些法文網站經常找一些當地華人幫助翻譯,弄出來的中文詰曲聱牙,譯名隨心所欲,沒有定規,不能作為參考。雖說是「名從主人」,但當地人自己也不知道中文到底該怎麼翻譯,只好請人代勞了,所以這種翻譯的好壞完全取決於代勞者的水準。我們還是以兩岸四地的標準作為根據比較好。余兮留言2012年6月20日 (三) 14:46 (UTC)
竊以為《世界地名翻譯大辭典》是不錯的標準,一些地名雖然辭典中沒有收錄,但可以根據其他地名中類似音節的翻譯做出標準翻譯。比較容易造成混亂的,比如lon譯為隆,ron譯為龍,lo譯為洛,ro譯為羅,大部分還是有章法可循。如果網上個別來源翻譯明顯不符合發音,那還不如我們根據翻譯規則自己翻譯,這也不能算原創研究。余兮留言2012年6月20日 (三) 14:49 (UTC)
按照通用的翻譯規則修正譯名也是個不錯的選擇。可以先建立《世界地名翻譯大辭典》裡面有的市鎮條目,然後按照通用的翻譯規則或《世界地名翻譯大辭典》內類似地名的類比來確定其它的地名譯名。—Snorri留言2012年6月20日 (三) 17:06 (UTC)
我先建了一個省的市鎮(諾爾省市鎮列表),譯名儘量參照《世界地名翻譯大辭典》的標準,但因法語水平所限,翻譯錯誤在所難免。如果有人發現誤譯之處希望能夠指出。--Stevenliuyi留言2012年6月23日 (六) 04:24 (UTC)
(&)建議可以試著加入導航模板(Navbox)。--Alexchris留言2012年6月22日 (五) 04:02 (UTC)

剛發現英文版也刷過很多小行星條目:[15]。--MakecatTalk 2012年6月23日 (六) 06:01 (UTC)

返回專案頁面「机器人建立条目小组/存档1」。