Wikipedia talk:繁简处理/档案3

開始吧!

如果不訂下一明確的目標,我想我們永遠都解決不了這個問題。

要是不想繁簡分站,利用軟體作自動的繁簡轉換是最好的辦法。我不懂編程,但我對這軟件的大概運作也有一些想法:

  • 中文WP只儲存一個版本的文章。(不一定只是繁體或只是簡體,可以是兩者混合的)
  • 當有新用戶來到,我們就先按他的IP去推測他最有可能要的版本。
  • 但這一定會有錯,所以我們可以讓他手動選擇,然後利用cookies記下他所要的是哪個版本。
  • 如果是已登入的用戶,他當然可以在“個人設定”中設定他要看的版本。
  • 當決定了要拿的是哪個版本後,我們就利用軟件把我們數據庫中的那篇文章作機器轉換,然後輸出。
  • 用戶編輯時無論輸入繁體或是簡體都可以。
  • 儲存時無需轉換,直接儲存進我們的繁簡混合版本。
現時:
混合版本(數據庫)
|下載
混合版本(用戶)
|編輯、上載
混合版本(數據庫)
利用軟件:
混合版本(數據庫)
|轉換
單一版本(數據庫)
|下載
單一版本(用戶)
|編輯、上載
混合版本(數據庫)

有關“轉換”:

  • 多數字是簡單的一對一模式(維-维;書-书),問題不大。
  • 不是一對一的字,則按其前後字來推測適當的轉換。(以后以後,但皇后則不轉換)
  • 對於各地對同一事物用詞不同的情況,可以在轉換時先令軟件查閱各地華人詞彙對照,把整個詞語作轉換。(軟體-软件)
  • 人手改正功能:有時候軟件會做不到我們理想的效果,而必須要用人手去改正,這些人手改正的資料可以meta資料的形式儲存在數據庫中。

有人有相關的編程知識嗎?有甚麼困難?或者我們應該發電郵到wikitech-I和intlwiki-I以尋求意見? --Lorenzarius 17:26 2003年10月17日 (UTC)

非常棒的idea!Lorenzarius,您做程式設計師應該沒有問題了! :D --Samuel 01:53 2003年10月18日 (UTC)
支持!可以先到intlwiki提出来。--Formulax 09:13 2003年10月18日 (UTC)


非常同意这种做法。因为繁体中文和简体中文本来就不是中英文这样两种截然不同的语言,相信大多情况下,大家能同时看懂两种的,所以它们没有在同一页面上以重复的意思出现的必要,同样的话左右或者上下分列看起来也比较奇怪。
所以按照个人的习惯——简体或者繁体,让每个人看到统一的页面是相当好的做法——就像一些网站一样,分简体中文和繁体中文两个版本。
我是新用户,编辑的有不当处,请告诉我,谢谢。考拉 11:58 2003年10月18日 (UTC)
至于界面则可以有简繁体两个locale,供用户选择。--Formulax 03:34 2003年10月19日 (UTC)
突然想到一个问题,就是关于标题的问题。例如在一个混合版本中有一个链接数学,在转换到繁体版本后变成數學,如果數學原來是一個空的頁面,那麽就不能通過數學連接到数学了。除非把數學作爲数学的重定向。這樣的話,就有一個問題,標題應該是用簡體字命名呢還是繁體字命名呢?因爲現在很多條目只有簡體字版本,沒有繁體字版本,那樣轉換成的繁體版本就會后很多空連接。如果使用簡體字命名,則所有相應的繁體字條目變成指向簡體字的重定向。但是這樣的話,所有的繁體條目都會見上這樣一句奇怪的繁體字句子“重定向自數學。”(以數學為例)。況且也可能會使人覺得使用簡體字是偏向大陸的標準。--Samuel 09:13 2003年10月23日 (UTC)

我覺得比較好的做法是, 當使用者新增或更動內容時同時存成兩份, 一份為簡體, 一份為繁體, 原因是轉換簡/繁體是需要花費計算成本的, 如果在存檔時轉換, 只要花費一次的轉換時間, 如果在瀏覽時才轉換, 則需要花費 n 倍時間(例如, 有一個頁面同時有100個人瀏覽, 系統要做一百次相同的轉換後才傳給使用者; 就算沒在同一個時間瀏覽, 看看google被查詢次數最多的keyword排行榜, 前幾名動不動就是幾萬次, 這樣等於每天要做相同的轉換幾萬次, 轉換的成本比單純的讀取成本還高, 所以不合效率); 而且各存一份, 一來互有備份, 二來管理方便, 保證儲存的資料繁簡版一致, 三來, 與內容不相關的頁面, 可以個別製作, 如首頁; 這種方式也容易實現! 希望各位參考參考! --骨董 22:29 2003年12月3日 (UTC)

这样当然也可以,但是维基是开放给人任意编辑的,一个人编辑完后储存到数据库,还是要进行转换的,不过这样似乎比只存一个版本更方便一点,而且确实能省下一点时间——毕竟看的人比写的人多。--

我的解决方案是:用兼容简繁体的编码方式储存内容,比如:utf8,这样一来储存的内容可以简繁并存,当在繁体页面就用函数:utf8--->big5,在简体页面就:utf8----->gb;这样就可以了! 这个网站就是这样解决的:lation.com 学术翻译网 Formulax 01:19 2003年12月4日 (UTC)


现阶段的做法

由于现在一时还不能彻底解决这个问题,我建议采用消除歧义的办法暂时解决繁简体的问题。现在用XX/繁之类的标题看起来实在奇怪,还是用XX (繁)得标题看起来好一些。另外,现在一些语言版本的wiki可以使用zh-cn和zh-tw对中文的繁简体版本进行链接,我们是否也可以采用这种形式暂时解决问题。只要更新m:LanguageZh.php就行了。当然,我认为最终的解决办法还是使用自动转换程序来实现繁简体的自动转换,别无他法,除非分站,我实在不想看到这种情况,也没有必要。--Shizhao 01:03 2003年10月21日 (UTC)

利用消歧義作繁簡問題的暫時處理辦法已經是我們現時的辦法了,請看Wikipedia talk:繁简处理/档案1#繁體頁的命名。 --Lorenzarius 09:24 2003年10月28日 (UTC)
用[XX (繁)]已經是我們現時的辦法了?討論沒看到如此,不是[XX/繁]嗎?--Menchi 05:37 2003年10月29日 (UTC)
您誤會了我的意思,其實XX/繁也可以是消歧義的一種,只不過我們用“/”作繁簡消歧義的符號,以別於一般消歧義。(即kt2所說的“將所有繁簡版本名稱是一樣的條目的轉成一種特別的"消含糊"”) --Lorenzarius 03:51 2003年10月31日 (UTC)

簡繁體並存有一個網站做的很好,站長也可以去參考一下: 海峽網 -Dowba

無法進入:“The page cannot be displayed”。--Menchi 04:36 2003年11月2日 (UTC)

移动自Wikipedia:聊天

中文简繁体

英文wikipedia现在通过使用zh-cn和zh-tw实现对中文wp上的繁简体网页的跨语言链接,我总觉得不太合适,我认为应该开发繁简体自动转换的功能,这是最好的解决办法。现在中文wp的条目数中有很大一部分是繁体条目,条目的计数并不能反映中文wp的真正条目数量--Shizhao 01:13 2003年9月11日 (UTC)

甚麼?(震驚@o@)相關的頁面在那兒?
(我一直以為繁簡自動轉換才是中文WP解決繁簡問題的最好辦法,為甚麼現在……) --Lorenzarius
我只在英文版上发现了这个功能,其他版本的不知道,中文版的还没有实现。它主要用来实现其他语言与繁体页面和简体页面之间的跨语言链接,并不能解决中文版的繁简体问题的实质。现在zh仍然可以使用,你可以去英文版上试试。--Shizhao 01:35 2003年9月12日 (UTC)

请看这里Luoyang--Shizhao 13:30 2003年9月12日 (UTC)

這功能誰設計的?--Menchi 23:45 2003年9月12日 (UTC)
不太清楚--Shizhao 01:14 2003年9月13日 (UTC)

其實如果那條鏈接是顯示作“简体中文(Simplified Chinese)”而不像現在的“中文(简体)(Simplified Chinese)”會更好看。 --Lorenzarius 09:46 2003年9月13日 (UTC)

感觉很不好看。不知道开发员在开发时有没有与中文版的管理员进行过沟通? --Samuel 09:55 2003年9月13日 (UTC)
不会呀,效率很高的,无多余的信息,像网状一般的知识系统,用起来很方便。Dersonlwd 15:01 2003年10月25日 (UTC)

我感覺到有一個問題(這個問題對使用簡體字的朋友並不明顯),那就是:現時繁簡互換的技術還不太成熟。很多接觸過這個問題的朋友都聽說過“繁簡互換”並不是一個 1-1-mapping 而是一個 n-n-mapping。一個簡體字可以對應多個繁體字之餘,一個繁體字(特別指 Big5 碼)亦可以對應多個簡體字。再者,現時這個選字的過程是自動化的嗎?還是定死了某一特定的選詞?我認為,還是先讓繁簡內容並行,再看看怎樣發展?石添小草 05:42 2003年10月20日 (UTC)

基本上繁体对简体转换比较方便,因为一般一个繁体字多数只有一个简体字对应,但是简体转繁体就比较复杂,有些简体字可以对好几个繁体字。--Formulax 05:51 2003年10月20日 (UTC)

看了zh.wp的网页代码,用的是utf-8编码。在这里面怎么简繁转码呢?--Xyb 09:55 2003年11月6日 (UTC)

结束移动 * 结束移动

感覺怪怪的

我是香港的繁體用戶,覺得現在很多介面都是簡體,感覺怪怪的。有時候又繁簡混在一起,又是怪怪的。 我發覺在UTF8之下有些字在繁簡都是同一個code(e.g. 蒙古),所以現在的(繁)(简)選擇方法行不通,因為都是指向同一頁的。 --tomofumi


php提供了iconv

我前几天问了人,给我的答复是:

php提供了对iconv的包装,可以用这个进行转换,而无需自己进行繁简映射。至于同时显示繁简,我这个人觉得只要找一种编码,能同时覆盖繁、间编码,如utf-8等,就应该可以吧。

他的blog:-{R|http://hedong.3322.org/}-

不知道对大家有没有帮助?--Shizhao 08:23 2003年11月12日 (UTC)


建议

今天继续向人求教,收获颇多。

  1. 繁简体一对一的转换比较容易实现,我认为可以采用这个建议
  2. 原页面为utf-8,用iconv将页面从utf8转成gb18030给大陆用户,转成big5给其它用户。要是转换后的页面也要求是utf8的话,就对刚才的结果再做一次逆转换。

并且作了从utf8转成gb18030测试,基本成功。希望这些能对中文wikipedia有所帮助。

另外这里有几个关于汉字编码的文章:[1][2][3][4]

还有几个关于PHP的中文网站,可以向他们请教一下[5][6]

--Shizhao 14:16 2003年11月12日 (UTC)

我觉得这个方案不好,还是统一在utf-8下比较好,因为这里有好些别的语言文字,采用纯汉字的gb18030或big5不能照顾到它们。直接在utf-8下转换汉字的繁简体比通过几次转换要好。--Mountain 15:12 2003年11月12日 (UTC)
外文直接用號碼(글)像英文維基,這樣會接觸問題嗎?--Menchi 00:32 2003年11月13日 (UTC)
但是如此的话编辑的时候就非常不方便呀;相反如果采用utf-8,我们就可以直接编辑跨语言的各种文本。再者象글一类的表示在HTML语言规范中称为Numeric character references,它们要符合ISO-10646标准,而ISO-10646标准跟unicode是兼容的。我觉得用utf-8编码是目前最佳的选择。繁简转换是另外一个问题,不涉及编码形式的变化。--Mountain 02:06 2003年11月13日 (UTC)
我也觉得继续使用utf-8比较好

简化字标准

中华人民共和国的汉字规范主要有:

此外,新加坡1976年公布了《简体字总表》,马来西亚1981年公布了《简化汉字总表》,它们都依据于1964年《简化字总表》。

这几个规范应该是我们作繁简转换的依据。--Mountain 15:12 2003年11月12日 (UTC)

Title

關於我上面提到的標題的問題有什麽方法嗎?是統一使用簡體命名,還是繁體命名?--Samuel 16:39 2003年11月12日 (UTC)
我觉得标题是繁体条目用繁体标题,简体条目用简体标题,对于繁简体区分不了的标题,采用自动生成的消歧义页面。这样应该存在算法把条目内的链接也链到正确的页面。-Mountain 00:17 2003年11月13日 (UTC)
不,我不是指现在,我是指在使用新的自动转换程式以后,应该怎样处理繁体简体标题问题。--Samuel 05:34 2003年11月13日 (UTC)
标题是否也能设计为自动转换繁简体的形式呢?对于繁简体中同一事物的不同称呼,我认为以简体为主,其他可以做重定向。简体名称的使用还是大多数。--Shizhao 05:43 2003年11月13日 (UTC)
的确,标题也可以自动转换,但是一些条目,例如北大西洋公约组织北大西洋公約組織,如果繁体的条目是空的话,那么即使在整篇文章转换成繁体后,其中的繁体页面的连接北大西洋公約組織就还是空页面,而相应的简体页面中的北大西洋公约组织却是存在的。这样会很不方便。如果可以确定,例如统一使用简体命名,那么在繁体转换的时候,所有的链接页面都转换成为这样:[[简体名称|繁體名稱]]就可以了。虽然条目命名是简体的,但是内容却可以根据用户的选择转换成繁体。--Samuel 05:58 2003年11月13日 (UTC)

你说的方法好像太麻烦了,我们可不可以根据用户习惯或设置,整个站点都变为繁体或简体,这样就没有你说的问题了--Shizhao 06:14 2003年11月13日 (UTC)

如果是那样的话,就没有必要讨论自动转化程式的问题了吧?--Samuel 06:16 2003年11月13日 (UTC)
哦,我误会了,我大概就是那个意思,所以我想问一下应该使用简体,还是繁体?--Samuel 06:17 2003年11月13日 (UTC)
哦,还有就是,如果全部使用简体或繁体的话,似乎对输入不方便,我想主要还是标题的问题,至于其中的内容,可以使用繁简体混合的。--Samuel 06:26 2003年11月13日 (UTC)
如果差很多的話,简繁都用,用括弧分開:[新西兰(紐西蘭)]。但是用全形括弧,非消含糊的半形括弧。 --Menchi 06:41 2003年11月13日 (UTC)
或许我们不一定要规定标题一定用简体或繁体,哪个版本先建立就用哪个,如北大西洋公约组织北大西洋公約組織北大西洋公约组织先有内容,我们就用北大西洋公约组织,而如果是繁体的标题先有内容,就用繁体的标题。--Formulax 07:08 2003年11月13日 (UTC)
标题可否也繁简体自动转换?--Shizhao 07:36 2003年11月13日 (UTC)
那么转换程序就要先搜索数据库,看哪一个版本存在,然后再决定在转换文本的时候选择什么版本吗?那么过程就要增加一步:

转换内容的时候:
扫描文章的所有内部连接,扫描数据库文件;
如果用户使用简体版本,但是数据库只有繁体版本,则把连接转变成[[繁体版本|简体名称]],反之亦然;
当用户点击连接时,在根据用户的选择,反复上面的转换操作。
--Samuel 09:52 2003年11月13日 (UTC)

分辨繁簡體

如果用程序,我們可以怎樣分辨繁體中文字和簡體中文字?可以從它們的UTF-8碼上看出來嗎? --Lorenzarius 09:37 2003年11月13日 (UTC)

可不可以这样,在保存到数据库时,将标题和内容全部转换为同一种形式,如简体或繁体,在从数据库中读出时,再转换为用户习惯的繁简体形式?--Shizhao 10:54 2003年11月13日 (UTC)

连接方面的问题,也如此处理可以吗?--Shizhao 10:56 2003年11月13日 (UTC)

我的意思是,程序能如何分辨一個字是繁體還是簡體? --Lorenzarius 13:45 2003年11月13日 (UTC)
当然可以从UTF-8上分辨出一个字是否是繁体或简体,主要的依据就是《简化字总表》和《第一批异体字整理表》。《简化字总表》可以见[7]。汉字的繁到简的转换并不是多到一的,只能说大部分是多到一的,还有一些要根据上下文判断。比如“干”是“乾”(gān)的简化字,但是“乾坤”的“乾”(qián)并不简化。--Mountain 04:37 2003年11月14日 (UTC)
真巧!我昨天才寫Li Chengqian。我原本差點寫成Chenggan!不過像到應該沒有人名字那個菜…--Menchi 04:54 2003年11月14日 (UTC)
我想没有必要让程序分辨是繁体还是简体,用户需要什么版本,就直接转换后显示该版本。比如如果需要简体,则进行繁体-->简体转换,而原版本中即使是简体,转换后也还是简体。--Formulax 05:06 2003年11月14日 (UTC)
讚成!根本不需要兩個版本!Wshun 05:14 2003年11月14日 (UTC)

我们现在讨论的就是如何把繁简体两个版本变为一个统一的版本--Shizhao 05:46 2003年11月14日 (UTC)

我覺得現在的問題大部分已經解決了,正如上面Lorenzarius討論的方法一樣,使用混合版本。現在我想主要的問題是關於條目命名的問題。--Samuel 07:20 2003年11月14日 (UTC)
條目命名,另用先到先得罷。第一個寫的有名命權,其他的當作 redirect 罷! Wshun 06:10 2003年11月28日 (UTC)
这是一个大问题。我们应该加强讨论命名常规--Shizhao 06:27 2003年11月28日 (UTC)

下面討論移動自Wikipedia:聊天

个整认为認

同一条目中简繁体共存的问题

由于最近机器的问题,换了一个浏览器Konqueror,可能是我配置的问题,繁体字显示不出来。因此才发现有些条目中主体文字是简体编纂的,但有些段落和句子就出现了繁体字样。这个问题是不是得注意一下呀?!如果可能的话,建议搞个robot先检索一下zh.wp,看看那些页面都存在这些问题:正好趁现在wp速度快了;-) --Xyb 06:27 2003年11月6日 (UTC)

我以前在IE5.0下也碰到过这个问题。如果你能解决这个问题,非常欢迎。现在我们一直找不到能解决繁简体问题的人。--Shizhao 06:44 2003年11月6日 (UTC)
我现在考虑可以先用wget, curl之类把zh.wp镜像下来,然后用本地程序逐个排查。我想这种工作用 shell、perl、python这类工具完成更方便快捷一些。--Xyb 08:20 2003年11月6日 (UTC)
能否开发一个繁简体共存的脚本,彻底解决这个问题?请参看Wikipedia talk:繁简处理--Shizhao 08:29 2003年11月6日 (UTC)
我不太明白你说的“繁简体共存”的意思,是想在该条目中就地转码吗?我是这样想的:先检查以前的都有那些条目中简繁混杂,然后参考Wikipedia talk:繁简处理寻找合适的方案处理:或统一成一种charset,或分割成一个条目的两个版本“简/繁”。--Xyb 08:39 2003年11月6日 (UTC)

正如你所说的就地转码,这样就不需要一篇文章同时存在两个版本,可以根据用户的语言习惯自动转成繁体或简体,而且应该可以输入文章时,繁简体混合输入,而显示则或为简体,或为繁体。有这个可能性吗?--Shizhao 08:43 2003年11月6日 (UTC)

那就是说需要php的码元转换代码了?这是我不懂的语言。我记得台湾一个很老的Linux网站有根据用户charset自动提供合适码元的功能,不知道他那个功能有没有放出来。我先查一查吧。不行我也学习一下php :-) --Xyb 08:56 2003年11月6日 (UTC)
检查了一下,发现wp运行在linux系统上。其实linux里很容易进行gb2312<->big5等各种各样的转码,现在最常用的就是iconv了。不过,我还发现wp的页面charset是utf8,这我就有些糊涂了:因为gb2312和big5都可以很容易转到utf8,这时是不是应该先把条目内容统一转到gb2312(或者big5),然后再转到utf8交给客户端去显示呢。--Xyb 02:21 2003年11月10日 (UTC)

你的建议可以贴到Wikipedia:邮件列表中去,现在我们中文版没有开发者--Shizhao 03:04 2003年11月10日 (UTC)

英文水平一般。什么时候有中文maillist呀?--Xyb 04:12 2003年11月10日 (UTC)
用utf8是应该的,因为这里有许多种语言的百科全书,采用utf8可以统一编码方案。我们讨论的繁简转换是在unicode范围之内的转换,因为unicode字符集很大,既包含了简化字也包含了繁体字。我对Apache的结构不是很了解,是不是可以用filter来作这个工作?--Mountain 04:17 2003年11月10日 (UTC)
哦,这样呀,这就不好说了。现在的简繁转换大多是基于一些映射表,基本都是不同码表之间的。在utf8里的简繁字码对应表我还没有见过,理论上倒是可以把现有GB2312<->GBK的转成utf8编码,不知实际作起来行不行。--Xyb 04:36 2003年11月10日 (UTC)

*移動結束

其實在這裡討論比較方便.--Menchi 05:27 2003年11月15日 (UTC)

參考以下幾個看看吧(希望有幫助):

]

還有就是有人也有寫了相關的機器翻譯的PERL模組,也有只用APACHE的,和前面幾位大大提的是不大一樣的版本,請來這裡至找到「簡繁轉換模組」這個地方看看:


现在维基百科已经完全简体中文化了,繁体字呢?--Samuel 06:25 2003年12月7日 (UTC)

什麼行式好呢?-Menchi 12:26 2003年12月7日 (UTC)

是不是可以把繁简体的讨论放到meta上去,比如这里m:Meta.Wikimedia:Babel#Traditional and Simpified Chinese UI--Shizhao 12:52 2003年12月7日 (UTC)
返回到项目页面“繁简处理/档案3”。