行間註釋
在語言學和教育學中,行間註釋是放置在行間的一系列簡短解釋(例如定義或發音),如在原文和其翻譯之間的行間註釋。進行註釋後,每行原文都會有一行或多行相應的轉錄文本,稱為行間註釋文本(interlinear glossed text,IGT)—簡稱行間註釋。這種註釋幫助讀者理解原文與其翻譯之間的關係以及原語言的結構。行間註釋最簡單的形式是對原文的逐字翻譯。
歷史
編輯行間註釋在很長一段時間內被用於各種目的。其中一個常見用法是為雙語教科書提供註釋,以輔助語言教育。這種行間註釋旨在明確原文的意義,而不嘗試正式模擬原語言的結構特徵。
這種註釋偶爾也不是通過行間佈局表達,而是通過目標語言和元語言中單詞的編號表達。威廉·馮·洪堡對古典納瓦特爾語的註釋就是一個例子:[1]
1
ni-
1
ich
2
c-
3
mache
3
chihui
2
es
4
-lia
4
für
5
in
5
der
6
no-
6
mein
7
piltzin
7
Sohn
8
ce
8
ein
9
calli
9
Haus
這種「行內」風格允許示例在文本流中包含,並且目標語言的單詞順序可以以近似目標語言句法的順序書寫。(在這裏的註釋中,「mache es」從相應的源順序重新排列,以更自然地近似德語句法。)即便如此,這種方法仍然要求讀者「重新對齊」源形式和目標形式之間的對應關係。
19世紀和20世紀的現代方法採取了垂直註釋的方式,將相同的逐詞內容排列,使元語言詞條垂直排列在源語言詞條下方。在這種風格中,給定的示例可能如下呈現(這裏是英文註釋):
ni-
I
c-
it
chihui
make
-lia
for
in
to-the
no-
my
piltzin
son
ce
a
calli
house
"I made my son a house."
這裏單詞順序由目標語言的句法決定。
最後,現代語言學家採用了使用簡寫語法類別標籤的做法。2008年出版的一本書重述了這個例子,如下標註:[2]
ni-c-chihui-lia
1SG.SUBJ-3SG.OBJ-mach-APPL
in
DET
no-piltzin
1SG.POSS-Sohn
ce
ein
calli
Haus
這種寫法更為緊湊,但閱讀起來也更麻煩。不過這種方式較少依賴於元語言的語法結構來表達目標形式的語義。
在計算領域,Unicode特殊字符中提供了特殊文本標記,用於指示行間註釋的開始和結束。
結構
編輯儘管IGT格式沒有正式規範,但萊比錫註釋規則[3]是一套旨在儘可能標準化格式的指南。
用於語言學的行間文本通常包含以下部分的一些或全部,通常按從上到下的順序排列:
以及
- 自由翻譯,如果語言結構差異過大而無法逐行對應,則可以放在單獨段落或相對頁面上。
例如,以下台灣閩南語句子被轉錄成五行文本:
以及
- 5. 英文翻譯:[4]
(1.)
(2.)
(3.)
(4.)
goá
goa1
goa2
I
iáu-boē
iau1-boe3
iau2-boe7
not-yet
koat-tēng
koat2-teng3
koat4-teng7
decide
tang-sî
tang7-si5
tang1-si5
when
boeh
boeh2
boeh4
want
tńg-khì
tng1-khi3.
tng2-khi3.
return.
(5.) "I have not yet decided when I shall return."
逐詞對齊. 根據萊比錫註釋規則,標準做法是將目標語言中的單詞與元語言中的對應單詞左對齊;這種對齊可以在(1-3行)和第(4行)之間看到。
逐詞素對應. 在詞內層面,可分割的詞素在例子和註釋中都用連字符分隔。在例子和註釋中應該有相同數量的連字符,如下例所示:
Gila
now
ferma
farm
hamišaluǧ
forever
güǧüna
behind
'Now their farm will not stay behind forever.'
語法類別標籤. 在amuqʼ-da-č中,詞幹(amuq)被翻譯為對應的英語詞根(stay),而屈折詞綴(da)和(č)分別表示將來時和否定。這些屈折詞綴被註釋為FUT和NEG;萊比錫註釋規則中可以找到廣泛使用的語法類別標準縮寫。
一對多對應關係. 當單個目標語言元素對應多個元語言元素時,用句點分隔它們。[3]例如:
çık-mak
come.out-INF
'to come out'
非顯性元素. 如果逐詞素註釋(中間行)包含的元素在例子中沒有顯性元素對應,標準策略是在目標語言文本中包含一個顯性的「ø」,[3]它像顯性元素一樣用連字符分隔:
puer-ø
boy-NOM
'boy'
重疊的處理類似於詞綴,用波浪號(而不是標準連字符)將複製的元素連接到詞幹上:[3]
bi~bili
IPFV~buy
'is buying'
標點
編輯在行間形態註釋中,各種形式的標點用於分隔註釋。通常情況下,單詞與其註釋對齊;在單詞內部,當文本和其註釋中都有邊界時使用連字符,當邊界僅出現在其中一方時使用句點。也就是說,文本和其註釋中應有相同數量的單詞由空格分隔,單詞和其註釋中也應有相同數量的連字符分隔詞素。這是基本系統,可以普遍應用。例如:
'我迅速離開了房間。'
當源語言中的一個單詞對應於註釋語言中的一個短語時,可以使用下劃線代替句點,如go_out-PFV,儘管在其他情況下仍然會使用句點,例如希臘語oikíais house.FEM.PL.DAT 'to the houses'。
然而,有時可能需要更細緻的區分。例如,附着詞可以用雙連字符(或為了便於輸入,用等號)而不是連字符分隔:
je⹀te⹀aime
I⹀you⹀love
'我愛你。'
導致不連續的詞綴(中綴、環綴、插入詞綴等)可以用尖括號分隔,重疊用波浪號分隔,而不是用連字符:
sulat
write
su~sulat
未然式~write
s⟨um⟩ulat
⟨施事觸發.過去時⟩write
s⟨um⟩u~sulat
⟨施事 觸發⟩未然式~write
(參見詞綴了解其他例子。)
無法輕易分離出的詞素,例如德語變音,可以用反斜槓而不是句點標記:
unser-n
our-DAT.PL
Väter-n
father\PL-DAT.PL
(德語)
'給我們的父親們'(Väter '父親們'的單數形式是Vater)
萊比錫註釋規則中還展示了一些其他有時會使用的慣例。[3]
行間註釋資源
編輯目前已經有將世界上數百種語言的IGT數碼化的資源。[5]
行間文本在線數據庫
編輯行間文本在線數據庫 (ODIN) 是一個包含超過1500種語言的20多萬個行間註釋實例的數據庫,這些實例是從學術語言研究中提取出來的。[6] 該數據庫的構建分為兩個階段:自動構建和人工校正。自動構建階段本身分為三個步驟完成:
- 首先,使用搜尋引擎(如Google、Bing)檢索可能包含行間註釋的學術文獻。查詢包括與語言學研究相關的術語,例如語法詞素(如"NOM"——主格的縮寫;"3SG"——第三人稱單數的縮寫)。
- 其次,使用機器學習中的序列標註方法,對提取文檔中的每一行進行標記,判斷其是否屬於行間註釋行。
- 第三,給每個行間註釋實例分配一個語言名稱(如塔加洛語)和一個ISO 693-3語言ID。語言名稱和ID是使用自然語言處理中的共指解析模型自動分配給行間註釋的,這些行間註釋實例被標記為從學術文獻中提取時所使用的語言名稱(和ID)。[6]
在人工校正階段,數據庫創建者手動校正自動構建階段第二步中序列標註方法發現的行間註釋實例的邊界。然後,在數據的第二次和第三次遍歷中,分別驗證了語言名稱和語言代碼。
行間註釋實例範圍 | 語言數量 | 行間註釋實例數量 | 行間註釋實例比例 |
---|---|---|---|
>10,000 | 3 (1) | 36,691 (10,814) | 19.39 (6.88) |
1000-9999 | 37 (31) | 97,158 (81,218) | 51.34 (51.69) |
100-999 | 122 (139) | 40,260 (46,420) | 21.27 (29.55) |
10-99 | 326 (460) | 12,822 (15,560) | 6.78 (9.96) |
1-9 | 838 (862) | 2,313 (3,012) | 1.22 (1.92) |
總計 | 1,326 (1,493) | 189,244 (157,114) | 100 (100) |
行間註釋實例的自動處理
編輯現已有利用行間註釋資源(如行間文本在線數據庫)的自然語言處理模型。[7][8]
自動標註
編輯例如,自然語言處理系統已經被開發出來自動產生語境標註。[7]
mi-s
你-GEN
ħumukuli
駱駝
elu-ab-ok'ek'-asi
我們.OBL-ERG.1.PL-偷-過去否定
anu
是.否定
'我們沒有偷你的駱駝。'
給定單詞分段線(上述第一行)和自由翻譯線(上述第三行),任務是生成中間的標註線,包括詞幹翻譯(例如,mi:你)和與詞綴對應的語法類別標籤(例如,a:ERG.1.PL)。自然語言處理中的序列預測模型已被用來執行此任務。[7] 這個任務的難度有兩個因素貢獻:
- 翻譯不一定與單詞分段線對齊(例如,駱駝是翻譯中的最後一個詞,但是在單詞分段線中是第二個詞)。
- 單詞分段線中的一些詞在標註中有多個對應(例如,anu:是.否定)。
從標註中自動發現形態結構
編輯研究人員使用語境標註來獲取客體語言(即被標註的語言)的形態範例。為了從語境標註中自動創建形態範例,研究人員為每個標註中的詞幹創建了表格,並為標註中的每個語法類別(例如,ERG)創建了一個(可能為空的)插槽。例如,給定下面的標註句子:[7]
將為詞幹pobeja創建一個範例,並為PFV.PST.SG.FEM和PFV.PST.SG.MASC的每個插槽創建一個(可能為空的)槽位:
插槽 | 屈折 |
---|---|
PFV.PST.SG.FEM | pobeja-la |
PFV.PST.SG.MASC | ? |
PFV.PST.SG.FEM的槽位將被填充(因為在語境標註數據中觀察到了),但PFV.PST.SG.MASC的槽位將為空(假設沒有其他語境標註實例包含按PFV.PST.SG.MASC語法類別屈折的pobeja)。可以使用統計機器學習模型來填補缺失的條目。[8][9][10][11][12]
參見
編輯參考文獻
編輯- ^ Lehmann, Christian. 逐行形态翻译的指导. Geert Booij; Christian Lehmann; Joachim Mugdan; Stavros Skopeteas (編). 形态学。屈折与词构的国际手册. 語言與交際科學手冊 2. 柏林: W. de Gruyter. 2004-01-23: 1834–1857.
- ^ Haspelmath, Martin. 语言类型学与语言普遍性:国际手册 . Walter de Gruyter. 2008: 715. ISBN 978-3-11-011423-2.
- ^ 3.0 3.1 3.2 3.3 3.4 Bickel, Balthasar; Bernard Comrie; Martin Haspelmath. 莱比锡标注规则。逐词形态标注的约定。. 語言學系 – 資源 – 標註規則. 2008年2月 [2010-06-30]. (原始內容存檔於2017-12-24).
- ^ 例子來自高積煥和陳邦鎮的《A Basic Vocabulary for a Beginner in Taiwanese》
- ^ Georgi, Ryan. 从Aari到Zulu:利用逐词标注文本进行大规模多语言语言工具的创建 (學位論文). 華盛頓大學. 2016.
- ^ 6.0 6.1 Xia, Fei; Lewis, William; Wayne, Michael; Slayden, Glenn; Georgi, Ryan; Crowgey, Joshua; Bender, Emily. 丰富逐词标注文本的大规模多语言数据库. 語言資源與評估. 2016, 50 (2): 321–349 [2021-12-15]. S2CID 2674996. doi:10.1007/s10579-015-9325-4. (原始內容存檔於2024-03-26).
- ^ 7.0 7.1 7.2 7.3 Xingyuan, Zhao; Satoru, Ozaki; Anastasopoulos, Antonios; Neubig, Graham; Levin, Lori. 利用翻译进行贫资源语言的自动逐词标注. COLING. 2020,. 第28屆國際計算語言學會議論文集: 5397–5408 [2021-12-15]. S2CID 227231816. doi:10.18653/v1/2020.coling-main.471 . (原始內容存檔於2024-09-27).
- ^ 8.0 8.1 Moeller, Sarah; Liu, Ling; Yang, Changbing; Kann, Katharina; Hulden, Mans. IG2P:从逐词标注文本到范例. EMNLP. 2020,. 第2020屆自然語言處理方法會議論文集(EMNLP): 5251–5262 [2021-12-15]. S2CID 226262296. doi:10.18653/v1/2020.emnlp-main.424 . (原始內容存檔於2024-10-03).
- ^ Silfverberg, Miikka; Hulden, Mans. An Encoder-Decoder Approach to the Paradigm Cell Filling Problem. Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, Belgium: Association for Computational Linguistics. 2018: 2883–2889 [2024-06-04]. S2CID 53082616. doi:10.18653/v1/D18-1315 . (原始內容存檔於2021-10-17) (英語).
- ^ Wu, Shijie; Cotterell, Ryan; Hulden, Mans. Applying the Transformer to Character-level Transduction. Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: Main Volume. Online: Association for Computational Linguistics. 2021: 1901–1907 [2024-06-04]. S2CID 218718982. arXiv:2005.10213 . doi:10.18653/v1/2021.eacl-main.163 . (原始內容存檔於2024-09-26) (英語).
- ^ Nicolai, Garrett; Cherry, Colin; Kondrak, Grzegorz. Inflection Generation as Discriminative String Transduction. Proceedings of the 2015 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Denver, Colorado: Association for Computational Linguistics. 2015: 922–931 [2024-06-04]. S2CID 14929030. doi:10.3115/v1/N15-1093 . (原始內容存檔於2019-02-20) (英語).
- ^ Bhargava, Aditya; Kondrak, Grzegorz. Leveraging supplemental representations for sequential transduction. Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Montréal, Canada: Association for Computational Linguistics). 2012: 396–406 [2024-06-04]. (原始內容存檔於2024-06-04).
外部連結
編輯- The Leipzig Glossing Rules: Conventions for interlinear morpheme-by-morpheme glosses (頁面存檔備份,存於互聯網檔案館)
- Interlinear Glossed Text Standards (E-MELD)
- Interlinear Glossed Text Levels (E-MELD)
- Towards a General Model of Interlinear Text (E-MELD)
- Interlinear Morphemic Glosses
- Glossing Ancient Languages and Texts (頁面存檔備份,存於互聯網檔案館). A forum for recommendations on the Interlinar Morphemic Glossing of ancient languages as attested in ancient manuscripts.
- Online Interlinear of Biblical Greek Scriptures (New Testament) text (頁面存檔備份,存於互聯網檔案館)
- ODIN - The Online Database of INterlinear text (頁面存檔備份,存於互聯網檔案館)
- Latinum Interlinear Method page (頁面存檔備份,存於互聯網檔案館) Listing of older interlinear and construed texts, mostly from Latin or Ancient Greek and mostly to English
- Ernest Blum, "The New Old Way of Learning Languages" (頁面存檔備份,存於互聯網檔案館), The American Scholar, Autumn 2008.