「リサーチ・ナビ」に関するアンケートを実施しています。 皆さまのご意見をお聞かせください。アンケートに答える

トップアジア諸国の情報をさがす刊行物>オスマントルコ語の書誌データ作成と検索に関する諸問題: アジア情報室通報 第9巻第2号

オスマントルコ語の書誌データ作成と検索に関する諸問題: アジア情報室通報 第9巻第2号

アジア情報室通報 第9巻第2号(2011年6月)
林瞬介(国立国会図書館アジア情報課)

1 はじめに

国立国会図書館は、2009年にアジア情報室が所蔵するトルコ語図書の書誌データをアジア言語OPACで公開した。公開された書誌データは約1,100タイトル、このうち約140タイトルはオスマントルコ語図書である1

多くの人にとって、オスマントルコ語というのは、あまり聞きなれない名前であろう。

オスマントルコ語とは、ごく大雑把にいえば、ラテン文字(ローマ字)で表記される現代トルコ語に対して、アラビア文字で表記される古い時代のトルコ語をいう。下に、同じ単語の綴り字の違いを示した(表1)。

  オスマントルコ語 現代トルコ語
歴史 تاریخ tarih
経済 اقتصاد iktisat
図書館 كتبخانه kütüphane

表1 オスマントルコ語と現代トルコ語

右から左へとローマ字とは逆向きに綴る上に、筆記体のように文字と文字が連結する性質を持つために、かつてはコンピューター上で表示させるのが困難だったアラビア文字も、最近は日本で市販されている一般的なパソコンに搭載されたOSでも容易に扱えるようになった。アジア言語OPACも、オスマントルコ語の書誌データをアラビア文字で入力して収録している。

ただ、オスマントルコ語は現代では使われなくなった言語であるために、書誌データの作成と検索の上で支障となるいくつかの問題を抱えている。

筆者はこれまで、その問題について「アラビア文字資料整理作業者ミーティング」(東洋文庫研究部イスラーム地域研究資料室、2010年3月5日)などの機会で簡単に報告してきた2

この小文では、従来口頭で報告してきた諸問題をまとめて紹介する。今後オスマントルコ語図書を取り扱う図書館員や研究者の参考となれば幸いである。

2 オスマントルコ語の特徴と文字

オスマントルコ語は、学術的に定義すると「オスマン帝国の領域で用いられたトルコ語の文語」である。

文字の面から見ると、アラビア文字で表記されることが現代トルコ語との最大の違いであって、オスマン帝国崩壊後の1928年にトルコ共和国によって実施されたローマ字への文字改革をもって廃止された言語である、ということができる。

歴史的には、13世紀に始まったアラビア文字表記によるトルコ語の文語が、15世紀末にアラビア語、ペルシア語の要素を取り込んで形成された。

オスマントルコ語に対して19世紀以来行われた言文一致、言語改革、文字改革を経て形成された現代トルコ語との間では、文字だけでなく、語彙や構文の面でも大きく異なる3

ここでは、今後の議論の都合上、文字の特徴についてのみ詳しく触れておく。

オスマントルコ語で使用される文字は、アラビア語で用いられるアラビア文字基本28文字に、追加の文字をいくつか付け加えたものである(表2)。これに対して、現代トルコ語では、トルコ語の発音に基づいてローマ字を改良した29文字を用いる。

表記上のもうひとつの大きな違いは、オスマントルコ語は、短母音を表記しないアラビア語の表記ルール(正書法)をまねて母音を完全には表記しないのに対し、現代トルコ語では、発音される母音は必ず表記されることである。オスマントルコ語の30以上ある文字はすべて子音を表すのに使われるが、現代トルコ語で子音を表す文字は実際の発音に基づいた21文字しか存在しない。

このように、現代トルコ語はオスマントルコ語の正書法を単純にローマ字に移し替えたものではない。

3 非ローマ字資料の「原綴」と「翻字」

(1) 図書館の蔵書目録におけるローマ字翻字

図書館の蔵書目録では、タイトルなどの書誌事項は資料に表示されているとおりの情報を、原文どおりの綴り字(原綴)で転記して記述することが原則である4

しかし、ローマ字を使用する西洋諸国では、図書館はローマ字タイプライターを用いて蔵書目録を作成してきたから、キリル文字、ギリシャ文字、アラビア文字、漢字、仮名文字、ハングルなどの非ローマ字(Non-Roman scripts)の書誌事項を原綴で転記することは現実問題として不可能であった。そこで、非ローマ字資料の目録作成では、原綴の文字を、発音が似たローマ字に置きかえるローマ字翻字(Romanization)が行われ、ローマ字に置換した綴り字によって書誌が記述されてきた。

蔵書目録がコンピューター処理されるようになってからも、USMARCなどの機械可読目録(MARC)では、MARC-8など、同時に扱える文字の数が限られた文字コードが用いられており、非アラビア文字の入力・表示は難しかった。このため、非ローマ字資料の目録作成には、やはり翻字が必要であった5

日本語の機械処理化には早くに対応してきた日本でも、日本語以外の非ローマ字に関する事情は欧米と大きく異ならず、非ローマ字資料の書誌データは、ローマ字翻字によって作成されてきた6

オスマントルコ語の文字 現代トルコ語で対応する文字 ALA-LC翻字規則の翻字表
ا - -
ب b, p b
پ p p
ت t t
ث s
ج c, ç c
چ ç ç
ح h
خ h
د d, t d
ذ z
ر r r
ز z z
ژ j j
س s s
ش ş ş
ص s
ض z ż
ط t
ظ z
ع - '
غ g, ğ ġ
ف f f
ق k
ك k, y k
g g
ڭ n ñ
ل l l
م m m
ن n n
ه h h
و v v
ي y y

表2 オスマントルコ語の文字と翻字

(2) ローマ字翻字の統一規則

ある図書館において、ローマ字翻字に用いる規則がばらばらだと、蔵書目録の中に同じ単語が出てきても規則ごとにローマ字綴りが異なってしまい、資料の検索や管理に支障が生じる。そこで、規則を統一する必要がある。

米国では、翻字の統一規則として、米国議会図書館(LC)と米国図書館協会(ALA)が共同でALA-LC翻字規則(ALA-LC Romanization Tables)を定めている。ALA-LC翻字規則は図書館目録におけるローマ字翻字の事実上の国際標準として受け入れられており、日本の図書館でも一般的に使われている。

ALA-LC翻字規則の特徴は、ローマ字に翻字された綴り字から原綴が再現できることを重視した綴りの還元性と、原綴を実際に読みあげた際の発音に近づけることを重視した音声の復元性という、二つの原則である7

言語・文字の種類ごとに制定された個々の翻字規則は、研究者の間で使われている多様な翻字方法をもとに改良したものである。

ただ、利用者にとっては図書館向けにカスタマイズされた翻字規則は使いやすいものとは言い難く、しばしば検索には困難があると感じられている8

4 オスマントルコ語のローマ字翻字

(1) ALA-LC翻字規則におけるオスマントルコ語

オスマントルコ語のローマ字翻字ルールは、ALA-LC翻字規則の1997年版を最新とする9

その最大の特徴は、文字の一対一の対応関係を定める翻字表(Romanization table)を参考として用意はしているが、原則として表は使用しないとしていることである。オスマントルコ語のローマ字化は、現代トルコ語の正書法に基づいて、単語の綴り字を現代トルコ語における同一の単語の綴り字に置換する「翻語(Conversion)」により行う(適用規則(Rules of application)の2)。

例えば、「歴史」を意味する「تاریخ」という単語の場合、ALA-LC翻字規則に付属する翻字表に基づいて翻字形を作成すれば「tārīḫ」となるが、現代トルコ語における同一の単語である「tarih」の綴り字をローマ字翻字形として用いることになっている(表3)。

このルールは音声の復元性に優れ、現代トルコ語の話者や学習者にとっては理解しやすい。その反面、オスマントルコ語の正書法とは対応関係にない現代トルコ語の正書法に基づいた結果、ローマ字綴りから原綴を再現することが困難になった。

例えば、「tarih」の「t」が「ت」と「ط」の、「h」が「ح」と「خ」と「ه」のいずれであるかは、ローマ字翻字形からは判断することができない。

このように、オスマントルコ語のALA-LC翻字規則は、ローマ字から原綴への綴りの還元性を放棄しているという点で、きわめて例外的な規則になっている。

オスマントルコ語の原綴 翻字表に基づく翻字 現代トルコ語に基づく翻語
تاریخ tārīḫ tarih
اقتصاد iḳtiṣād iktisat
كتبخانه kütübhāne kütüphane

表3 翻字表に基づく翻字と翻語

(2) 書誌データの作成と検索における問題点

ALA-LC翻字規則におけるオスマントルコ語翻語ルールは、書誌データの作成や検索の面からは、同じ単語の綴り字の統一が取りづらいというきわめて大きな問題がある。

発音を重視した現代トルコ語正書法による綴り字は、人や時代ごとにゆれがある。オスマントルコ語の単語をローマ字綴りがゆれないよう翻語するためには、翻語において準拠すべき正書法を固定することが重要である。

ところが、正書法の間のゆれの固定について、適用規則の4は、綴り字のゆれがある場合は、公式の出版物における綴り字を選択するとしか定めていない。参照すべき出版物の例として1940年代から1970年代に発行された5種類の辞書類(表4)といくつかの参考文献を挙げるものの、これらの出版物の間での異動があったとき、どの出版物を優先すべきかの指針さえも存在しない。このため、書誌データの作成者は、綴り字のゆれのうちどれを優先するか、自らの裁量で選択するしかない。

この結果、翻語された単語のローマ字綴りがばらばらになってしまうことがある。

ALA-LC翻字規則の下では、オスマントルコ語資料の利用者は、ローマ字綴りのゆれを考慮して書誌データを検索しなければならない。

Büyük lûgat ve ansiklopedi (Meydan Larousse). 1969-1973.

A Turkish-English dictionary. 2nd ed. 1957.

Redhouse yeni Türkçe-İngilizce sözlük. 1968.

Yeni imlâ kılavuzu. 3rd ed. 1967. (And other editions)

Türk ilmi transkripsyon kılavuzu. 1946.

表4 ALA-LC翻字規則に指定された辞書類

(3)「翻語」に起因する問題への対処法とその問題点

日本国内の図書館の蔵書目録では、オスマントルコ語の翻語に伴うローマ字綴りのゆれを回避するために、いくつかの対処法がとられている。

一つ目は、規則付録の翻字表(表2)を利用するものである10。翻字表を用いれば、原綴の文字と一対一に対応するローマ字を使って翻字することができる。

ただし、オスマントルコ語では一部の母音の表記が省略されるから、この方法でも母音をローマ字で表記する際のゆれは排除できない11。また、ALA-LC翻字規則では翻字表は原則として使用しないこととしているため、全面的に翻字表を使用することは規則を無視した例外措置になってしまう。

二つ目は、出版物の書誌事項を網羅的に収録した特定の目録を参照し、そこで用いられているローマ字翻字形を利用するものである。オスマントルコ語にはいくつかの網羅的な出版物目録が存在しているが、特に研究者の間ではÖzegeの『旧トルコ文字出版物目録12』が著名で、東洋文庫研究部イスラーム地域研究資料室の収集資料データベースなどで採用されている13

ただし、Özegeの目録に記載されたオスマントルコ語のローマ字は固定された翻字規則に基づいてはいないため、綴り字は同じ目録の中でもゆれがある。加えて、ALA-LC翻字規則の適用規則5および6に定められた表記の細則とも一致しないので、目録にある綴り字をそのまま翻字として使用することは翻字の基準として適当ではない。また、Özegeの目録はALA-LC翻字規則が翻字の情報源として挙げる公式の出版物ではないことも疑問が残る点である。

三つ目は、図書館の書誌データ作成者が自館で翻語を行う際に優先すべき辞書を表4のうちから一点に絞り込んで、綴り字の統一を保つことである。アジア言語OPACではこの方法をとったが14、優先する辞書に掲載されていない単語もあり、ゆれを完全に排除できなかった。

なお、これらの対処方法も、あくまでひとつの図書館が独自に定めたローカルルールとしてしか運用できないため、日本のNACSIS-CATや、アメリカのOCLCのように多数の大学・研究図書館が参加する総合目録では、書誌データの提供館ごとに異なった綴り字が採用される事態が起こりうることに留意しなければならない。

5 オスマントルコ語のアラビア文字原綴

(1) アラビア文字原綴による書誌作成の状況

利用者にとってのALA-LC翻字規則のなじみの薄さや、ローマ字綴り字のゆれを回避するためには、原綴によって書誌データを作成し、原綴自体による検索を実現するしかないと考えられる15

オスマントルコ語のアラビア文字原綴による目録作成は、世界的にあまり行われていない。現在、世界の図書館ではUSMARCを拡張して、世界のあらゆる文字が扱えるUNICODE準拠の文字コードであるUTF-8の使用を実現したMARC21が普及しているが、母国語以外の非ローマ字資料の書誌データ作成では、依然としてローマ字翻字を行う図書館が多いようである。

例外は日本である。NACSIS-CATは、2000年に格納する書誌データの文字コードをUTF-8に変換し、そのフォーマットを共用する日本の大学図書館では、非ローマ字資料の原綴による書誌データ作成が可能となった。現在では、アジア情報室や東洋文庫イスラーム地域研究資料室もNACSIS-CATのフォーマットを利用して多言語対応を行っており、オスマントルコ語の書誌データには、UTF-8の文字コードにより原綴が入力されている。

(2) 書誌データの作成と検索における問題点

原綴による書誌データ作成は翻字にまつわる問題を劇的に解決すると言えそうだが、実はオスマントルコ語に限っていえば、原綴の入力においても、書誌データの作成と検索の上での問題は完全に解消されていない。

アラビア文字は現代でもアラビア語のほか、ペルシア語、ウルドゥー語、カシミーリー語、プシュトゥー語など、多くの言語で用いられているが、漢字の字体が日本と中国で異なるように、言語ごとに別々の字体(異体字)が多く存在している(表5)。

数多くある異体字のうち、どれを書誌データの作成で採用するかは、言語ごとに決まったルールに従う。ところが、オスマントルコ語は100年近く前に人為的に廃絶された死語であるため、綴り字を表すために使用すべき字体が定まっていない。

オスマントルコ語の綴り字を表すためにどの異体字を使用するかもまた、書誌データの作成者が自らの裁量で選択するしかない。東洋文庫の蔵書目録やNACSIS-CATに収録されたオスマントルコ語の書誌データは、作成者ごとにばらばらの異体字が混在している状態である。

それでも、例えば日本語と中国語のような漢字の異体字の間では、同じ文字から派生した異体字同士を同じ文字とみなす正規化処理を行うことで、異体字間の検索の互換性を確保することができる。

ところが、アラビア文字においては、言語によって異体字が異なった音素を表すこともあって、ほとんど正規化処理は行われない。せっかくオスマントルコ語をアラビア文字の原綴で入力しても、利用者が検索窓に入力した文字と、書誌データに含まれる文字が異体字であったときは、検索することができないのである。

この問題は深刻で、筆者の経験上では、異体字を考慮した原綴の検索よりも、ローマ字綴りのゆれを考慮した翻字の検索のほうが、まだ容易に感じられるほどである16

オスマントルコ語の字体 文字の名称
ك ك ARABIC LETTER KAF
ڭ ARABIC LETTER NG
ک ARABIC LETTER KEHEH
گ ARABIC LETTER GAF
ه ه ARABIC LETTER HEH
ہ ARABIC LETTER HEH GOAL
ۀ ARABIC LETTER HEH WITH YEH ABOVE
ۂ ARABIC LETTER HEH GOAL WITH HAMZA ABOVE
ي ي ARABIC LETTER YEH
ى ARABIC LETTER ALEF MAKSURA
ی ARABIC LETTER FARSI YEH

表5 オスマントルコ語で使用される主な字体

6 今後に向けて

オスマントルコ語の書誌データが抱える問題は、図書館員による書誌作成の面からも、図書館利用者による検索の面からも、一筋縄ではなく完全な解決は難しい。

あるいは、オスマントルコ語資料を多数所蔵するトルコの図書館の例が参考にできるのではないか。

すでに本誌第9巻第1号(2011年3月)で報告したとおり、筆者は2010年にトルコの図書館事情を調査する機会を得た17。その際、いくつかの図書館に対して書誌データ作成で用いる基準について質問したが、いずれも目録規則は英米目録規則第2版(AACR2)、翻字はALA-LC翻字規則であるという回答であった。

管見の限り、トルコにおいてもオスマントルコ語の書誌は「翻語」のローマ字で作成されていて、翻字のゆれの問題は解消できていないようである。残念ながら、国内外を見渡してもこの問題に関する適切な解は見当たらないとしか言うことができない。

残された可能性は、新たな翻字・原綴の規則を策定し、国際標準として提案していくことが考えられそうだが、これは筆者の手に余る課題である。この問題に関心のある図書館員や研究者から解決に向けた提案が行われることを期待して、本稿の結びとしたい。

(はやし しゅんすけ)


1. 「アジア言語OPACへのウルドゥー語図書、トルコ語図書書誌データの追加」『アジア情報室通報』7(4), 2009, p. 24.

2. このミーティングの報告は下記を参照。
http://www.tbias.jp/php/association_detail.php?year=2009S

3. 林佳世子「オスマン語」『岩波イスラーム辞典』岩波書店, 2002, p. 227.

4. 例えば、日本の図書館でも洋書の目録規則として広く用いられている英米目録規則第2版(AACR2)では、記述総則の1.0Eで資料に表示されているとおりの言語と文字による記述を求めている。
Anglo-American cataloguing rules, 2nd ed., 2002 rev., 2005 update, Chicago: American Library Association, 2005, p. 1-8.
なお、1978年版日本語訳では次の箇所である。
『英米目録規則. 第2版日本語版』東京: 日本図書館協会, 1982, p. 16.

5. アメリカの場合、USMARCで使われるMARC-8に漢字、仮名、ハングル、アラビア文字、ヘブライ文字などを含めることで、日本語、アラビア語、中国語、朝鮮語、ペルシア語、ヘブライ語、イディッシュ語の文字を扱うことができたが、文字の入力や表示には専用の端末が必要であった。

6. 大学図書館や東洋文庫、国立国会図書館アジア資料室(現・アジア情報室)など、非ローマ字資料を多く所蔵する図書館では、原綴を用いた目録作成も行われていたが、原綴はコンピューターで処理することができなかったため、カード目録や冊子目録に留まっていた。

7. 三沢伸生「アラビア文字表記資料の翻字問題」『アジア資料通報』35(3), 1997, pp.1-7.

8. 松木園久子「ヒンディー語書誌における表記文字に関して」『アジア情報室通報』5(1), 2007, pp. 2-4.

9. ALA-LC romanization tables, 1997 ed., Washington: Cataloging Distribution Service, Library of Congress, 1997, pp. 158-163.

10. 「国立国会図書館所蔵トルコ語・オスマン語図書目録」『アジア資料通報』31(特別号), 1993.

11. この問題については、三沢伸生氏の前掲論文を参照。

12. M. S. Özege,Eski harflerle basılmış Türkçe eserler kataloǧu,İstanbul: Fatih Yayınevi, 1971-1982.

13. https://www.tbias.jp/php/book_search.php

14. アジア言語OPACではRedhouseの辞書を利用した。

15. 三沢伸生氏、松木園久子氏それぞれの前掲論文を参照。

16. 紙幅の都合で紹介できないが、書誌データにおけるアラビア文字の異体字は、オスマントルコ語以外にも問題が多い。これについては機会があれば別に取り上げたい。

17. 林瞬介「トルコの図書館」『アジア情報室通報』9(1), 2011, pp. 2-7.

(URLの最終アクセスは全て2011年6月3日)

  • 国立国会図書館
  • NDL-OPAC 国立国会図書館蔵書検索・申込システム
  • 国立国会図書館サーチ
  • 国立国会図書館デジタルコレクション
  • ひなぎく
  • レファレンス協同データベース
  • 本の万華鏡