kzhr's diary

ad ponendum

無題

今年も8月15日が過ぎた。

祖母が昨年夏に亡くなった。95歳になろうかという年であった。新型コロナ禍がはじまる手前で老人ホームに入り、ほのかにあった認知症が急激に進み、亡くなるまえの冬にひさびさに会ったときには流れるようにあらぬことを言われて感じ入ったほどであった。

祖母はいちども生まれたまちを離れて住んだことがない。20代なかばで、戦争に行っていてよく知らなかった隣家の跡取りに嫁がされ、そのまま半世紀を超えてそこに住んだ。幼少期に転居がなかったわけではないようだが、同じまちのなかの歩いて行ける距離である。

祖母は家刀自とか主婦とか呼ぶにふさわしいとわたしは思う。跡取りといっても、明治時代の家制度がむりやりに跡目を作らせただけで、家産もなにもないのに、あの世代はきょうだいいとこが多かったから、なにくれと頼りにされ、律儀にその相手をした。祖母の最後の願いは立派な葬儀で、それは果たせたと思う。事務的なことはしていないから人数やらのこまかなことは分からないが、弔問もいろいろと忝くした。

まだ祖母の元気だったころ、祖母のところに泊まって行くと、よく思い出話を聞かされたものである。昔のこまかいことを覚えているひとで、日記も米粒ほどの字で裏紙に書いていた。菓子やらなにやらの紙箱にどっさりと貯めていたが、老人ホームに入る前に自分で処分したようである。自分も記憶力はいいつもりだが、祖母には勝てそうにない。目の前のひとの名前も思い出せないことがままあって失礼を最近重ねている(悪気はないことを繰り返しておきたい)。それはともかく、その話題の大きな部分は戦禍のころの自分の話であった。

それは、わたしが大学院にまで進んでいたことがあるのだろう。そうはっきりと対比させるようなことは言わなかったが、女学校で英語をろくろく教えてもらえなかったことは何度も聞かされた。いわく、戦争で若い先生が取っていかれるので、そのつどABCからはじまってけっきょく進まないままに、祖母たちは勤労奉仕に駆り出されてしまったというのである。若かったので、いまからでも勉学をはじめることもできるのではないかと言ってみたこともあったし、父(祖母からは息子)もやたらと祖母に本を読ませたがったので、贈ってみたこともあったが、酷なことをしたと思う。

祖母たちを勤労奉仕に駆り立てた日本は侵略国家であったという単純な事実がある。祖母たちは、なにを工場で作っているかも分からないまま、あるときは工業製品となりそうな部品の整理をし、あるときは馬の肥料のなにかをしたという。それは、侵略国家の手助けを、それとよく分からないままにはせよ、したということになる。

祖母は、そのような侵略に手を貸した反省を述べたことがない。青春を奪われたことへのやるせなさのかたわら、その手が人の命を奪うことに荷担した絶望のようなことは聞いたことがない。こちらも、生前の祖母にそのことについて尋ねたりはしなかった。修身の科目は好きだったと言っていたから、すくなくともそのときは、銃後の守りを誇りに思っていたのではないかと思う。

ちなみに、さっき贈ったと言った本は『それでも、日本人は「戦争」を選んだ』だった。そもそも読んだのか、読んだとして、どう思ったのかは聞いたことがない。

構造的な責任が仕方のなかったことと言って済まされることが多いことにどう向き合うべきだろうか。SNS上では、したことのむごさを強調して言うひとが多いようである(日本は単に加害者なのであって、空襲や原爆くらいで被害者性を強調するのはおかしい、など)。それによって、総括や反省を促すというのである。もちろん、WWIIがやむなきによって侵略に及んだという考え方はたしなめられなければならない。しかし、徴兵制下で教員すら捨て駒のように戦地に送られてしまうときに、日本が守っていると思っていたことの罪とはなんなのだろうか。オイディプス王のようにあれと焚きつけるものは、無垢なのかと問われてもいたしかたあるまい。そもそも、オイディプス王のように責任が取り難いのが構造的な責任というものなのだから。資本力の競争にすり替えられてしまう不買運動のやるせなさを思えばよい。

構造的な責任には、むごさによる責任感はどうしようもないのではないかと思う。やはり、仕方のなかったことではないことを根気強く説いていくしかない。本の感想を聞ける日を待っていたが、ついに来なかった。

NDL Ngram Viewerで近代語の経時的変化を眺めて遊ぼう

この記事は「言語学な人々Advent Calender 2023」の18日目の記事です。

adventar.org

はじめに

国立国会図書館(以下NDL)では、大規模デジタル化予算を用いて所蔵資料のデジタル化を格段に進めましたが、そのOCRテキスト化も近年おおはばに進んでいます。その具体的な内容は公式記事をご覧いただければと思いますが、とにもかくにも言語資源が格段に増えたわけで、思いつくままに使ってみようというのが今回の内容です。なお、この内容はNDLのウェビナーでお話しした内容といちぶ重なるところもありますが、もうすこし言語学(技術)向けです。

OCRテキストは、公式記事からダウンロードの方法なども示されていますが、手っ取り早くは、国立国会図書館デジタルコレクション(以下NDC)で検索することができます。それだけではなく、n-gramという考え方を用いてテキストデータを単語単位で細分化し、適当な語数で集計をできるようにしたNDL Ngram Dataset(以下NND)というデータがあり*1、今回はそれを検索できるようにしたNDL Ngram Viewer(以下NNV)を使います。

lab.ndl.go.jp

n-gramとは

n-gramとは、テキストをなんらかの言語的な単位(文字・音素・形態素・語)で分割し、n個取出したものを言います。知りませんでしたが遺伝子や蛋白質でも応用されているそうです。nは任意の数字が入るので、何個取出すかによって、1-gram(ユニグラム)、2-gram(バイグラムあるいはダイグラム(稀))などと増えていき、このNNDでは1〜5-gramのデータがあるそうです(中身は見ていませんので誤解があるかもしれません)。5-gramはクインクェグラムあるいはファイブグラムと読みます*2

NNDは、作成時においてデジタル化されたもののうち、図書については刊行年代が1960年代まで、雑誌については刊行年代が1990年代までの資料を対象としており、それぞれ約8.5億種類の単語及びフレーズ・約8.9億種類の単語及びフレーズが利用可能です。テキストの再検討が容易な著作権満了分については約8.3億種類の単語及びフレーズがあります*3

日本語におけるn-gramデータとしては、言語資源協会で配布している「国語研日本語ウェブコーパス」n-gram データGoogleWeb日本語Nグラムがありますが、どちらも有料であり、規模や種類、質の面に相違があるとはいえ、完全にオープン/フリーなNNDの威力はなかなかにあるものと思われます。

NDL Ngram Viewerについて

NNVはNNDの検索インタフェースで、複数検索や正規表現検索を実現することにより、NNDをかなり自由に調べることができるものです。たとえば、「お入り用」から「ご入り用」へどのように取って替ったのか、正規表現を使った検索キーワード「[おご]入り?用」でかんたんに調べることができます*4

「お入り用/ご入り用」の交替

その他の検索例はNNVの冒頭に説明があるのでそちらをご覧下さい。操作の説明はNDL Ngram Viewer | NDLラボにあります。また、ここでは正規表現についての解説はしませんので、ウェブページやつぎの本などで学んでいただければ。

ci.nii.ac.jp

条件表現の接続助詞の変遷を見てみる

NNVを言語研究で使うにはどうするのがよいでしょうか。まず、気をつけねばならないのは、NNDは、現代日本語書き言葉均衡コーパス (BCCWJ) などの国語研コーパスと違って、電子コーパスではないということです。電子コーパスでは、言語研究のために形態素情報がアノテーションされるわけですが、NNDにかぎらず一般的なn-gramデータではそのようなアノテーションはなされないのが普通です*5

したがって、条件表現の接続助詞の変遷を調べるためにつぎのような検索を行ったとします。

lab.ndl.go.jp

そうすると、つぎのようなグラフが描かれます。

条件表現の接続助詞の検索結果

このグラフは、単純に指定された出現数上位の数を並べただけのものですが、眺めていると、1940年代なかばに急激な落込みがあることが分ります。くわしい原因を調べていませんが、これは1945年にあたり、敗戦時の諸事情が係わっているのではないかとひとまず推定しておきます。また、1923年以降、あるいは1968年以降に急激な変動があることが分りますが、これはなにか言語使用にとって意味のある変化なのでしょうか。
前者については、あるいは有意味なものがあるかもしれませんが*6、逐次刊行物の書誌情報の処理の問題であることもあり(刊行開始あるいは終了年にすべてのデータが集中するなど)、要因を特定するのは容易ではありません。後者については、著作権上の問題によって公開できないデータが多いためで、この年に日本語の資料が極端な減少を見せたというようなことがあるわけではありません。
すなわち、ここに現れるデータはもととなるNDL所蔵資料の状況等に左右されるのであって、純粋に言語的な要因によってのみ推移を見せるわけではありません*7

とはいえ、NDLはおおむねバランスよく資料を受入れていると考えられるので、粗頻度にかわっていわゆるサンプルサイズを加味した調整頻度を利用すればあるていどこの問題を緩和することができます*8。「キーワードの出現比率を可視化」というトグルスイッチがNNVのキーワード入力欄の直下にあるので、クリックして有効にすると「キーワードの出現比率を可視化(出版年代ごとの出現頻度/出版年代ごとの総対象Ngram数)」というように計算式とともに表示されます(出版年代とありますが、出版年のようです)。それをクリックしてみると……:

頻度調整済みの接続助詞の検索結果

となって、急激な変動が均されていることが分ります*9。原則として、言語研究として用いる際は、この調整頻度でのグラフを見るようにしましょう。縦軸は割合を表します。
また、グラフの表示年も調整することができ、じぶんが現在どの資料を対象に検討しているのか考慮して狭めてもよいでしょう。また、2010年代以降や1860年代以前はデータが乏しく、調整頻度が大きく乱れることがあるため、結果の解釈には含めるべきではありません。
なお、グラフの下には出現頻度のCSVデータと出版年ごとの総n-gramデータ数のダウンロードリンクがあり、個人で検索結果を保存し、あるいはてもとのグラフ描画ソフトで再現することができます。

調整頻度のグラフで問題ないかというと、そこは考えどころです。さらにスクロールをしていくと、検索された表現がリストアップされ、NDCで原典を確認できるようになっています。相当量のある「」をクリックしてみると、予想の範囲内ですが、接続助詞の「と」以外のものが大量に含まれてしまっていることが分ります。
NDL Ngram Viewerで遊ぶときは、かならず実例も確認しましょう。
また、グラフの点にもじつはリンクが貼られており、気になる年でクリックするとその年に限定された検索結果を見ることができます。目的に応じて使分けましょう。

さて、これを解決するためにはどのようにするのが望ましいでしょうか。さきほども述べたように、NNDでは検索対象がどんな単語であるかといった情報は与えられていないので、なるべく前後に無関係なものが来ないように工夫するというのが現実的です。

たとえば、正規表現を用いて、前接の語の活用形も示してやるというのがひとつのやりかたです。たとえば、「([うくぐすつぬふぶむる](と|なら))|([っつい]?たら|んだら)|[えけげせてねへべめれ]ば」を条件として、

lab.ndl.go.jp

で検索すると、

承接を指定した接続助詞の検索結果

となります(上位5例しかグラフには描画していないのですが、それ以下にも出てくるものはあります)。しかし、一段動詞「見る」などの「たら」形は正規表現でうまく指定できないので、「たら」の用例が確実に指定できているかは不分明です。ただ、「ふと」から「うと」への顕著な交替が見られるなどの興味深い結果は出ていますね。
正規表現で複数検索したときであっても、個別のマッチ文字列に分解されてグラフに描かれるのは痛しかゆしです*10追補(2024/1/24):グラフ下の「検索結果を編集する」で合算等が可能でした。訂正します。ただ、メインのグラフにはやはり反映されないのですが……。接続助詞ごとに見るには、結果と出版年ごとのn-gramの総数とのCSVデータをダウンロードして、自前で調整頻度を出してグラフを出し直す必要があります。

また、むりにいっぺんに検索することもないので、具体的な文脈を与えてやることも方法です。たとえば「見る」と共起する例で検索すると……:

「見たら・見れば・見るなら・見ると」の検索結果

こうすると、「と」がもっとも多く、さきほどはいちばん少なかった「れば」がこんどはつぎに多くなることが分ります。なお、縦軸の4.0e-5というのは、4.0×10-5(=0.00004)の工業系での簡略表記だとのことです。Excelなどでも小さいデータを扱うときに見ますね。
さて、このような検索ならば問題はまったくないかといえば、そもそもOCRが誤っているという例は排除できませんし、「見ば」といった古い送り仮名についても対応できないという問題があります*11。遊びを越えた範囲で用いるには、NDVでおおまかな変遷を摑み、国語研の日本語歴史コーパスや昭和・平成書き言葉コーパスといった整備されたコーパスで確信を得るといったサイクルが必要になるのだろうと思います。

「から」「ので」の変遷を見てみる

この要領で、「ですます」体における、「から」と「ので」との移り変りを見てみたいと思って、「[でま]す(から|ので)」と入れてみると…:

lab.ndl.go.jp

とのように空白になってしまいます。これは、「負荷対策のため、接頭及び接尾が両方とも正規表現で記述されたクエリは受け付けません。(受け付けない例:「.*テスト.*」) 」とあるものにまさに該当してしまっている例です。あきらめて、「です(から|ので)」と「ます(から|ので)」とのようにどちらかで検索を分割するしかありません。なお「です(から|ので)」の結果はつぎのようなものです。

「ですから」・「ですので」の検索結果(頻度調整済)

近年の「から」と「ので」の入替りはここではあまり見られないようですね。

おわりに

検索例にも上っている「私を.{2,3}にする」など、NNVはいろいろな使い方をすることができます。最長で5-gramなので、複雑な検索はもとよりできませんが、「.{2,3}へ行」などのように、かんたんな格の使いかたであれば問題なく調べることができます。

たんにNDCで未報告の用例を延々と探したり、単語や表記の移変りを見たりするだけでも面白いものですが、もうちょっと複雑なことも考えられるというご紹介でした。

*1:なお、単語分割は言語学的に厳密を期したものではありませんし、解析の正確性もとくに保証されていませんが、単語単位の検索を目的としたデータではないのでおおむね利用上の問題になることはないと思われます。

*2:ラテン語による読みについては化合物命名法のもとになる接頭辞を参照。ラテン語本来の接頭辞とも違う気がしますが、深入りはしません。

*3:それ以外はNDCの図書館/個人送信あるいは館内端末限定送信で確認する必要があります。

*4:「御入り?用」では検索していませんが、「お」が多かったのではないかと仮定しています。

*5:アノテーションしているほうが普通ではないわけですが。

*6:仮に有意味であったとすると、口語体資料の増加などが考えられます。

*7:そんなことを言ったら、どんな資料でもそうなりますが……。

*8:頻度などについての考え方は統計処理環境Rで学ぶ言語研究のための統計入門 | PPTなどのコーパス言語学の資料を見てください。

*9:とはいえ、経年的な増減がなにを意味しているのかは資料全体の変動を見ずには分かりません。NNDの体系的な検討が必要でしょう。

*10:じゃまなグラフは凡例をクリックすると消えます

*11:これに無理に対応しようとすると、「再見ば」のように「サイケンレバ」と読むような例がもしあっても除外できないという問題があります。根本的な対策にはなりませんが、「を見れ?ば」などとしてやると、確実に動詞の例を拾うことができるので、それを「見れ?ば」だけの結果と傾向を見比べることで、異常がないか確認することも可能です。

西大寺本金光明最勝王経平安初期点の「ひまわり」用XMLを読み解く

本記事は、言語学な人々の第7日目の記事として作成されました。どうすればカレンダー形式で埋め込まれるんでしょう? 教えてえらいひと。

adventar.org

国立国語研究所からこの11月30日に「西大寺本金光明最勝王経平安初期点」訓読文の「ひまわり」用XMLとテキストデータが公開されました。

www2.ninjal.ac.jp

今回は、そのXMLについて読み解いてみたいと思います。

(当初は書きかけで公開していました。これで完全版です。)

西大寺本金光明最勝王経平安初期点って?

西大寺本『金光明最勝王経』は、「さいだいじぼん・こんこーみょーさいしょーおーきょー」と読みます。奈良の古刹・西大寺に伝来した、『金光明最勝王経』の写本のひとつという意味です。

この西大寺本『金光明最勝王経』(長いので、以下単に西大寺本『最勝王経』、あるいは単に西大寺本と呼びます)は、漢文で書かれているこの西大寺本『最勝王経』には、平安初期(830年頃か)に訓読して(=日本語で読んで)それを記した人がいて(あとで見ますが、そういうものを「訓点資料」と言います)、それが当時の日本語を理解する上で、ほかにはない情報を提供してくれる点で重要な資料です。

日本語の歴史を研究するということがどういうことか、じっさいにやってみないとなかなか感覚として分からないことが多いと思うのですが、言語の歴史の研究は、流れていってしまう言葉を書き留め、あるいは書き留めた資料をもとに行われます。録音ができない時代は当然のことですし、今でも音声でそのまま言語の研究をすることは難しさが伴います。

しかも、話し言葉にもっとも言葉の性質は表れるわけですが、書き留めるときに、自然と洗練させてしまって、その実相がよく分からないことが多々あります。それでも、調べたい言葉の書き言葉で書かれていればいいわけですが、文章語というものは、昔の言葉であったり、他言語であったりに基づくことが多く、知りたい通りに分からないことも多いのです。

平安初期となると、ちょうど、当時の日本語の資料そのものが少ない時代です。漢文訓読は、言うまでもなく、漢文があって、それをなんとかして日本語として読むための翻訳ですから、日本語の文章としては読めないわけですけれども、単語であったり、「なにガなにする」と言っていたのか、「なにヲなにする」と言っていたのかといった構文レベルであったりのことであれば、分からなくもありません。

なおよいことに、これは当時の手書きがそのまま伝わる資料です。『古事記』にせよ、『源氏物語』にせよ、その内容を書いたひとが紙に直接書いたものが伝わるわけではなく、後世の人々が書き写したものです。それに対して、訓点資料は、書き写す(「移点する」と言います)こともあるのですが、訓読したオリジナルが残っていることも多いのです。手短に言ってしまえば、書き写されたものよりも、信用がおけるというのが大きなポイントです。

本書の日本語史研究上の重要性を世に知らしめたのは、九州帝大退職後の春日政治氏が、当時福岡にあった斯道文庫*1の紀要の初号として刊行した一大研究です(今思えば、よく、文庫に関係のないもので第一号を出しましたね? 退職後だったからなんでしょうか)。

dl.ndl.go.jp dl.ndl.go.jp dl.ndl.go.jp *2

本書の日本語史上の価値については、くわしくは本書、またこのあとご紹介する訓読文解説書をご参照ください。

研究史的な位置づけとともに、価値を若干示しておけば、本書は、9世紀という、訓読がはじめられてからごく早い時期に、全巻にわたって、かなり詳細に読み方が記録されたものということだそうです。訓点は、ルビのようなものなので、あってもかならずしも細かくはつかないんですね。それが、全体的に付いているので、とても貴重ということです。

また、春日氏が研究を公にした1942年は、まだまだこのような訓点資料の研究が始まったばかりで、どう研究していいかも、そこまでみんな確信が持てなかった時代です。それを、こんな精密な研究として公にしたのだから、一気に研究が拓けるのも当然ということです。時節柄、すぐにとはいきませんでしたが、それでも戦後、訓点語学会が設立され、研究が加速したのはよく知られています。

訓点って?

https://catalog.lib.kyushu-u.ac.jp/image/iiif/820/1563919/482090.tiff/full/1000,706/0/default.jpg

リンクした西大寺本は春日氏が持っていた別の金光明最勝王経写本訓点というものがどういうものか確認してみましょう。蛭沼氏による解説によれば、これは石山寺にあったものが、春日氏の手に渡ったものだそうです。

画像を見てみると、黒々と記された漢字に白く片仮名(初期の形です)や記号が見えます(色褪せた朱の点もあるそうです)。このような記号を「ヲコト点」、あるいは単に「点」と言います。こちらは、西大寺本とちがって、ヲコト点がまちまちです。

ヲコト点は、一般的に、助詞や助動詞をすばやく示すのに用います。訓読がはじめられた当初は、片仮名や平仮名という書きやすい文字はなく、漢字をそのまま日本語を表すのに流用していました(一般的に「万葉仮名」と呼びます)。いま見たように、ヲコト点を書くようなところにいちいち漢字を書いていられないので、記号を決めて書いたということです。

蛭沼氏によれば、これは「東大寺点」と呼ばれるヲコト点の取り決めに沿っているそうなので、ちょっと読んでみると(読みやすいところを探して……)、中央上部に「勤無怠」とあるところは、「勤して怠(ヲコタル)こと無し」と読みます。「勤」だけだとちょっと分かりませんが、そのまえの行の終りに「策」とあって、「策勤して」と読むのだろうと思われます。平仮名でヲコト点の解釈を記し、片仮名で振り仮名(「仮名点」と言います)を記すのがお約束です。このような行為を訓点研究では翻訳と称しますが、上記の資料では分かりやすさを重んじてか訓読としていますね。

ヲコト点を加えることを「加点」と言います。ちょっと戻りますが、平安初期点とは、平安初期に加点されたヲコト点ってことですね。加点は、何度もされることがあり、いつごろされた加点かを区別することも、訓練された研究者であればできるそうです。

西大寺本金光明最勝王経平安初期点訓読文XMLについて

すっかり前置きが長くなってしまいましたが、本題です(本題なんです)。

今回公開された訓読文は、柳原恵津子氏を中心に作成されたものとのことです。

この訓読文XMLは、国立国語研究所の公開する全文検索システム「ひまわり」での利用を考えて作られたXMLデータです。XMLとは、データを体系的に記録したり、文章の一部に標識(タグ)を付けて、コンピューターに扱い方を注意してもらうための仕組みです。

この訓読文を使って検索するには、この「ひまわり」をダウンロードして、必要なところにデータを入れてもらえば使えるようになりますが、そちらは説明書もあることですし、省略しましょう。

p

さきほどの石山寺旧蔵本と同じ箇所を西大寺本で探すと、原本画像では左から2行目の7字目から、訳文では左から4行目にあります。春日氏は「勤(め)て怠ルこと無し、」と読んでいる箇所で、( )で括られた場所は補読といって、原文にもヲコト点・仮名点のどれにも書いてはいないけれども、読み解くうえでは補わざるを得ない文字のことを言います。ここでは、「勤」という文字に、「て」と解釈できるヲコト点が付けてあり、意味が通るように読むと「勤」は日本語で「つとめる」という動詞と考えられるので、「め」を補うべきであるということになります。

この箇所を柳原氏がどのように読んでいるかというと(見やすさのために構造の簡略化や改行を加えてあります)、次のようになります。

<?xml version="1.0" encoding="UTF-8"?>
<text>
  <body>
    <article>
      <p>
        <quotation>
          <s><hodoku></hodoku><betsuhitsu type="surikeshi">
                <kanaten></kanaten>
              </betsuhitsu>
              <betsuhitsu type="surikeshi">
                <okototen>こと</okototen>
              </betsuhitsu><betsuhitsu type="surikeshi">
                <okototen></okototen>
              </betsuhitsu>
            <period position="left"></period>
          </s>
        </quotation>
      </p>
    </article>
  </body>
</text>

XMLは、HTMLをやったことのある方には見慣れたものかと思うのですが、木構造と呼ばれる、だんだんと情報が深くなっていく仕組みです。また、前提として、データは一次元に進んで、同時並行に進んでいったりはしないというものがあります。

ここで、<text>はHTMLでいう<html>にあたり、データ全体を支配する根っこ(ルート)となります。本という根っこがあって、第1章・第2章という枝に分かれていくとイメージしやすいでしょうか。<body>以上は、訓読文解説書を見ていただくとして、<quotation>以下をここでは見ましょう。

タグが表す部分の意味を確認しておくと、<quotation>は、地の文ではない(仏の話などの)文、<s>は一文というのがおおまかな本文です。ヲコト点に関わるところでは、<okototen><kanaten><period>がそれぞれヲコト点、仮名点、句読点を表します。<betsuhitsu>は、別筆といって、メインの人以外が書いたものを指します*3<betsuhitsu>タグには、type属性と呼ばれる付加情報が記されており、情報を付け足すことができます。最後に、<hodoku>は、補読を表します。

原文と見比べると分かるとおり、このXMLは、日本語で読む順番にデータができています。また、ヲコト点や仮名点には順序が記されていないのですが、これも一読意味の通ずるようにあらかじめ並べ替えがされています。ここで、返り点がついていれば、漢字を<kanji>タグに入れてしまって記載するようですが、ここでは返り点がないので、断りなく順序が変えられているということでしょう。

その意味でこれは紛う方なき「訓読文」であって、加点のありさまを記した資料ではありません(春日氏のものを見てもらえば分かるように、訓点研究としては珍しいことではありません)。

さて、別筆の認定が春日氏と相違するかは私には分からないのですが、訳文には別筆の記載はとくに見られません。これは、柳原氏の検討を踏まえたものなのでしょう。春日氏の訳文の建設的批判のうえに作られた点に、この訓読文の価値があるのだろうと思われます。

なお、この例には出て来なかったのですが、「於」などのような、いわゆる不読字は、<mute>タグの属性に組み込まれ、本文の検索から外されています。これは、「ひまわり」の制約と考えられますが、本文を属性に送り込んでしまうのは、このXMLの特徴のひとつと言えるでしょう。

原文に忠実なマークアップについて

学殖の備わった人物による、目的に沿った解読は、それはそれで素晴らしいことなのですが、<mute>タグの設計など、原文離れのところがなくもありません。原文に見える文字・記号だけ記録したり、もうすこし原文を活かした記録をすることはXMLではできないのでしょうか。

もちろんそんなことはなく、そういうものを作るということを目的にデータを作っていけばよいことです。原文にあるものをだけを取り出そうとする行為を「原文に忠実な」と呼ぶことにすると、そのようなデータ作りの助けとなる、TEIのような取組みがあります。

TEIといった、欧米の資料を扱うXMLで、日本古来の文章が扱えるものかといった向きもありましたが、いまではそういうことを言うひともいないでしょう。古辞書についてはすでに研究したことがあります

訳文を作る際にも、「ひまわり」を目的にしなければ、もうすこし分かりやすいデータ形式も選べたかもしれません。このような平安初期点が現状のTEIでどれくらい扱えるかは分かりませんが、TEIである必要もなければ、TEIにしても現状に捕われず拡張できる仕組みなので、なにか方策を考えればよいのでしょう。いずれ考えてみたいことです。

ちゃっかり宣伝もしたところで、これにて。

*1:福岡時代の斯道文庫については、最近、よい記事が出ています。 chutetsu.hateblo.jp

*2:本書の訓点に最初に着目したのは、大矢透氏の次の書です。 dl.ndl.go.jp 春日氏も、本書を問うまえに、一度論文を書いているようですが、未見です。 https://dl.ndl.go.jp/info:ndljp/pid/1261799/333

*3:なぜbeppitsuじゃないんでしょうね?

文献系研究者にはとくにおすすめな日本語のDH系サマースクール

講師に知っているひとがいるだけでとくだんイベントとは関係がありませんが、とくに文献系研究者は騙されたと思って受けても損はないと思います。ぜひぜひ。

connectivity.aa-ken.jp

本が出ます(4)

kzhr.hatenadiary.jp
kzhr.hatenadiary.jp
kzhr.hatenadiary.jp
の続きです。

この本では、イントロダクションを長めに書きました。たんに先行研究を述べただけではなく、日本語学者や言語学者が明治時代の文字・表記を知るうえで、どういうことを知っておいてほしいかということを考えたものです。それがどれだけ実現できたかは分りませんが、自身の研究を日本語や世界の文字・表記史のなかでどう位置づけるか見直すいい機会にもなったと思っていますし、専門書を市販する意義もそのような学界のレベル引き上げにあるのではないでしょうか。その点、日本語学界の専門書刊行スタイルは、自著を理解されることを拒むようなものも多く、なににお金を払わせているのか不明なものが多かったのではないかと思います。それをストイックさとかつては呼んでいたことは知らないでもないのですが(https://bibdb.ninjal.ac.jp/SJL/view.php?h_id=1480750810の書評対象など)。多分野の専門家に宛てた内容の弱さは、学界の趨勢にも影響のあることと思うので、論文ではなく本の形にするならば、自身の研究へ一直線といったようなことは止めてほしいと思っています。

オンラインで見られる平家物語諸本

非の打ち所のない諸本系統論をしようとしているわけではないので、系統関係は要を外さない限りで簡略になるよう努めます*1。まあ、そもそもわたしの興味は天草版平家を中心としているので、古態論などはあまり大きな課題ではないのです。なお、立命館大学ARCから覚一本龍大本以外にも、京都府立総合資料館本(まあ、いまは京都学・歴彩館ですが)が何点か存在することは確認できましたが、請求番号すら分らない始末だったので、ここには記していません。八坂本二類系、百二十句本、葉子十行本、屋代本巻2などがあるはずです。

影印版の集成は平家物語の諸本 テキスト一覧 荒山慶一 2001年4月にまとめられたものが便利そうです。

*1:具体的には、系統の立て方として諸本論とのつきあい方を参考にしました。諸本の分類には、大津ほか編『平家物語大事典』を参照しています。

続きを読む