雑感
ついいまでもd.hatena〜とアドレス欄に打ち始めてしまう。そんなアドレスはもはや有効ではないのに。
原条あき子の詩に、「心変わりする女 卑しい/おまえなんか もう愛さない」(「娼婦2」『やがて麗しい五月が訪れ: 原条あき子全詩集』池澤夏樹(編)、書肆山田、2004)という詩連があり、絶唱でないと言われるのは分かったうえで、この堅さがみょうに心に残る。書肆山田の気持ちのいい造本の本である。
aikoの歌詞に、「大好きだってきっとうんともっと言えば良かった」(「シャワーとコンセント」、2021年発表)というものがある。問題がそこにないことはこの歌詞の主人公は分かっていそうなものなのにと聞いていて思う。好きと言えないときは、言わせないなにかがあるものだ。それとも、とにかく叫んでほんとうにしてしまえという人物が描かれているのであろうか。分かっていても、持ってしまう願望なのだとすれば、欺瞞もふくめて今があるのだろう。話は逸れるが、tamaki氏のコラ写真がつい記憶に残ってしまう曲である。
「くずし字」という「文字」
この記事は「言語学な人々2024」の12/17分である。
「くずし字」ということばが前近代の日本学で用いられて久しい。しかし、この語がどういうものであるべきかについては、あまり明確な位置づけを持たないようだ。ここでは「くずし字」の指すものの移ろいを考えつつ、このことばを用いる意味を考えたい(これでも短くまとめてはいるが、触れるべきことの多さゆえ、長く感じるとは思う)。
また、断っておきたいが、ここで述べたことを知らなければ「くずし字」が読めないということはないし、知っても読めるようにはならない。しかし、「くずし字」という存在がどのようなものであるか語るうえでは知って損はしないことを述べたつもりである*1。
要旨
- 「くずし字」は本来的には近代以降の書簡の書き方として、(行)草書体を指したり、楷書の我流の省筆や行草書の混淆を指す。
- 近世以前の「くずし字」は、和様の漢字仮名書体(御家流)と、その我流の省筆を指す。
- 本来的には楷書体は「くずし字」にはならないが、伝統的な字体・書風が復古字体に対比して「くずし字」と呼ばれることがある。
- 伝統的な楷書字体は乱れているわけではない。
- 近代の書体の転換や文書行政の効率化のなかで「くずし字」は傍流化していった
「くずし字」とはなにか
「くずし字」は、なぜそれがそこにあるのか理解するのがあんがいと難しい存在である。変体仮名のことだとされたり*2、楷書体を書き崩したものと思われたり*3するが、適切とは言えない。
つとに駒井鵞静氏は、『くずし字の知識と読み方』(東京美術、1988)において、「「くずし字」とは、"難しい草書"を書くのではなく、楽に自由に書くことが本来の姿勢。」と述べておられる。ここでは「くずし字」とは、書き方のことであって特定の文字のことではないし、楷書体を草卒に書き崩したものでもないものである。
「くずし字」ということばは明治末期ごろから用例が見え始め、大正ごろから書簡の書き方指南において盛んに用いられるようになったようである。さらに、「くずし字」よりも「字くずし」というような言い方のほうが古いようだ*4*5。そのような指南もので「くずし字」「字くずし」とされる文字として示されるのは、基本的には草書体の文字と言ってよいだろう。「くずし方」ではあるが、早い例を挙げておくと、「草書も学び
辞書では、「くずし字」の語は見ないかわりに、「くずし書き」の例はヘボンの和英語林集成初版からすでに現れている(1867。明治学院大学和英語林集成デジタルアーカイブス)。そこでは、「Kudzshi-gaki*6, クヅシガキ, 省筆*7, n. A running hand.」と定義されている。ただし、どのように使われた語であったかは同時代の例に恵まれない。
すこしのちの辞書でも、高橋五郎『和漢雅俗いろは辞典』(1888)では、「くづしがき(名) 省筆、略筆、りやくしがき。草書、はしりがき」としている。なお、語釈でも「はしりがき」では「はしりがき(名) 走書、はやがき、草書、くづしがき」とし、同じ著者の『漢英対照いろは辞典』(1888)では、「さうもんじ(名) 草文字, くづしがき, 草書 Grass characters, running hand.」として出てくるような、よく用いられることばであったかと思われる。いずれも、(楷書ではなく)草書体の文字、あるいはそのように書くことの意とみてよい。
また、落合直文の『ことばの泉』(1898)の「あしで(葦手)」の語釈で「文字を、くづして、葦などのはえたるさまにかきなすもの」とされるのが注意されよう。葦手は、「平安時代に行なわれた書体の一つ。葦、水流、鳥、石など水辺の光景の中に、文字を絵画化し、歌などを散らし書きにして書きまぜたもの。」(日本国語大辞典第2版)であって、ここでは本来のかたちを逸脱させることを「くずす」と言っていることになる。
なお、「くずし字」という言い方が辞書に出たものとしては、山田美妙『大辞典』(1912)*8および松井簡治の『大日本国語辞典』(1916)が古いようである。いずれも、「くずし書きにした文字」の謂いとする。全体として草に書くことから、個別の字の書きように移ろっていったかとも想像したくなるが、うがち過ぎであろうか。
ただし、当時の書体の実態を書家や辞書の書いたものをどう受け取るべきかはなんともいえない。知識層が、じしんの学ぶような伝統的草書体と、「くずし字」が主に指す文書や書簡などの書体とに相違を認めていたとは思えないからである。現代でも古文書は「御家流」で書かれていると言われていることはその傍証となろう。こうした見方では、少なくない古文書が御家流の知識では読めないことを、箇々人における一回性の逸脱と考えるのではないかと思われる。しかし、『くずし字解読辞典』というものが御家流の辞書とはべつに求められるのは、その差異はすくなからずあるのであり、かつ、あるていどの共通性を持っているという証ではなかろうか。
さて、「くずし字」ということばの登場には、私見では、ペン字の登場と行草書体の地位低下との影響が大きいようである。文字を中心に据えた『手紙講座 第3巻』(1935年)でも、ペン字書簡の例が半分を占めている。ペン字のものには、無手勝流の「くずし」もみられることも、行草書体が十分に学ばれなくなってきている様子を示しているのではなかろうか*9。
近世以前のものを「くずし字」と言うようになったのがいつごろかは未確認であるが、児玉幸多氏の『くずし字解読辞典』(1970)がとくに違和感なく受け入れられたようであるところからすれば、このころには、近世以前のものにも当てはめられるようになったのであろうか。「くずし字」書簡が減っていって、近世と近代の連続性のほうが強く受け止められたのかもしれない。
しかしながら、御家流をもとに我流で書かれた近世の「くずし字」と、唐様の楷書体とじゃっかんの行草体を取り交えた近代の「くずし字」はべつのものと捉えられるように思われる。以下に近世の「くずし字」と近代の「くずし字」の例を挙げる。


あまり相違なく見えるかもしれないが、近代のものには片仮名が頻用されているが、近世までの「くずし字」にはそのようなことはないし、近世までの書体の丸っこさは蘇峰書簡には見受けられない。近世のものは言うまでもなく、近代のものもはっきりとした転折は見られず、どちらにしても、中華思想からすれば「くずれた」ものであろうが、そのような偏見から逃れ、漢字の日本化のありようとして叮嚀に見ていく必要があると思うわけである。
漢字の書体と字体
ここで漢字の書体と字体を区別しておきたい。現代では字の形状が抽象的に存在して、それにたいして書体(スタイル)によって肉付けするような印象を持たれることが多いが、古くは、書体(スクリプト)において形が存在したのである*10。つまり、楷書体・草書体などの書体ごとに文字の形状が独立に存しているのであり、ひとつの書体のかたちが別の書体のかたちに用いられるような関係ではない。このとき、ある書体のなかの箇々の文字の形状を字体と呼ぶことができる*11。
すなわち、書体には、1. 歴史的な文字の変形の特徴によって捉えられるものと、2. 文字の造形上の共通特徴によって捉えられるものとがあることになる。また、字体にも1. 書体のなかで存在している、ほかの文字と区別される存在物の形態という捉え方と、2. 漢字という文字に存在する言語と対応する存在物の形態という捉え方とがあることになる。「くずし字」は、いずれも2.の意義で捉えられて混乱している側面もあるが、ここでは1.の意義を重視したい。
すこしばかり古い話になるが、さんざん話に出て来た草書体の成り立ちから話を始めたい。
甲骨文から篆字の段階では、文字の構成要素が箇々の線条ではなく、総体としてシンボルを表す塊にあった。しかし、絵であったわけではない。このことについて、大川俊隆氏は「[絵文字の]誰でもそれと認識でき、かつ誰でも描けるという条件は、絵が有していた特性、即ち、古代の共同体の思念を対象物を通してリアルに詳細に表現するという特性とは根本的に対立する」(「漢字の成立と発展」冨谷至(編)『漢字の中国文化』昭和堂、2009、p. 5)と述べる。
文字の構成要素が表現性から線条の組合せへと変化したことが、篆書から隷書への移行、すなわち、隷変の契機と考えることができる。さらに、社会的な情勢の変化から、文字という存在が浸透することで、文書行政によって書字機会が増加し、省筆、すなわち構成要素のデフォルメ——構成要素単位とはかぎらず、字全体ということもある——を推し進める契機となった。このときデフォルメの強度は選択的であったため、どのようなデフォルメを行うかによって、構成要素の趣を残した隷書体(〜楷書体)と、極力省筆にしたがった草書体という2モードが並行して存在することになる*12。このような2モードからの派生関係を見るために、大西氏による書体の変遷図を引いておこう(『アジアと漢字文化』放送大学出版会、2009)*13。ここから分かるように、草書体は楷書体よりも古いどころか、その母胎ですらある。

具体例として、Maxim Persikov氏による「馬」の歴史を掲げておく*14。

隷書体が残った理由としては、冨谷至氏が『木簡・竹簡の語る中国古代: 書記の文化史(増補新版)』(岩波書店、2014)でも述べるように、書体に社会的な価値があったからであろう。これがどれくらいエジプト象形文字や神官文字、民衆文字と比況できるかは知らないが、楔形文字ではこのようなことはないように思われる。
『説文解字』のようなものが編まれて隷変以前の形状を伝えられたことや、隷書体が構成要素を部分的に保存したことにより、字を古代に復することに意味が生じた*15。これが唐代の正字運動の動機であったのではなかろうか。いずれにしても、唐代に生じた正字運動は、『説文解字』などの文字の構成要素に復することを正しいものとしたことは疑われない。
たとえば、「叔」を構成要素に取る字を例にすると*16、古くは「叔」という字形が一貫して省略され、かつ、書体ごとに形状が交わらないことが分かる*17。
HNGデータセットを見ると、開成石経を起点に、小篆の構成要素に基づいた字体になることが見て取れる。開成石経は、正字運動が社会的地位を持ったことを示す最初のものである。これがいわゆる正字体であって(具体的になにか典拠に示される形に究極的な正しさがあるわけではない)、字源の通念にしたがって正しい形が規定される(歴史的正統字体)というものである。この価値観においては、伝統的楷書字体は誤ったものであり(『顔氏家訓』「書証篇」「雑芸篇」*19など。)、俗に崩れた形と見なされた(「干禄字書」など)。
藤枝晃氏が「日本語を楷書では書かなかった」(『しにか』7.7、1996)と喝破したごとく、標準的楷書体は公的な漢文と結びついていた。私文書は行書ないし草書で草するものであり*20、生活の文字はむしろ行草書であったのである。
近代の活字印刷・公教育では、書体・字体の複数性を排除し、楷書・正字体で統一しようとしたところで問題が起こった。正字体はなにより筆記の経済に背き、隷定さるべきものの違いを表現する煩瑣な区別が多く存した(「歩」は正しくは「步」であるべきなど)。各文化なりにそれを調停したのが簡体字や当用漢字であったというべきであろう(当初のもくろみはともかくとして)。すなわち、正字体を基盤として、楷書体の俗字体、(中古以降成立した)略体、あるいは行書体(とくに当用漢字)や草書体(とくに簡体字)を楷書の筆法に整理した字体を取り入れたものである。しかし、このことは、楷書体正字から現代の文字が成立したかのような誤解を生む原因ともなっている。
そのような誤解により、ことによっては楷書体の俗字も「くずし字」に含める向きもある。この点、「くずし字」はいつの間にか読めない文字を指すことになってしまっていたのである。「くずし字」が一つのものではないということは、「くずし字」を真に読む出発点ともなろうと思われる。
連綿と和風漢字書体の成立
以下のことがらは、まだ構想段階のことで十分に調べ切れていないが、見通しを述べる。
近世「くずし字」と近代「くずし字」は、それぞれがそれぞれに漢字の和化された姿——書体というには不足であるならば*21——と言うことができるのではないかということである。
近世「くずし字」の成立は(近世に成立したという意味ではなく)、日本語書記特有の連綿という筆法にあった書体ができたということであろう。また、そのことは近世期の唐様の隆盛を呼び、近代「くずし字」の成立につながったのではないかと考えてみたい。いずれにせよ、中国の本流の書からの逸脱(次節に見る中山氏の論にくわしい)には相違ない。
このことを述べるには文書書体などの検討も必要であるが、その準備ができているとは言えない。書体の交替については、拙著「明治前期鋳造活字の平仮名書体における濁音表示と仮名字体意識」(『年報新人文学』17、2020)注7の後段で、先学に導かれての考えを述べたことがある。
変体仮名と平仮名
くずし字=変体仮名という見方の非についても述べておこう。変体仮名は、1900年の仮名字体統一において選外となった仮名のことであり*22、変体仮名活字が実在もした(拙著「近代活字鋳造・販売業者における平仮名字体の用意」(『語文論叢』32、2017)参照。)。
「くずし字」で書かれたものには、漢字がそうであるように、廃用となった文字が数多く現れる。仮名もそうで、「くずし字」書きには変体仮名も多く用いられている。ここから、「くずし字」と「変体仮名」を同一視してよいことにはならないだろう。これは、浄瑠璃に人形が多用されるからといって人形といえば浄瑠璃の意となり、西洋クラシック音楽にバイオリンがよく用いられるからといって、バイオリンといえばクラシックを指すとはならないようなものである。特徴的構成要素が全体を表すシネクドキ的関係を認めないというようなことではないが、そうであっても、「くずし字」とは何かの説明に「変体仮名のこと」とはなり得ないはずである。
なお、変体仮名の直接的な起源は、平安期の仮名がさまざまな起源を持つ文字を借用したことによる。これは、万葉仮名の時代にとくに見られたことで、カという音節を表す仮名はいくつあるといったことがよく言われる*23。万葉仮名から平仮名への遷移は、直接的でない点も多くまだ分からないことも多いが(内田賢徳・乾善彦(編)『万葉仮名と平仮名その連続・不連続』(三省堂、2019)の諸論攷を参照)、万葉仮名ではまだはっきりと見られない体系的草書化という手段を取ったことは疑えないことである。草書化については、注意すべきことも多い。中山陽介氏は、「平仮名の字源と草書」(『國學院雑誌』122.9、2021)において、草書体と平仮名の関係について、字源も考慮しつつ論究しておられる*24。書体と字源だけが平仮名成立のすべてではないと思うが、平仮名は万葉仮名を書き崩してできただとか、草書体への切替えだとかの整理から漏れる問題が述べられており、よく傾聴すべき見解であろう。
「くずし字」とはどのように「くずし字」になったのか
「くずし字」の起源をこれまで見てきたが、「くずし字」がいわば排除されてきた過程についてもうすこし見ておきたい。個人的な感想を差し挟めば、文字を崩して書くことにはネガティブなイメージがあり、したがって、「くずし字」という語は一段低く見るようで違和感を持ってきた。それは、ここまで見てきたように、誤解であった。たしかに出自に穏やかではない要素を含んでいるかもしれないが、低く見てはじまった言い方ではないことは、銘記しておくべきことと思われる。
文字を書き「くずす」ということの意味合いの変化は、事務的、学校教育的な要請から進んできたものと思しい。現代でも、とりわけ中高の入試において漢字の結構の甚だしい不正を越えて、微細な止め撥ねまで採点対象とすることが問題となっているが、このようなならわしは、近代に入って、中央集権のかけ声のもと、文書行政の範囲が広がり、役場で大量の文書が交されるにいたって、実務上の必要と、書体にたいする——公文書たるもの、それにみあう書きぶりでなければならないという——意識から発生してきたのではないかと思われる。じっさい、このころの資料を読んでいると、「字画明瞭」という文言がやたらと目につく。
- 第十項 人民ヨリ書換ヲ願フトキハ地券ト願書トヲ校合シ反別地価証印税相違ノ有無ヲ調査シ字画明瞭ニシテ誤字脱漏ナキ様注意スヘシ(山口県布達明治十年乙315号、『類輯山口県布達達書 明治十年分』1880による)
- 第三十一条 証書ヲ作ルニハ普通平易ノ語ヲ用ヒ字画明瞭ナルヲ要ス(『鼇頭註解傍訓登記法公証人規則公証人規則施行条例』1886。振り仮名は省略した。)
役場の窓口の人間の書く文字がそもそも字画明瞭でなかったことは、明治期戸籍を取り寄せて見れば分かることであるが、字画による解釈の差異が問題になりうるとき、その範囲を極端に狭めて解決を図ることは、じつに近代的な解決法だと思われる。じっさい、地券などは、細部はともかくも、おおむね厳格な楷書で記されているはずである——あたかも欽定憲法の原本に用いられている書体に倣うがごとく。
あらたにはじまった近代教育制度における教科書の書体も楷書体に置き換わり、木版印刷も活版印刷にしだいに取って代わられ、公的な生活において「くずし字」を見かける機会はどんどんと狭まっていった。戸籍や地券の画像は掲載できないので、教科書と近世木版印刷、活版印刷の資料の画像を挙げておきたい。



「くずし字」は、私的なやりとりへと限定されていく。それもいつの間にか近世期の文字のことへと意義を拡充してしまう。そうして、縁遠い文字としての「くずし字」は大学で国史国文を学ぶ人間くらいしか読めないものとなっていったのである。
附記
本稿の内容は、第9回コテキリの会での講演「「くずし字」が身近でなくなるまで」をきっかけとしてまとめることを考えたものである。お招きくださった会の皆様および聴講の皆様に再度感謝申し上げたい。また、勤務校のほか、國學院大学・千葉大学・専修大学で講じてきた内容も考え直すよい機会となった。若輩者をご招じくださった先生方と拙い話を聞かされた学生諸君に感謝申し上げる。
*1:個人的には「語る」ことよりも「考える」ことのほうが好もしく思われるが、それはさておき。
*2:http://www.kinseibungakukai.com/doc/wabon001.pdf#page=2
*3:国文学研究資料館学術情報リポジトリ。この資料では、さらに、「書道史では点画の省略段階を「草書」「行書」等に区分するが、」との誤認を示している(この認識の歴史的に当てはまらないことは後述する)。
*4:NDL Ngram Viewerでの「字くづし」と「くづし字」の検索結果。
*5:「字くずし」という語の用例を検討するときは、「大の字くずし」「二の字くずし」といった、「○○」という箇々の字を意匠的に変形を加える例は除くべきである。
*6:アメリカ人はよくこのように書いた。羅馬字会式の表記、いわゆるヘボン式は第三版(1886)からである。
*7:「省筆」という用字の実例は管見のかぎり見当たらない。なにによったのであろうか。
*8:『大日本辞書』ではない。
*9:無手勝流の文字とは、既存の行草書の伝統から外れ、楷書体から随意に字画を省くにしたがったもの、あるいはその楷行草の混濁した形を指しておくこととする。
*10:石塚晴通氏はこれをフォームとして捉える。拙稿"On the Notion of Form in Ishizuka Harumichi’s Hanzi Standard Model: Focus on Ishizuka's Model of Chinese Character Standards"(韓文、申雄哲氏訳)も参照。
*11:なお、これは、書体のなかで同一の意義用法を持つ字体はひとつしかないという主張ではない。当然、複数存在しうるのであり、一方と他方とが変異の関係にあるもの(兄弟)と、他の書体からの算入とによる家族的類似的関係にあるものとに分けることができる。
*12:書道史では筆法の完成を重視するが、文字としては弁別体系をより重視すべきである。
*13:なお、芸術的効果をねらって用いられるものも存続しているように描かれているし、縦軸も「正俗」としてしまうと問題がある。格式程度が妥当か。それにしても「銘石体」の位置は微妙である。書体の派生関係の図として理解されたい。
*14:前漢の文字の様相を正確にあらわすには三次元的に描かざるを得ず、模式図であることに注意されたい
*15:これは、ローマン・アルファベットに古代の文字が大文字として補されたことと比況できよう。
*16:この字を選んだについては、池田証壽氏「「寂」の異体--HNGによる考察」(2011)を参考にした。
*17:隷変前後においては文字の読解構造も異なるし、弁別体系も異なるのだから、書体の別は別の文字体系といってもいいくらいであるが、それを同一の文字であるという観念によって、ひとつの文字(字体)が多数の異体字を持つという観念にも繫がっていく。
*18:なお、「𡧘」は「寂」に限られ隷変以前に遡らないようであるので取り上げない。
*19:「雑芸篇」にいう新奇な字については、イムレ・ガランボス氏「写本の実態から見た字書記述: 会意文字を例として」(岡田一祐(訳)、石塚晴通(編)『漢字字体史研究』勉誠出版、2012)や同氏"Medieval Ways of Character Formation in Chinese Manuscript Culture (PDF)"(SCRIPTA 6, 2014)をも参照。
*20:矢田勉氏「国語漢字書記における楷行草」(『国語文字・表記史の研究』汲古書院、2012)も参照。ただし、藤枝氏の論からすれば公的領域を広く取り過ぎているのではないかと思われる。院政・武家政権は、ともに朝廷を存続させていたことからすれば、表面上は朝廷のようであってはならないわけで、書体がそれを表現するものであったというのもあり得ることである。
*21:書風の面の独自性をどのように評価するかという点もさりながら、固有の字体があることをもって書体と呼ぶならば、近世「くずし字」は十分に書体としての側面を持ち合わせているのではないか。書体の見地からの検討がされていない点に不満を感じるが、山元久氏の発表「古文書における「候」字形の変化」(日本語学会2024年度秋季大会、オンライン)で示されたような字体の独自性がたしかに近世「くずし字」には存する。
*22:拙著『近代平仮名体系の成立: 明治期読本と平仮名意識』(文学通信、2021)、とくにp. 306を参照。また、変体仮名の終焉については拙稿「変体仮名を学ぶ小学生」(加藤重広・岡墻裕剛(編)『日本語文字論の挑戦: 表記・文字・文献を考えるための17章』勉誠出版、2021)で述べた。なお、山田健三氏「「変体仮名」の語誌」(『国語語彙史の研究四二』和泉書院、2023)が「変体仮名」という語の初例とするものは容易に遡ることができ、次の資料にあるように、1870年代後半ごろにはあった言い方とみることができる。このばあいの「変体仮名」は、拙著に述べたごとく、「いろは仮名」(いろは歌仮名手本に示されるところの仮名)ならざるものであった。 dl.ndl.go.jp
*23:さしあたって、ジャパンナレッジのサンプルとして公開されているもののうち、改訂新版・世界大百科事典の項目を参照: 万葉仮名|国史大辞典・日本国語大辞典・世界大百科事典|ジャパンナレッジ。
*24:ちなみに氏は「「仮名」語源考」(『国語国文』92.2、2023)において、山内洋一郎氏「ことば「平仮名」の出現と仮名手本」(『国語国文』80.2、2011)および山内氏の見解に依った拙論(拙論「「いろは」から「平仮名」へ」(『近代平仮名体系の成立』文学通信、2021))を批判している。拙論への批判についていえば、元を絶てばそのあとも崩れる式の議論で、拙論の趣旨も無視したものであり、承服しがたいことを述べておきたい。そもそもの山内氏の見解への是非も、読み方次第という感があり、確論というまでにはいたらないのではないだろうか。
無題
今年も8月15日が過ぎた。
祖母が昨年夏に亡くなった。95歳になろうかという年であった。新型コロナ禍がはじまる手前で老人ホームに入り、ほのかにあった認知症が急激に進み、亡くなるまえの冬にひさびさに会ったときには流れるようにあらぬことを言われて感じ入ったほどであった。
祖母はいちども生まれたまちを離れて住んだことがない。20代なかばで、戦争に行っていてよく知らなかった隣家の跡取りに嫁がされ、そのまま半世紀を超えてそこに住んだ。幼少期に転居がなかったわけではないようだが、同じまちのなかの歩いて行ける距離である。
祖母は家刀自とか主婦とか呼ぶにふさわしいとわたしは思う。跡取りといっても、明治時代の家制度がむりやりに跡目を作らせただけで、家産もなにもないのに、あの世代はきょうだいいとこが多かったから、なにくれと頼りにされ、律儀にその相手をした。祖母の最後の願いは立派な葬儀で、それは果たせたと思う。事務的なことはしていないから人数やらのこまかなことは分からないが、弔問もいろいろと忝くした。
まだ祖母の元気だったころ、祖母のところに泊まって行くと、よく思い出話を聞かされたものである。昔のこまかいことを覚えているひとで、日記も米粒ほどの字で裏紙に書いていた。菓子やらなにやらの紙箱にどっさりと貯めていたが、老人ホームに入る前に自分で処分したようである。自分も記憶力はいいつもりだが、祖母には勝てそうにない。目の前のひとの名前も思い出せないことがままあって失礼を最近重ねている(悪気はないことを繰り返しておきたい)。それはともかく、その話題の大きな部分は戦禍のころの自分の話であった。
それは、わたしが大学院にまで進んでいたことがあるのだろう。そうはっきりと対比させるようなことは言わなかったが、女学校で英語をろくろく教えてもらえなかったことは何度も聞かされた。いわく、戦争で若い先生が取っていかれるので、そのつどABCからはじまってけっきょく進まないままに、祖母たちは勤労奉仕に駆り出されてしまったというのである。若かったので、いまからでも勉学をはじめることもできるのではないかと言ってみたこともあったし、父(祖母からは息子)もやたらと祖母に本を読ませたがったので、贈ってみたこともあったが、酷なことをしたと思う。
祖母たちを勤労奉仕に駆り立てた日本は侵略国家であったという単純な事実がある。祖母たちは、なにを工場で作っているかも分からないまま、あるときは工業製品となりそうな部品の整理をし、あるときは馬の肥料のなにかをしたという。それは、侵略国家の手助けを、それとよく分からないままにはせよ、したということになる。
祖母は、そのような侵略に手を貸した反省を述べたことがない。青春を奪われたことへのやるせなさのかたわら、その手が人の命を奪うことに荷担した絶望のようなことは聞いたことがない。こちらも、生前の祖母にそのことについて尋ねたりはしなかった。修身の科目は好きだったと言っていたから、すくなくともそのときは、銃後の守りを誇りに思っていたのではないかと思う。
ちなみに、さっき贈ったと言った本は『それでも、日本人は「戦争」を選んだ』だった。そもそも読んだのか、読んだとして、どう思ったのかは聞いたことがない。
構造的な責任が仕方のなかったことと言って済まされることが多いことにどう向き合うべきだろうか。SNS上では、したことのむごさを強調して言うひとが多いようである(日本は単に加害者なのであって、空襲や原爆くらいで被害者性を強調するのはおかしい、など)。それによって、総括や反省を促すというのである。もちろん、WWIIがやむなきによって侵略に及んだという考え方はたしなめられなければならない。しかし、徴兵制下で教員すら捨て駒のように戦地に送られてしまうときに、日本が守っていると思っていたことの罪とはなんなのだろうか。オイディプス王のようにあれと焚きつけるものは、無垢なのかと問われてもいたしかたあるまい。そもそも、オイディプス王のように責任が取り難いのが構造的な責任というものなのだから。資本力の競争にすり替えられてしまう不買運動のやるせなさを思えばよい。
構造的な責任には、むごさによる責任感はどうしようもないのではないかと思う。やはり、仕方のなかったことではないことを根気強く説いていくしかない。本の感想を聞ける日を待っていたが、ついに来なかった。
NDL Ngram Viewerで近代語の経時的変化を眺めて遊ぼう
この記事は「言語学な人々Advent Calender 2023」の18日目の記事です。
はじめに
国立国会図書館(以下NDL)では、大規模デジタル化予算を用いて所蔵資料のデジタル化を格段に進めましたが、そのOCRテキスト化も近年おおはばに進んでいます。その具体的な内容は公式記事をご覧いただければと思いますが、とにもかくにも言語資源が格段に増えたわけで、思いつくままに使ってみようというのが今回の内容です。なお、この内容はNDLのウェビナーでお話しした内容といちぶ重なるところもありますが、もうすこし言語学(技術)向けです。
OCRテキストは、公式記事からダウンロードの方法なども示されていますが、手っ取り早くは、国立国会図書館デジタルコレクション(以下NDC)で検索することができます。それだけではなく、n-gramという考え方を用いてテキストデータを単語単位で細分化し、適当な語数で集計をできるようにしたNDL Ngram Dataset(以下NND)というデータがあり*1、今回はそれを検索できるようにしたNDL Ngram Viewer(以下NNV)を使います。
n-gramとは
n-gramとは、テキストをなんらかの言語的な単位(文字・音素・形態素・語)で分割し、n個取出したものを言います。知りませんでしたが遺伝子や蛋白質でも応用されているそうです。nは任意の数字が入るので、何個取出すかによって、1-gram(ユニグラム)、2-gram(バイグラムあるいはダイグラム(稀))などと増えていき、このNNDでは1〜5-gramのデータがあるそうです(中身は見ていませんので誤解があるかもしれません)。5-gramはクインクェグラムあるいはファイブグラムと読みます*2。
NNDは、作成時においてデジタル化されたもののうち、図書については刊行年代が1960年代まで、雑誌については刊行年代が1990年代までの資料を対象としており、それぞれ約8.5億種類の単語及びフレーズ・約8.9億種類の単語及びフレーズが利用可能です。テキストの再検討が容易な著作権満了分については約8.3億種類の単語及びフレーズがあります*3。
日本語におけるn-gramデータとしては、言語資源協会で配布している「国語研日本語ウェブコーパス」n-gram データ、GoogleのWeb日本語Nグラムがありますが、どちらも有料であり、規模や種類、質の面に相違があるとはいえ、完全にオープン/フリーなNNDの威力はなかなかにあるものと思われます。
NDL Ngram Viewerについて
NNVはNNDの検索インタフェースで、複数検索や正規表現検索を実現することにより、NNDをかなり自由に調べることができるものです。たとえば、「お入り用」から「ご入り用」へどのように取って替ったのか、正規表現を使った検索キーワード「[おご]入り?用」でかんたんに調べることができます*4。

その他の検索例はNNVの冒頭に説明があるのでそちらをご覧下さい。操作の説明はNDL Ngram Viewer | NDLラボにあります。また、ここでは正規表現についての解説はしませんので、ウェブページやつぎの本などで学んでいただければ。
条件表現の接続助詞の変遷を見てみる
NNVを言語研究で使うにはどうするのがよいでしょうか。まず、気をつけねばならないのは、NNDは、現代日本語書き言葉均衡コーパス (BCCWJ) などの国語研コーパスと違って、電子コーパスではないということです。電子コーパスでは、言語研究のために形態素情報がアノテーションされるわけですが、NNDにかぎらず一般的なn-gramデータではそのようなアノテーションはなされないのが普通です*5。
したがって、条件表現の接続助詞の変遷を調べるためにつぎのような検索を行ったとします。
そうすると、つぎのようなグラフが描かれます。

このグラフは、単純に指定された出現数上位の数を並べただけのものですが、眺めていると、1940年代なかばに急激な落込みがあることが分ります。くわしい原因を調べていませんが、これは1945年にあたり、敗戦時の諸事情が係わっているのではないかとひとまず推定しておきます。また、1923年以降、あるいは1968年以降に急激な変動があることが分りますが、これはなにか言語使用にとって意味のある変化なのでしょうか。
前者については、あるいは有意味なものがあるかもしれませんが*6、逐次刊行物の書誌情報の処理の問題であることもあり(刊行開始あるいは終了年にすべてのデータが集中するなど)、要因を特定するのは容易ではありません。後者については、著作権上の問題によって公開できないデータが多いためで、この年に日本語の資料が極端な減少を見せたというようなことがあるわけではありません。
すなわち、ここに現れるデータはもととなるNDL所蔵資料の状況等に左右されるのであって、純粋に言語的な要因によってのみ推移を見せるわけではありません*7。
とはいえ、NDLはおおむねバランスよく資料を受入れていると考えられるので、粗頻度にかわっていわゆるサンプルサイズを加味した調整頻度を利用すればあるていどこの問題を緩和することができます*8。「キーワードの出現比率を可視化」というトグルスイッチがNNVのキーワード入力欄の直下にあるので、クリックして有効にすると「キーワードの出現比率を可視化(出版年代ごとの出現頻度/出版年代ごとの総対象Ngram数)」というように計算式とともに表示されます(出版年代とありますが、出版年のようです)。それをクリックしてみると……:

となって、急激な変動が均されていることが分ります*9。原則として、言語研究として用いる際は、この調整頻度でのグラフを見るようにしましょう。縦軸は割合を表します。
また、グラフの表示年も調整することができ、じぶんが現在どの資料を対象に検討しているのか考慮して狭めてもよいでしょう。また、2010年代以降や1860年代以前はデータが乏しく、調整頻度が大きく乱れることがあるため、結果の解釈には含めるべきではありません。
なお、グラフの下には出現頻度のCSVデータと出版年ごとの総n-gramデータ数のダウンロードリンクがあり、個人で検索結果を保存し、あるいはてもとのグラフ描画ソフトで再現することができます。
調整頻度のグラフで問題ないかというと、そこは考えどころです。さらにスクロールをしていくと、検索された表現がリストアップされ、NDCで原典を確認できるようになっています。相当量のある「と」をクリックしてみると、予想の範囲内ですが、接続助詞の「と」以外のものが大量に含まれてしまっていることが分ります。
NDL Ngram Viewerで遊ぶときは、かならず実例も確認しましょう。
また、グラフの点にもじつはリンクが貼られており、気になる年でクリックするとその年に限定された検索結果を見ることができます。目的に応じて使分けましょう。
さて、これを解決するためにはどのようにするのが望ましいでしょうか。さきほども述べたように、NNDでは検索対象がどんな単語であるかといった情報は与えられていないので、なるべく前後に無関係なものが来ないように工夫するというのが現実的です。
たとえば、正規表現を用いて、前接の語の活用形も示してやるというのがひとつのやりかたです。たとえば、「([うくぐすつぬふぶむる](と|なら))|([っつい]?たら|んだら)|[えけげせてねへべめれ]ば」を条件として、
で検索すると、

となります(上位5例しかグラフには描画していないのですが、それ以下にも出てくるものはあります)。しかし、一段動詞「見る」などの「たら」形は正規表現でうまく指定できないので、「たら」の用例が確実に指定できているかは不分明です。ただ、「ふと」から「うと」への顕著な交替が見られるなどの興味深い結果は出ていますね。
正規表現で複数検索したときであっても、個別のマッチ文字列に分解されてグラフに描かれるのは痛しかゆしです*10。追補(2024/1/24):グラフ下の「検索結果を編集する」で合算等が可能でした。訂正します。ただ、メインのグラフにはやはり反映されないのですが……。接続助詞ごとに見るには、結果と出版年ごとのn-gramの総数とのCSVデータをダウンロードして、自前で調整頻度を出してグラフを出し直す必要があります。
また、むりにいっぺんに検索することもないので、具体的な文脈を与えてやることも方法です。たとえば「見る」と共起する例で検索すると……:

こうすると、「と」がもっとも多く、さきほどはいちばん少なかった「れば」がこんどはつぎに多くなることが分ります。なお、縦軸の4.0e-5というのは、4.0×10-5(=0.00004)の工業系での簡略表記だとのことです。Excelなどでも小さいデータを扱うときに見ますね。
さて、このような検索ならば問題はまったくないかといえば、そもそもOCRが誤っているという例は排除できませんし、「見ば」といった古い送り仮名についても対応できないという問題があります*11。遊びを越えた範囲で用いるには、NDVでおおまかな変遷を摑み、国語研の日本語歴史コーパスや昭和・平成書き言葉コーパスといった整備されたコーパスで確信を得るといったサイクルが必要になるのだろうと思います。
「から」「ので」の変遷を見てみる
この要領で、「ですます」体における、「から」と「ので」との移り変りを見てみたいと思って、「[でま]す(から|ので)」と入れてみると…:
とのように空白になってしまいます。これは、「負荷対策のため、接頭及び接尾が両方とも正規表現で記述されたクエリは受け付けません。(受け付けない例:「.*テスト.*」) 」とあるものにまさに該当してしまっている例です。あきらめて、「です(から|ので)」と「ます(から|ので)」とのようにどちらかで検索を分割するしかありません。なお「です(から|ので)」の結果はつぎのようなものです。

近年の「から」と「ので」の入替りはここではあまり見られないようですね。
おわりに
検索例にも上っている「私を.{2,3}にする」など、NNVはいろいろな使い方をすることができます。最長で5-gramなので、複雑な検索はもとよりできませんが、「.{2,3}へ行」などのように、かんたんな格の使いかたであれば問題なく調べることができます。
たんにNDCで未報告の用例を延々と探したり、単語や表記の移変りを見たりするだけでも面白いものですが、もうちょっと複雑なことも考えられるというご紹介でした。
*1:なお、単語分割は言語学的に厳密を期したものではありませんし、解析の正確性もとくに保証されていませんが、単語単位の検索を目的としたデータではないのでおおむね利用上の問題になることはないと思われます。
*2:ラテン語による読みについては化合物命名法のもとになる接頭辞を参照。ラテン語本来の接頭辞とも違う気がしますが、深入りはしません。
*3:それ以外はNDCの図書館/個人送信あるいは館内端末限定送信で確認する必要があります。
*4:「御入り?用」では検索していませんが、「お」が多かったのではないかと仮定しています。
*6:仮に有意味であったとすると、口語体資料の増加などが考えられます。
*7:そんなことを言ったら、どんな資料でもそうなりますが……。
*8:頻度などについての考え方は統計処理環境Rで学ぶ言語研究のための統計入門 | PPTなどのコーパス言語学の資料を見てください。
*9:とはいえ、経年的な増減がなにを意味しているのかは資料全体の変動を見ずには分かりません。NNDの体系的な検討が必要でしょう。
*10:じゃまなグラフは凡例をクリックすると消えます
*11:これに無理に対応しようとすると、「再見ば」のように「サイケンレバ」と読むような例がもしあっても除外できないという問題があります。根本的な対策にはなりませんが、「を見れ?ば」などとしてやると、確実に動詞の例を拾うことができるので、それを「見れ?ば」だけの結果と傾向を見比べることで、異常がないか確認することも可能です。
『「いろは」の19世紀: 文字と教育の文化史』が出ます
先年2月に刊行された『岡田一祐『近代平仮名体系の成立 明治期読本と平仮名字体意識』(文学通信) - 文学通信』をふまえて、平易に書き下ろしたものです。どうぞよろしくお願いいたします。
西大寺本金光明最勝王経平安初期点の「ひまわり」用XMLを読み解く
本記事は、言語学な人々の第7日目の記事として作成されました。どうすればカレンダー形式で埋め込まれるんでしょう? 教えてえらいひと。
国立国語研究所からこの11月30日に「西大寺本金光明最勝王経平安初期点」訓読文の「ひまわり」用XMLとテキストデータが公開されました。
今回は、そのXMLについて読み解いてみたいと思います。
(当初は書きかけで公開していました。これで完全版です。)
西大寺本金光明最勝王経平安初期点って?
西大寺本『金光明最勝王経』は、「さいだいじぼん・こんこーみょーさいしょーおーきょー」と読みます。奈良の古刹・西大寺に伝来した、『金光明最勝王経』の写本のひとつという意味です。
この西大寺本『金光明最勝王経』(長いので、以下単に西大寺本『最勝王経』、あるいは単に西大寺本と呼びます)は、漢文で書かれているこの西大寺本『最勝王経』には、平安初期(830年頃か)に訓読して(=日本語で読んで)それを記した人がいて(あとで見ますが、そういうものを「訓点資料」と言います)、それが当時の日本語を理解する上で、ほかにはない情報を提供してくれる点で重要な資料です。
日本語の歴史を研究するということがどういうことか、じっさいにやってみないとなかなか感覚として分からないことが多いと思うのですが、言語の歴史の研究は、流れていってしまう言葉を書き留め、あるいは書き留めた資料をもとに行われます。録音ができない時代は当然のことですし、今でも音声でそのまま言語の研究をすることは難しさが伴います。
しかも、話し言葉にもっとも言葉の性質は表れるわけですが、書き留めるときに、自然と洗練させてしまって、その実相がよく分からないことが多々あります。それでも、調べたい言葉の書き言葉で書かれていればいいわけですが、文章語というものは、昔の言葉であったり、他言語であったりに基づくことが多く、知りたい通りに分からないことも多いのです。
平安初期となると、ちょうど、当時の日本語の資料そのものが少ない時代です。漢文訓読は、言うまでもなく、漢文があって、それをなんとかして日本語として読むための翻訳ですから、日本語の文章としては読めないわけですけれども、単語であったり、「なにガなにする」と言っていたのか、「なにヲなにする」と言っていたのかといった構文レベルであったりのことであれば、分からなくもありません。
なおよいことに、これは当時の手書きがそのまま伝わる資料です。『古事記』にせよ、『源氏物語』にせよ、その内容を書いたひとが紙に直接書いたものが伝わるわけではなく、後世の人々が書き写したものです。それに対して、訓点資料は、書き写す(「移点する」と言います)こともあるのですが、訓読したオリジナルが残っていることも多いのです。手短に言ってしまえば、書き写されたものよりも、信用がおけるというのが大きなポイントです。
本書の日本語史研究上の重要性を世に知らしめたのは、九州帝大退職後の春日政治氏が、当時福岡にあった斯道文庫*1の紀要の初号として刊行した一大研究です(今思えば、よく、文庫に関係のないもので第一号を出しましたね? 退職後だったからなんでしょうか)。
dl.ndl.go.jp dl.ndl.go.jp dl.ndl.go.jp *2
本書の日本語史上の価値については、くわしくは本書、またこのあとご紹介する訓読文解説書をご参照ください。
研究史的な位置づけとともに、価値を若干示しておけば、本書は、9世紀という、訓読がはじめられてからごく早い時期に、全巻にわたって、かなり詳細に読み方が記録されたものということだそうです。訓点は、ルビのようなものなので、あってもかならずしも細かくはつかないんですね。それが、全体的に付いているので、とても貴重ということです。
また、春日氏が研究を公にした1942年は、まだまだこのような訓点資料の研究が始まったばかりで、どう研究していいかも、そこまでみんな確信が持てなかった時代です。それを、こんな精密な研究として公にしたのだから、一気に研究が拓けるのも当然ということです。時節柄、すぐにとはいきませんでしたが、それでも戦後、訓点語学会が設立され、研究が加速したのはよく知られています。
「当時の日本語を理解する上で、ほかにはない情報を提供してくれる」ってどういうのかなあというのが気になったのです。「ほか」の言語資料との違いというのでしょうか。
— まつーらとしお #ひつじコトラボ (@yearman) 2021年12月8日
訓点資料じゃないと分からないこと、第1位は片仮名や漢字の音読みの変化ですね…… これはほかに代えがたい
— Kazuhiro hokkaidonis (@kzhr) 2021年12月8日
第2位は音便などの変化が訓点資料のほうがあらわに出ることがあります
第3位は、訓読の漢語と和語の対応の変化が実地に分かるのは字書では得られないことでしょうね
訓点って?
リンクした西大寺本は春日氏が持っていた別の金光明最勝王経写本で訓点というものがどういうものか確認してみましょう。蛭沼氏による解説によれば、これは石山寺にあったものが、春日氏の手に渡ったものだそうです。
画像を見てみると、黒々と記された漢字に白く片仮名(初期の形です)や記号が見えます(色褪せた朱の点もあるそうです)。このような記号を「ヲコト点」、あるいは単に「点」と言います。こちらは、西大寺本とちがって、ヲコト点がまちまちです。
ヲコト点は、一般的に、助詞や助動詞をすばやく示すのに用います。訓読がはじめられた当初は、片仮名や平仮名という書きやすい文字はなく、漢字をそのまま日本語を表すのに流用していました(一般的に「万葉仮名」と呼びます)。いま見たように、ヲコト点を書くようなところにいちいち漢字を書いていられないので、記号を決めて書いたということです。
蛭沼氏によれば、これは「東大寺点」と呼ばれるヲコト点の取り決めに沿っているそうなので、ちょっと読んでみると(読みやすいところを探して……)、中央上部に「勤無怠」とあるところは、「勤して怠(ヲコタル)こと無し」と読みます。「勤」だけだとちょっと分かりませんが、そのまえの行の終りに「策」とあって、「策勤して」と読むのだろうと思われます。平仮名でヲコト点の解釈を記し、片仮名で振り仮名(「仮名点」と言います)を記すのがお約束です。このような行為を訓点研究では翻訳と称しますが、上記の資料では分かりやすさを重んじてか訓読としていますね。
ヲコト点を加えることを「加点」と言います。ちょっと戻りますが、平安初期点とは、平安初期に加点されたヲコト点ってことですね。加点は、何度もされることがあり、いつごろされた加点かを区別することも、訓練された研究者であればできるそうです。
西大寺本金光明最勝王経平安初期点訓読文XMLについて
すっかり前置きが長くなってしまいましたが、本題です(本題なんです)。
今回公開された訓読文は、柳原恵津子氏を中心に作成されたものとのことです。
この訓読文XMLは、国立国語研究所の公開する全文検索システム「ひまわり」での利用を考えて作られたXMLデータです。XMLとは、データを体系的に記録したり、文章の一部に標識(タグ)を付けて、コンピューターに扱い方を注意してもらうための仕組みです。
この訓読文を使って検索するには、この「ひまわり」をダウンロードして、必要なところにデータを入れてもらえば使えるようになりますが、そちらは説明書もあることですし、省略しましょう。
さきほどの石山寺旧蔵本と同じ箇所を西大寺本で探すと、原本画像では左から2行目の7字目から、訳文では左から4行目にあります。春日氏は「勤(め)て怠ルこと無し、」と読んでいる箇所で、( )で括られた場所は補読といって、原文にもヲコト点・仮名点のどれにも書いてはいないけれども、読み解くうえでは補わざるを得ない文字のことを言います。ここでは、「勤」という文字に、「て」と解釈できるヲコト点が付けてあり、意味が通るように読むと「勤」は日本語で「つとめる」という動詞と考えられるので、「め」を補うべきであるということになります。
この箇所を柳原氏がどのように読んでいるかというと(見やすさのために構造の簡略化や改行を加えてあります)、次のようになります。
<?xml version="1.0" encoding="UTF-8"?> <text> <body> <article> <p> <quotation> <s> 勤<hodoku>め</hodoku> 怠 <betsuhitsu type="surikeshi"> <kanaten>る</kanaten> </betsuhitsu> <betsuhitsu type="surikeshi"> <okototen>こと</okototen> </betsuhitsu> 無 <betsuhitsu type="surikeshi"> <okototen>し</okototen> </betsuhitsu> <period position="left">、</period> </s> </quotation> </p> </article> </body> </text>
XMLは、HTMLをやったことのある方には見慣れたものかと思うのですが、木構造と呼ばれる、だんだんと情報が深くなっていく仕組みです。また、前提として、データは一次元に進んで、同時並行に進んでいったりはしないというものがあります。
ここで、<text>
はHTMLでいう<html>
にあたり、データ全体を支配する根っこ(ルート)となります。本という根っこがあって、第1章・第2章という枝に分かれていくとイメージしやすいでしょうか。<body>
以上は、訓読文解説書を見ていただくとして、<quotation>
以下をここでは見ましょう。
タグが表す部分の意味を確認しておくと、<quotation>
は、地の文ではない(仏の話などの)文、<s>
は一文というのがおおまかな本文です。ヲコト点に関わるところでは、<okototen>
、<kanaten>
、<period>
がそれぞれヲコト点、仮名点、句読点を表します。<betsuhitsu>
は、別筆といって、メインの人以外が書いたものを指します*3。<betsuhitsu>
タグには、type
属性と呼ばれる付加情報が記されており、情報を付け足すことができます。最後に、<hodoku>
は、補読を表します。
原文と見比べると分かるとおり、このXMLは、日本語で読む順番にデータができています。また、ヲコト点や仮名点には順序が記されていないのですが、これも一読意味の通ずるようにあらかじめ並べ替えがされています。ここで、返り点がついていれば、漢字を<kanji>
タグに入れてしまって記載するようですが、ここでは返り点がないので、断りなく順序が変えられているということでしょう。
その意味でこれは紛う方なき「訓読文」であって、加点のありさまを記した資料ではありません(春日氏のものを見てもらえば分かるように、訓点研究としては珍しいことではありません)。
さて、別筆の認定が春日氏と相違するかは私には分からないのですが、訳文には別筆の記載はとくに見られません。これは、柳原氏の検討を踏まえたものなのでしょう。春日氏の訳文の建設的批判のうえに作られた点に、この訓読文の価値があるのだろうと思われます。
なお、この例には出て来なかったのですが、「於」などのような、いわゆる不読字は、<mute>
タグの属性に組み込まれ、本文の検索から外されています。これは、「ひまわり」の制約と考えられますが、本文を属性に送り込んでしまうのは、このXMLの特徴のひとつと言えるでしょう。
原文に忠実なマークアップについて
学殖の備わった人物による、目的に沿った解読は、それはそれで素晴らしいことなのですが、<mute>
タグの設計など、原文離れのところがなくもありません。原文に見える文字・記号だけ記録したり、もうすこし原文を活かした記録をすることはXMLではできないのでしょうか。
もちろんそんなことはなく、そういうものを作るということを目的にデータを作っていけばよいことです。原文にあるものをだけを取り出そうとする行為を「原文に忠実な」と呼ぶことにすると、そのようなデータ作りの助けとなる、TEIのような取組みがあります。
TEIといった、欧米の資料を扱うXMLで、日本古来の文章が扱えるものかといった向きもありましたが、いまではそういうことを言うひともいないでしょう。古辞書についてはすでに研究したことがあります。
訳文を作る際にも、「ひまわり」を目的にしなければ、もうすこし分かりやすいデータ形式も選べたかもしれません。このような平安初期点が現状のTEIでどれくらい扱えるかは分かりませんが、TEIである必要もなければ、TEIにしても現状に捕われず拡張できる仕組みなので、なにか方策を考えればよいのでしょう。いずれ考えてみたいことです。
ちゃっかり宣伝もしたところで、これにて。
*1:福岡時代の斯道文庫については、最近、よい記事が出ています。 chutetsu.hateblo.jp
*2:本書の訓点に最初に着目したのは、大矢透氏の次の書です。 dl.ndl.go.jp 春日氏も、本書を問うまえに、一度論文を書いているようですが、未見です。 https://dl.ndl.go.jp/info:ndljp/pid/1261799/333
*3:なぜbeppitsuじゃないんでしょうね?
文献系研究者にはとくにおすすめな日本語のDH系サマースクール
講師に知っているひとがいるだけでとくだんイベントとは関係がありませんが、とくに文献系研究者は騙されたと思って受けても損はないと思います。ぜひぜひ。