kzhr's diary

ad ponendum

NDL Ngram Viewerで近代語の経時的変化を眺めて遊ぼう

この記事は「言語学な人々Advent Calender 2023」の18日目の記事です。adventar.org はじめに 国立国会図書館(以下NDL)では、大規模デジタル化予算を用いて所蔵資料のデジタル化を格段に進めましたが、そのOCRテキスト化も近年おおはばに進んでいます。そ…

『「いろは」の19世紀: 文字と教育の文化史』が出ます

www.heibonsha.co.jp先年2月に刊行された『岡田一祐『近代平仮名体系の成立 明治期読本と平仮名字体意識』(文学通信) - 文学通信』をふまえて、平易に書き下ろしたものです。どうぞよろしくお願いいたします。

西大寺本金光明最勝王経平安初期点の「ひまわり」用XMLを読み解く

本記事は、言語学な人々の第7日目の記事として作成されました。どうすればカレンダー形式で埋め込まれるんでしょう? 教えてえらいひと。 adventar.org 国立国語研究所からこの11月30日に「西大寺本金光明最勝王経平安初期点」訓読文の「ひまわり」用XMLとテ…

文献系研究者にはとくにおすすめな日本語のDH系サマースクール

講師に知っているひとがいるだけでとくだんイベントとは関係がありませんが、とくに文献系研究者は騙されたと思って受けても損はないと思います。ぜひぜひ。connectivity.aa-ken.jp

本が出ます(4)

kzhr.hatenadiary.jp kzhr.hatenadiary.jp kzhr.hatenadiary.jp の続きです。この本では、イントロダクションを長めに書きました。たんに先行研究を述べただけではなく、日本語学者や言語学者が明治時代の文字・表記を知るうえで、どういうことを知っておい…

オンラインで見られる平家物語諸本

非の打ち所のない諸本系統論をしようとしているわけではないので、系統関係は要を外さない限りで簡略になるよう努めます*1。まあ、そもそもわたしの興味は天草版平家を中心としているので、古態論などはあまり大きな課題ではないのです。なお、立命館大学ARC…

天草平家と天草伊曾保の画像・翻刻対照HTMLを作る

突然謎の感情をあらわにすると、日本語史の講読で、講読資料の翻刻を作ったり、翻字したりするのも学習のうちだろうと頭のなかで煩悶が駆け巡るが、それは自分が興味を持ってぶち当たってからでいいというのが昨今らしく、まだ30代半ばなのに隔世の感を覚え…

<oXygen/>でjTEIからPDF変換するときに日本語がうまく扱えない件

XMLから印刷するばあいもえらく文字化けするが、画面フォントを日本語フォントに切り替える。ANTを使った変換のばあい、 /Application/Oxygen XML Editor/frameworks/tei/xml/tei/jtei_aux/trans/pdf/fonts/ に必要な日本語フォントを突っ込み(IPAフォント…

ポリコレやキャンセルカルチャーといわれない・いわせないための覚え書き

タイトルに尽きる。キャンセルカルチャーと呼ばれるべきではない、不適切な振る舞いに対する責任を問うたのみであるという意見をさいきん目睹した。しかし、責任の問い方が抹殺一方であれば、キャンセルカルチャーと呼ばれるのもやむを得ないのではないかと…

本が出ます(3)

以下の記事の続きです。 kzhr.hatenadiary.jpまず、刊行を予告していたものが発刊されました(『年報新人文学』については、執筆時点ではウェブに反映されていませんが、いずれここから見られるはずです)。 bensei.jp human.hgu.jp今回は、フォントについて…

『人文情報学月報』「Digital Japanese Studies寸見」第71回「DH Awards 2020開催」補遺

今回の月報の連載では、DH Awards 2020について取り上げたが、紙幅のつごうもあり、すべての候補作を取り上げることができなかった。以下では、そののこりを取り上げて補遺としたい。 dhawards.orgBest Use of DH for Public Engagement(一般参加)部門では…

本が出ます(2)

前回の記事でご案内した本*1は、もともとは博士論文として書かれたものでした。リンク先から読めますが、検定制度と仮名字体の関係を描いた、中心となる論文3篇+αという感じでした。そこから、こんな壮大な書名を持つ本がどうやってでてきたかといえば、まあ…

本が出ます

近代平仮名体系の成立: 明治期読本と平仮名字体意識作者:岡田 一祐発売日: 2021/02/26メディア: 単行本紹介等は出版社ウェブサイトをご覧下さい: 岡田一祐『近代平仮名体系の成立 明治期読本と平仮名字体意識』(文学通信) - 文学通信

Eighteen years with Wikipedia

This is notes for a coming event.It was a slashdot article that brought it to my attention that has been there ever since. Honestly, it was the second time that I saw it. The first time was a disappeared HotWired Japan's coverage that focu…

時刻合わせ over Proxy

qiita.com をやってみたけど、date --setはGNU dateのオプションのようであるし、wgetはさいきんのMacにはすくなくともデフォルトで入っていない。ということで、macOS Catalina版のメモ。 sudo date -f "%s" "$(curl -s https://ntp-a1.nict.go.jp/cgi-bin/…

ここ10年の言語学系新書

言語系新書ということであれば、CiNiiで検索すれば済む話ですが、言語学系となるとまた。独断と偏見で。 80*系 CiNii 図書 - ハングルの誕生 : 音 (おん) から文字を創る CiNii 図書 - ことばと思考 CiNii 図書 - 外国語をはじめる前に CiNii 図書 - ことば…

やきっぺの個人的に好きな調理法

北海道には、やきっぺというご当地インスタント焼きそばがあり、ただのインスタント焼きそばなのだが、みょうに好きである。たいしたことはいつもどおり書かないのだが、個人的においしいと思える調理法が確立されたのでメモしたいということである。材料は…

定訓であることについて ウチはなんの定訓であるのか*1 定訓と常用漢字表 山田(一九七一)は、定訓であることについて、つぎのやうに述べてゐる。 某一字について、その呼称を考へる時に、直ちに喚起される字訓を、先づ第一にその字の定訓(またはその一つ…

着任エントリ

北海学園大学に着任しました。人文学部日本文化学科講師です。4年と7か月ぶりの札幌です。東京圏ではお世話になりました。ひきつづき北海道でもよろしくお願いいたします。

退職エントリ

退職しました。

国語研天草版テキストから対比できそうな四つ仮名を取り出すスクリプト

#!perl use strict; use warnings; use utf8; use open qw/:std :utf8/; my $substr = 3; # まとめ文字数 my $file = shift @ARGV; open my $fh, "<", $file or die; my %match; my $fno = ''; my $lno = 1; my $llno = 0; my $skip = 0; while (my $line = …

移転記

はてなダイアリー廃止を機に移転してきました。

IDSをふくむテクストを一字づつ切り出すperlスクリプト

use strict; use warnings; use utf8; sub ids_split { my $text = shift; my @chars = split //, $text; my @split; my $buffer_text = ''; my $buffer_num = 0; for my $char (@chars) { if ($char =~ /[&#12272;&#12273;&#12276;&#12277;&#12278;&#12279;…

臨時仮名遣調査委員会議事速記録(1909)の著作権に関するおぼえがき

たとへば、国会会議録検索システム -FAQ-など。臨時仮名遣調査委員会議事速記録 - 国立国会図書館デジタルコレクションにあるが、文部大臣官房図書課だけの著作権を認めてよいのかはよく分からないところなので(あるいは個々に調べてあるのかもしれないが、…

「日本古典籍字形データセットをかんたんに分類してくれるPythonスクリプト」の結果を(手で)修正した量の統計を出すスクリプト

#!/usr/bin/perl use 5.012; use strict; use warnings; use utf8; use Cwd; use FindBin; use Data::Dumper; require "$FindBin::Bin/clgr.pl"; my $wd = Cwd::getcwd(); my @directories = clgr::scan_dir($wd); say join ",", 'Mat', 'U+ID', 'Total', 'E…

「日本古典籍字形データセットをかんたんに分類してくれるPythonスクリプト」の結果を修正してHTMLに再出力するスクリプト

#!/usr/bin/perl use 5.012; use strict; use warnings; use utf8; use Cwd; use FindBin; use Data::Dumper; require "$FindBin::Bin/clgr.pl"; my $now = time(); my $wd = Cwd::getcwd(); my @directories = clgr::scan_dir($wd); for my $dir (@director…

日本古典籍字形データセットをかんたんに分類してくれるPythonスクリプト

#!/usr/bin/python3 # coding: utf-8 # # Usage: Run on the directory just above where the Dataset of PMJT Character Shapes # (http://codh.rois.ac.jp/char-shape/) is downloaded # from pathlib import Path from time import time from PIL import …

pptx2md

#!/usr/bin/python #coding: utf-8 import sys from pptx import Presentation if __name__ == '__main__': prs = Presentation(sys.argv[1]) c = 1 for slide in prs.slides: print("# Slide " + str(c)) s = 1 for shape in slide.shapes: if not shape.ha…

Perlのregex?

正規表現でのメールアドレスチェックは見直すべき – ReDoS – yohgaki's blogを見て,Perl 5だとどうなるんだらうと書いてみた。ちなみに,perl 5.18.2とruby 2.0.0p648。 use strict; use warnings; use feature qw/ say /; use Time::HiRes qw/ time /; for…

非欧文中の算用数字を漢数字に置換してくれるかもしれないマクロ

Macでも使へるやうにとRegExpなしでやってみたものの,よくわからないエラーで動かなかったので動くのかもよく知らない。もっとすっきり書けるのではと思ふが,VBA初心者すぎてよく分らない。 Option Explicit ' ' Arabic2HanInJa by Kazuhiro Okada ' A mac…