小西, 光 中村, 壮範 田中, 弥生 間淵, 洋子 浅原, 正幸 立花, 幸子 加藤, 祥 今田, 水穂 山口, 昌也 前川, 喜久雄 小木曽, 智信 山崎, 誠 丸山, 岳彦 KONISHI, Hikari NAKAMURA, Takenori TANAKA, Yayoi MABUCHI, Yoko ASAHARA, Masayuki TACHIBANA, Sachiko KATO, Sachi IMADA, Mizuho YAMAGUCHI, Masaya MAEKAWA, Kikuo OGISO, Toshinobu YAMAZAKI, Makoto MARUYAMA, Takehiko
『現代日本語書き言葉均衡コーパス』第1.0版(Maekawa et al. 2014)(以下BCCWJ)には「文境界」の情報がアノテーションされているが,その認定基準の妥当性について従来から様々な指摘がある(小西ほか2014,長谷川2014,田野村2014)。この問題に対処するために,国立国語研究所コーパス開発センターでは2013年から2014年にかけて,BCCWJの修正を行った。本稿ではその修正作業について報告する。第1.0版におけるBCCWJ 文境界情報の問題は,コーパス構築の過程において文境界を含む文書構造タグの整備と形態素列レベルの情報の整備とを並行して行ったために,文字情報を用いる文境界処理にとどまったことに由来する。今回,形態論情報に基づいた文境界基準を策定し,問題の解消を試みた。文境界修正の指針を示すとともに,文境界修正に用いた作業環境と,修正件数について報告する。