CIDOC 2019(第25回ICOM京都大会2019)での発表

日本語の漢字における異体字の例
総合検索における異字体検索の仕組み

 ICOM(国際博物館会議)は1946年に創設された、博物館に関する情報の交換や共有を目的とした非政府機関です。3年ごとにICOMのすべての委員会が参加する大会が開かれますが、今年は京都で開催されました。文化財情報研究室からは3名の職員が参加し、博物館コレクションのドキュメンテーションを専門とする委員会、CIDOCにて日本語の検索の問題について「Two solutions for orthographical variants problem(表記ゆれに対する二つの解決方法)」と題した発表を行いました。
 漢字やひらがな、カタカナを使い分ける豊かな表記は日本語の特徴の一つです。しかしこの特徴は、情報検索の現場では、例えば龍と竜、藝と芸のような表記ゆれとなってあらわれ、検索漏れの原因となります。発表では特に人名の表記に焦点をあて、当研究所のウェブデータベースで行っている表記ゆれへの対応について報告しました。
 このような表記ゆれは日本語に特有の問題ではありません。例えば、英単語の単数形で検索した際に、複数形も結果に含めるには、システム的な工夫が必要です。文化財には普遍的な価値がありますが、一方でそのドキュメント化には、それぞれの地域に由来する問題が存在します。システムの立場からも、文化財における普遍性と地域性の問題について考えていきたいと思います。

to page top