トップアジア諸国の情報をさがす刊行物>書誌データから見る上海新華書店旧蔵書コレクション―データセットを利用した分析事例(後編):アジア情報室通報 18巻4号

書誌データから見る上海新華書店旧蔵書コレクション―データセットを利用した分析事例(後編):アジア情報室通報 18巻4号

国立国会図書館関西館アジア情報課 アジア第二係

はじめに

2020年2月に、当館は上海新華書店旧蔵書コレクション(以下、新華コレクション)の全件書誌データをデータセットとして公開した。本稿では、前編(『アジア情報室通報』18巻3号掲載[1])で予告したように、データセットに含まれる資料タイトルを対象としたテキストマイニングの事例を紹介する。

1. テキストマイニングの準備

1-1. テキストマイニングと分析の意義

テキストデータを統計的に分析し、情報を発掘(マイニング)することを「テキストマイニング」と呼ぶ。一般に資料整理の際は主題分析が行われ、分類記号や件名が付与されることが多いが、新華コレクションは主題分析が行われておらず、コレクションの構成に関する説明も大まかなものや限定的なものにとどまっている[2]。資料のタイトルは、その資料の主題や形式を端的に示すものであることが多く、資料タイトルを対象としてテキストマイニングを行うことで、資料の主題や形式に関する傾向を客観的に分析できると考えられる。後述するように、本稿ではデータセット全件を対象とした分析を行うわけではないが、分析を通し、これまでと異なる角度から新華コレクションの構成に関する傾向を把握できると思われる。

1-2. ツール及び分析データの準備

テキストマイニングのツールには様々なものがあるが、本稿執筆にあたっては、中国語の形態素解析[3]及びテキストマイニングが可能な、日本語インターフェースのフリー・ソフトウェア「KH Coder」[4]を使用した。

また、前編の分析結果を踏まえ、分析対象を、図書出版総数と新華コレクション書誌データ数との相関が高い1949年から1978年までの30年間の出版物に限定することとした。前編の分析の際に用いたデータクリーニング済みデータから、「出版年」が1949年から1978年までのデータ約9万件の「タイトル」「出版年」の2項目のみを取り出し、ノイズとなり得る記号」[5]を削除して、分析用データを作成した。

2. 全体的な傾向の分析

1-2で準備したデータについて、KH Coderを用いて形態素解析を行い、語の出現回数・出版年ごとの出現割合などに基づいて全体的な傾向を可視化[6]したのが図1である。

出版年がランダムではなく、概ね反時計回りに配置されている。これは、タイトルに用いられる語の傾向が、年とともに少しずつ変化しているのを表していると解釈できるだろう。また、1967年、1968年、1970年が、「毛」「主席」「毛沢東(毛泽东)」という語と同方向に、原点から右上に突出する形で配置されている。これは、1967年に始まる文化大革命の影響が、出版物のタイトルにも及んでいると考えるのが自然だろう。

図1 対応分析の結果

「スターリン(斯大林)」「公社」などは原点から遠くに配置されており、出現の仕方に偏りを持つ、つまり特定の年(代)の資料タイトルの中に多く用いられている語と判定されているのに対し、「中国」「人民」などは原点近くに配置され、出現の仕方に偏りが少ない語、つまり30年間概ね一定して資料タイトルの中に用いられている語と判定されていることがわかる。

更に詳細な分析を行う場合、こうした偏りの少ない語に着目してほかの語との関連性を経年的に分析する方法や、分析対象を何らかの条件で分割し、分析結果を比較する方法などがある。本稿では、データの件数が当時の出版点数の①約20%に相当する時期(1949-1965年)②約10%に相当する時期(1966-1978年)[7]に2分割し、それぞれ可視化することとする。図1で、概ね原点の左上+左下+右下(①)と右上(②)に配置された年の出版物を分析することにもなり、異なる傾向が表れることが期待できるためである。

3.年代を区切った分析

1-2で用意したデータを出版年によって2つのファイルに分割し、分析に使用する。KH Coderでは可視化の手法はいくつか用意されているが、今回は、出現傾向が似ている単語同士を線で結んで図示する「共起ネットワーク」[8]を用いる。①の結果が図2、②の結果が図3である。

図2 共起ネットワーク(1949-1965年)

図3 共起ネットワーク(1966-1978年)

単語が線で結ばれて熟語のまとまりを形成しており(以下、このまとまりをサブグラフという。)、熟語から大まかな主題を読み取ることができる。また、図2と図3を比較すると、サブグラフの主題及び同じ主題のサブグラフを構成する単語のどちらについても、出現傾向に違いがあることが指摘できる。例えばサブグラフの主題に関しては、図2は、「ソ連(苏联、苏维埃)」「スターリン」などを含む社会主義思想に関するサブグラフ、「参考書(参考书)」「教程」などを含む教育関連のサブグラフのほか、「科学」「力学」「技術(技术)」など科学技術用語を含むサブグラフが散見されるのに対し、図3は、マルクス(马克思)、エンゲルス(恩格斯)など社会主義思想に関連するサブグラフ、毛沢東・中国共産党(中国共产党)に関連するサブグラフが目立つ。また、同じ主題のサブグラフを構成する単語に関しては、例えば図2及び図3の社会主義思想に関連する単語のサブグラフ(破線の枠内)を比較すると、「ソ連」は①のみ、「革命」は②のみに出現(①では「技術」と結びついて別のサブグラフに出現)しているなど、差異があることが確認できる。

こうした図2と図3の傾向の違いの背景には、中国国内における政治動向や思想・イデオロギーの変化などが存在すると推測される。また、今回分析対象としていない1948年以前・1979年以降についても、図2・図3とは異なる傾向が表れることが予想される。

おわりに

今回の分析に使用した新華コレクションの1949-1978年刊行資料の件数は、当時出版された資料の標本調査に必要な数を十分満たしており」[9]、今回可視化した図は、新華コレクションの特徴のみならず、当時出版された資料の主題の傾向をある程度反映しているものであると推測される。

本稿の分析は一例に過ぎず、可視化の結果も一つの側面を表しているに過ぎない。視点を変えて分析することで、新たな知見が得られる可能性もあると思われる。ご関心のある読者は、データセットをぜひご活用いただきたい[10]



[1] https://rnavi.ndl.go.jp/asia/entry/bulletin18-3-2.php

[2] これまでコレクションの構成に関しては「翻訳を含む文芸書、 毛沢東やレーニン、 マルクス・エンゲルスなどの著作集、 啓蒙書、 実用書、 古典、 連環画など、 ほぼ全分野にわたる」という説明を行うほか、連環画や叢書などの個別の資料群について取り上げ、紹介してきた。
参考:国立国会図書館リサーチ・ナビ>コレクション: 上海新華書店旧蔵書
https://rnavi.ndl.go.jp/asia/entry/shinka.php
「国立国会図書館関西館所蔵中国連環画書名一覧」(『アジア情報室通報』9巻4号)
https://rnavi.ndl.go.jp/asia/entry/bulletin9-4-1.php
「中国の図書館のための叢書―万有文庫」(『アジア情報室通報』7巻1号)
https://rnavi.ndl.go.jp/asia/entry/bulletin7-1-1.php
資料タイトルを対象としたテキストマイニングでは、こうした特定の資料群などに着目することなく全体的な傾向を分析することが可能と思われるが、他方、書誌データに含まれない情報(例えば連環画であるか否か)は捨象されることにも留意する必要がある。

[3] テキストを意味を持つ最小の単位(形態素)に分け、品詞などを判別する解析手法を指す。

[4] https://khcoder.net/
KH Coderの操作方法や分析方法については、ダウンロードファイルにマニュアルが同梱されているほか、次の資料が詳しい。
『社会調査のための計量テキスト分析 : 内容分析の継承と発展を目指して : KH Coder OFFICIAL BOOK 第2版』【国立国会図書館請求記号 EC37-M22】

[5] 「<」「>」など。

[6] 出版年を外部変数として、抽出語の「対応分析」を実行した。なお、「対応分析」で描画される図は、次のような特徴を持つ。
a.出現の仕方に偏りがあるものほど原点(縦軸0と横軸0の交点)から遠くに配置する。
b.関連の強いものは近くに、弱いものは遠くに配置する。
ただし、計算上は外部変数の値の数と同数の次元の図の上に分析対象が配置されるが、外部変数が多い場合は、射影という手法によって次元を減らすための補正処理がなされ、2次元に縮約された図が描画される。その結果、分析対象同士の距離及び外部変数同士の距離には意味がある(上記a)が、分析対象と外部変数の距離自体は意味がないものとなり、分析の際は、原点からのベクトルの向きの類似性と、原点からの距離(上記b)に着目するのが正しいとされている。
詳しくは以下の論文を参照。
樋口耕一「計量テキスト分析における対応分析の活用」(『コンピュータ&エデュケーション』2019 年 47 巻 pp.18-24)
https://www.jstage.jst.go.jp/article/konpyutariyoukyouiku/47/0/47_18/_pdf/-char/ja
本稿の場合、外部変数の値は1949から1978までの30通り存在する。計算上は30次元の図の上に配置された抽出語を、2次元に縮約して描かれたのが図1である。なお図1は、数が多いものは○や□が大きく表示される「バブルプロット」で描画している。

[7] 詳細は前編(脚注1)を参照。

[8] 共起ネットワークは、出現パターンの似通った語,すなわち共起の程度が強い語を線で結んだネットワークを図示する機能である。線でつながっていることがそのまま語と語の共起を示しており、出現パターンの似通った語のグループを探せば,そこからデータ中に多くあらわれたテーマないしはトピックを読み取れる(ソフトウェア同梱のマニュアルによる)。

[9] 母集団の数が正確にわからない場合、回答比率0.5、標本誤差5%、信頼水準95%の調査に必要なサンプル数は384である。
参考:調査に必要な対象者数(統計局ウェブサイト)
https://www.stat.go.jp/koukou/trivia/careers/career8.html
今回分析対象とした1949-1978年の30年のうち、1967-1970年の4年以外のすべての年について、単年のデータ件数が384を上回っている。

[10] 「オープンデータセット(国立国会図書館ウェブサイト)」で公開している。
https://www.ndl.go.jp/jp/dlib/standards/opendataset/index.html

  • 国立国会図書館
  • 国立国会図書館オンライン
  • 国立国会図書館サーチ
  • 国立国会図書館デジタルコレクション
  • ひなぎく
  • レファレンス協同データベース
  • 本の万華鏡
  • 参考書誌研究