« 1月 2005 | Main | 11月 2004 »

図書館のコレクションをデジタル化するGoogleって

2004-12-17

【12/16の記事に加筆訂正しました。】

「Google Print」は、通常のグーグルの検索で「本の中身に含まれる情報」が検索できるしくみ。検索結果で示された本の著作権が切れていれば(パブリックドメインであれば)、一冊まるごと読める。2004年10月、出版社が提供する本についてデジタル化しはじめた。現物をスキャンして得られたデジタル・データを、グーグルのインデックスに加えるのだ。(faqが詳しい。プロジェクトトップはこちら。

もちろん著作権が切れて「いない」本には制限がある。書誌情報と、少しの画像データが例示される程度で、全部を見ることはできない。しかし、本のデータは、グーグルに入っているOCLCの「Open Worldcat」にリンクされているから、地元の図書館がその本を所蔵しているかどうか調べられる。このとき出版社のサイトやアマゾン等へのリンクも示されるという点で、出版社にもメリットがある。

そして今回、5つの大規模図書館との協力が発表された。

図書館のコレクションを「すべて」デジタル化するなどということは、不可能だと見なされるほどに大変な時間とお金が必要だ。(一説では数百万ドル=数億円?。)もちろん図書館にそんな余裕はない。それがこのプログラムではグーグルが「無料」でデジタル化して一般に提供するとともに、データのコピーを図書館が持つことができる。

協力する図書館ごとにまとめてみた。

* ハーバード大学図書館  蔵書数・1500万冊 公式発表
  パイロット・プロジェクトとして、過去6ヶ月で4万冊に着手した。満足行く結果なら、全部をデジタル化する。

* ミシガン大学図書館  蔵書数・700万冊 公式発表
  全コレクションをデジタル化する。700万冊を6年間で行うのが目処。Q&Aもある。

* スタンフォード大学図書館  蔵書数・800万冊 公式発表
  全コレクションのデジタル化にグーグルと合意した。(パイロット・プロジェクトとして?)

* ニューヨーク公共図書館  蔵書数・2000万冊(5000万アイテム) 公式発表
  パイロットプロジェクトとして、パブリックドメインの本のデジタル化を行い、その冊数は1万から10万のあいだになる。

* オックスフォード大学ボードリアン図書館  蔵書数・650万冊(オックスフォード全体では1100万冊) 公式発表
  著作権が切れている1920年以前に出版されたものに限定して、デジタル化する。1週間に1万冊程度。

さてデジタル化の具体的な方法については、「グーグルが開発した非破壊スキャン技術」とか、「ページをめくるような早さで作業ができる」という程度にしか明らかではない。 しかし少し調べると、4DigitalBook社の「Digitizing Line」で作業しているのではないかと推測できる。

キルタス社という推測も多い。日本の代理店はプロダクトテクノロジー社。追記2005.7.22】

これについては「800万冊の本をどのようにデジタル化するのか(How to Digitize Eight Million Books)」というインタビュー記事が、2003年11月12日付けの『本とコンピュータ・英語版』(!)にある。インタビューを受けたマイケル・ケラー氏(Michael Keller)は、スタンフォード大学図書館で本のデジタル化をすすめていたが、そこで使用されていたのが「Digitizing Line」というスキャン用ロボットである。(スタンフォード大学の「Robotic Book Scanning」でも詳しく紹介されている。)

ページを手でめくるなら毎時150~200ページだが、ロボットは毎時600~1,200ページできるうえ、本を損なうことなく、一貫して水平を保って作業を続ける性能がある。ところが約1年半後、今回のグーグル社との協力を報じるニューヨークタイムズの記事では、スタンフォード大学ではこの1か月で1日 50,000ページのスキャンができ、今後その2倍の早さになるという。(性能も上がり、かつ、何台もあるのだろう。)

『本とコンピュータ・英語版』の記事で押さえたいのは、本のデジタル化によって保持するデータ量の話である。デジタル化したデータが1.5ペタバイト、それを使えるようにするためのメタデータなどが1.5ペタバイト、になるという。
※1ペタバイトは10の15乗バイト。ちなみに1ギガバイトは10の9乗バイト

興味ある点はいくつもあるが、「Google Print」それだけを検索する画面を用意しないというのは、正しいと思う。

【そう思っていたが、2005.5.27、本に限定した検索ができるページを公開した。追記:12005.7.13】

ただしポイントを突く「主題検索」が可能になるようなしくみが欲しくなるだろう。「Google Suggest」は典拠コントロールを連想させるが、どうだろうか。

それから、著作権のある現代の本や雑誌、そして電子情報源を、グーグルから見つけ出し、有料で読む、そういう展開も当然あるだろう。

とにかく半年くらい後の、最初の公開を待ちたい。

数年以内に、100年以上前に書かれた英語の本であれば、無料で、相当な量が読めるようになるのだろうか?  いずれにしろ「持てるもの=蔵書を捨てないで多く保存している図書館」の有利さは明らかである。

この事業は、創業者セルゲイ・ブリン氏(Sergey Brin)とラリー・ペイジ氏(Larry Page)がグーグルをはじめる前から実現したかった、という。グーグル社のミッション(使命)は次のようなものだそうです。

「The mission of the company, from the day it started, was to organize the world's information and make it easily accessible.」

2人がスタンフォードの大学院生で、グーグルを開発していた時、スタンフォード大学のデジタル図書館プロジェクトにも従事していたようです。

次の記事を参考にしました。これは『ResourceShelf』で紹介されていたものです。
■記事→Search Engine Watch
■記事→New York Times(抄録のみです。)
■記事→Boston Globe
■記事→Chronicle of Higher Education

Categories: Google, アーカイブ, デジタル化

今年のベストセラーと、本学の貸出ランキング

2004-12-10

2004年のベストセラーを大手取次のトーハンが12月8日に発表した。昨年はハリー・ポッター・シリーズが出ていなかったので、『バカの壁』が1位であったが、今年はどう読み解くかなぁ。

さて、図書館サイトでは『貸出ランキング』を公開しているが、システムリプレイスをはさんで、しばらく更新していなかった。そこで更新中断へのお詫びもこめて、すこしややこしい調べ物をしてみた。ベストセラーと本学での貸出回数を見比べたのだが、上の表が「トーハンのベストセラー」、下の表が「本学の貸出ランキング」の上位である。(いずれも 2003年12月から1年間)

そこからわかることのひとつは、「本学図書館に〈パブリックライブラリー的な側面〉が求められている」ということ。

たしかに、本学へのおもな通学経路である「地下鉄東山線の名古屋駅から本郷駅(星が丘キャンパスへはさらに手前の星が丘駅)」間には、便利な公立の図書館がほとんどない。唯一、名古屋市立千種図書館(星ヶ丘駅、東山公園駅からそれぞれ500m)だけで、あとは愛知県アートライブラリーが栄駅近くにあるくらい。ほかの地下鉄路線で駅から近いのは、愛知県図書館(丸の内駅)、名古屋市立では鶴舞中央図書館(鶴舞駅)、瑞穂図書館(桜山駅)、東図書館(ナゴヤドーム前・矢田)、港図書館(港区役所駅)くらいだ。

こうした環境なので学生が公立の図書館の代わりとして、当館を利用するのだろう。

ただし、次のことも急いで付け加えておこう。図書館利用者1人あたりの貸出冊数である。(各年の4月から11月)

2000年に4.6冊だったのが、2004年には7.2冊と、1.5倍以上の伸び率である。今後、この調子で推移するとは思わないし、貸出冊数だけが指標じゃないので関心は高くないが、どっちでもいいなら高い方がいいとも思う。

※  貸出ランキングを出すには図書館システム(LIMEDIO)の「利用頻度統計」というツールを使う。書誌ごとの「貸出回数」と「貸出人数」をカウントする。
ベストセラー 1~20位(トーハン調べ)
本学での
貸出回数
J.K.ローリング 『ハリー・ポッターと不死鳥の騎士団 』静山社
20
片山恭一『世界の中心で、愛をさけぶ』小学館
30
養老孟司『バカの壁』新潮社
29
Vジャンプ編集部『ドラゴンクエストVIII:空と海と大地と呪われし姫君』集英社
-
アレックス・ロビラ、 フェルナンド・トリアス・デ・ベス『グッドラック』ポプラ社
10
綿矢りさ『蹴りたい背中』河出書房新社
40
村上龍『13歳のハローワーク』幻冬舎
15
『川島隆太教授の脳を鍛える大人の音読ドリル』
『川島隆太教授の脳を鍛える大人の計算ドリル』くもん出版
-
上大岡トメ『キッパリ!:たった5分間で自分を変える方法』幻冬舎
-
10 市川拓司『いま、会いにゆきます』小学館
4
11 池田大作『新・人間革命(12)(13)』聖教新聞社
-
12 養老孟司『死の壁』新潮社
7
13 キム・ウニ、ユン・ウンギョン『もうひとつの冬のソナタ』ワニブックス
-
14 大川隆法『幸福の法』幸福の科学出版
-
15 金原ひとみ『蛇にピアス』集英社
43
16 樋口裕一『頭がいい人、悪い人の話し方』PHP研究所
-
17 小栗左多里『ダーリンは外国人』『ダーリンは外国人 (2)』メディアファクトリー
12
18 キム・ウニ、ユン・ウンギョン『冬のソナタ (上・下)』NHK出版
8
19 原田真裕美『自分のまわりにいいことがいっぱい起こる本』青春出版社
-
20 中野独人『電車男』新潮社
1

同時期(2003.12.1~2004.11.30)の貸出回数ランキング上位21タイトル(2冊以上所蔵するものはタイトルでまとめた延べ回数)は次の通り。

当館の貸出ランキング 1~20位
金原ひとみ『蛇にピアス』
綿矢りさ『蹴りたい背中』
江國香織『東京タワー』
村上春樹『海辺のカフカ (上)』
J. K. ローリング『ハリー・ポッターと炎のゴブレット(上)』
養老孟司『バカの壁』
片山恭一『世界の中心で、愛をさけぶ』
8 石田衣良『4 TEEN』
9 J. K. ローリング『ハリー・ポッターと炎のゴブレット (下)』
10 田中春美、田中幸子『社会心理学への招待』
榎本博明『自己開示の心理学的研究』
宮部みゆき『誰か』
13 よしもとばなな『ハゴロモ』
江國香織『とるにたりないもの』
15 オイゲン・ヘリゲル『日本の弓術』
16 菊池章夫、堀毛一也『社会的スキルの心理学』
浅川照夫、鎌田精三郎『助動詞』
渋谷昌三『人と人との快適距離』
川本静子『カヴァネス (女家庭教師)』
J. K. ローリング『ハリー・ポッターとアズカバンの囚人』
村上春樹『海辺のカフカ (下)』

Categories: ベストセラー, 貸出, 読書