« 今年のベストセラーと、本学の貸出ランキング | Main | 『土佐日記』の完成 »

図書館のコレクションをデジタル化するGoogleって

2004-12-17

【12/16の記事に加筆訂正しました。】

「Google Print」は、通常のグーグルの検索で「本の中身に含まれる情報」が検索できるしくみ。検索結果で示された本の著作権が切れていれば(パブリックドメインであれば)、一冊まるごと読める。2004年10月、出版社が提供する本についてデジタル化しはじめた。現物をスキャンして得られたデジタル・データを、グーグルのインデックスに加えるのだ。(faqが詳しい。プロジェクトトップはこちら。

もちろん著作権が切れて「いない」本には制限がある。書誌情報と、少しの画像データが例示される程度で、全部を見ることはできない。しかし、本のデータは、グーグルに入っているOCLCの「Open Worldcat」にリンクされているから、地元の図書館がその本を所蔵しているかどうか調べられる。このとき出版社のサイトやアマゾン等へのリンクも示されるという点で、出版社にもメリットがある。

そして今回、5つの大規模図書館との協力が発表された。

図書館のコレクションを「すべて」デジタル化するなどということは、不可能だと見なされるほどに大変な時間とお金が必要だ。(一説では数百万ドル=数億円?。)もちろん図書館にそんな余裕はない。それがこのプログラムではグーグルが「無料」でデジタル化して一般に提供するとともに、データのコピーを図書館が持つことができる。

協力する図書館ごとにまとめてみた。

* ハーバード大学図書館  蔵書数・1500万冊 公式発表
  パイロット・プロジェクトとして、過去6ヶ月で4万冊に着手した。満足行く結果なら、全部をデジタル化する。

* ミシガン大学図書館  蔵書数・700万冊 公式発表
  全コレクションをデジタル化する。700万冊を6年間で行うのが目処。Q&Aもある。

* スタンフォード大学図書館  蔵書数・800万冊 公式発表
  全コレクションのデジタル化にグーグルと合意した。(パイロット・プロジェクトとして?)

* ニューヨーク公共図書館  蔵書数・2000万冊(5000万アイテム) 公式発表
  パイロットプロジェクトとして、パブリックドメインの本のデジタル化を行い、その冊数は1万から10万のあいだになる。

* オックスフォード大学ボードリアン図書館  蔵書数・650万冊(オックスフォード全体では1100万冊) 公式発表
  著作権が切れている1920年以前に出版されたものに限定して、デジタル化する。1週間に1万冊程度。

さてデジタル化の具体的な方法については、「グーグルが開発した非破壊スキャン技術」とか、「ページをめくるような早さで作業ができる」という程度にしか明らかではない。 しかし少し調べると、4DigitalBook社の「Digitizing Line」で作業しているのではないかと推測できる。

キルタス社という推測も多い。日本の代理店はプロダクトテクノロジー社。追記2005.7.22】

これについては「800万冊の本をどのようにデジタル化するのか(How to Digitize Eight Million Books)」というインタビュー記事が、2003年11月12日付けの『本とコンピュータ・英語版』(!)にある。インタビューを受けたマイケル・ケラー氏(Michael Keller)は、スタンフォード大学図書館で本のデジタル化をすすめていたが、そこで使用されていたのが「Digitizing Line」というスキャン用ロボットである。(スタンフォード大学の「Robotic Book Scanning」でも詳しく紹介されている。)

ページを手でめくるなら毎時150~200ページだが、ロボットは毎時600~1,200ページできるうえ、本を損なうことなく、一貫して水平を保って作業を続ける性能がある。ところが約1年半後、今回のグーグル社との協力を報じるニューヨークタイムズの記事では、スタンフォード大学ではこの1か月で1日 50,000ページのスキャンができ、今後その2倍の早さになるという。(性能も上がり、かつ、何台もあるのだろう。)

『本とコンピュータ・英語版』の記事で押さえたいのは、本のデジタル化によって保持するデータ量の話である。デジタル化したデータが1.5ペタバイト、それを使えるようにするためのメタデータなどが1.5ペタバイト、になるという。
※1ペタバイトは10の15乗バイト。ちなみに1ギガバイトは10の9乗バイト

興味ある点はいくつもあるが、「Google Print」それだけを検索する画面を用意しないというのは、正しいと思う。

【そう思っていたが、2005.5.27、本に限定した検索ができるページを公開した。追記:12005.7.13】

ただしポイントを突く「主題検索」が可能になるようなしくみが欲しくなるだろう。「Google Suggest」は典拠コントロールを連想させるが、どうだろうか。

それから、著作権のある現代の本や雑誌、そして電子情報源を、グーグルから見つけ出し、有料で読む、そういう展開も当然あるだろう。

とにかく半年くらい後の、最初の公開を待ちたい。

数年以内に、100年以上前に書かれた英語の本であれば、無料で、相当な量が読めるようになるのだろうか?  いずれにしろ「持てるもの=蔵書を捨てないで多く保存している図書館」の有利さは明らかである。

この事業は、創業者セルゲイ・ブリン氏(Sergey Brin)とラリー・ペイジ氏(Larry Page)がグーグルをはじめる前から実現したかった、という。グーグル社のミッション(使命)は次のようなものだそうです。

「The mission of the company, from the day it started, was to organize the world's information and make it easily accessible.」

2人がスタンフォードの大学院生で、グーグルを開発していた時、スタンフォード大学のデジタル図書館プロジェクトにも従事していたようです。

次の記事を参考にしました。これは『ResourceShelf』で紹介されていたものです。
■記事→Search Engine Watch
■記事→New York Times(抄録のみです。)
■記事→Boston Globe
■記事→Chronicle of Higher Education

Categories: Google, アーカイブ, デジタル化