2007年01月29日

Google書籍検索がGoogle Mapsとリンク

Google書籍検索がGoogle Mapsとリンク
2007年01月29日 18時07分 更新
http://www.itmedia.co.jp/news/articles/0701/29/news059.html
ITmedia

 Googleの書籍検索に、本の中に出てきた地名を地図表示する新機能が加わった。

 あの本に出てきたあの場所はどこにある――?

 Googleは先週、書籍の中に登場する地名を地図上に表示する機能を「Google Book Search」に導入した。

 Google Book Searchの検索結果ページで書籍タイトルの下にある「About this book」リンクをクリックすると、書籍に登場する地名をマッピングしたGoogle Mapsが表示される。その下には地名が登場するページと本文の抜粋が表示される。

 地図表示に適した場所が書籍の中に多数あるとGoogleのシステムが判断した場合にGoogle Mapsが表示されるため、書籍によっては地図が表示されないものもある。

posted by gljblog at 00:00| Google Book Searchプロジェクト | このブログの読者になる | 更新情報をチェックする

Google Book Search + Google Map

2007年1月29日(月曜日)
Google Book Search + Google Map

Google Book Searchのコンテンツに含まれている地理情報を、Google Map上に自動的に投影する機能が、Google Book Searchに加わったようです。(ただし、2007年1月29日現在、日本からは見られないようです。)

Books: Mapped - Inside Google Book Search
http://booksearch.blogspot.com/2007/01/books-mapped.html
Explore the world through books - Google Librarian Central
http://librariancentral.blogspot.com/2007/01/explore-world-through-books.html

posted by gljblog at 00:00| Google Book Searchプロジェクト | このブログの読者になる | 更新情報をチェックする

Google書籍検索がGoogle Mapsとリンク

Google書籍検索がGoogle Mapsとリンク

Googleの書籍検索に、本の中に出てきた地名を地図表示する新機能が加わった。

2007年01月29日 18時07分 更新
http://www.itmedia.co.jp/bizid/articles/0701/29/news059.html

 あの本に出てきたあの場所はどこにある――?

 Googleは先週、書籍の中に登場する地名を地図上に表示する機能を「Google Book Search」に導入した。

 Google Book Searchの検索結果ページで書籍タイトルの下にある「About this book」リンクをクリックすると、書籍に登場する地名をマッピングしたGoogle Mapsが表示される。その下には地名が登場するページと本文の抜粋が表示される。

 地図表示に適した場所が書籍の中に多数あるとGoogleのシステムが判断した場合にGoogle Mapsが表示されるため、書籍によっては地図が表示されないものもある。

posted by gljblog at 00:00| Google Book Searchプロジェクト | このブログの読者になる | 更新情報をチェックする

Google Book Searchに新機能,書籍内に登場する場所を地図に表示

Google Book Searchに新機能,書籍内に登場する場所を地図に表示

 米Googleは書籍検索サイト「Google Book Search」(ベータ版)に,地図情報サービス「Google Maps」と連携する「Places mentioned in this book」を追加する。ソフトウエア・エンジニアのDavid Petrou氏が,Google Book Searchに関する公式ブログへの投稿で米国時間1月25日に明らかにした。

 Places mentioned in this bookは,書籍で触れている都市や場所を地図上で表示する。地図の下には,それぞれの場所が書籍内で登場する文章の一部と,記載されているページが表示される。

 1888年に発行されたニューヨーク観光ガイド「Illustrated New York」や2002年発行の「New York City」,トルストイの小説「戦争と平和」など,すでに一部の書籍について同機能の実装を始めている。Places mentioned in this bookは検索した書籍の「About this book」ページで閲覧できる。

 「旅行の企画や学術目的の地域リサーチに役立ててほしい。また,お気に入りの小説の登場人物がよく通う場所を視覚的に確認するという楽しみ方もできる」(Petrou氏)という。

[Petrou氏の投稿記事]
(ITpro)  [2007/01/29]

http://itpro.nikkeibp.co.jp/article/NEWS/20070129/259815/
posted by gljblog at 00:00| Google Book Searchプロジェクト | このブログの読者になる | 更新情報をチェックする

2007年01月25日

Microsoftのオンライン・サービスに「書籍検索」が加わる

Microsoftのオンライン・サービスに「書籍検索」が加わる
http://itpro.nikkeibp.co.jp/article/COLUMN/20070123/259405/

 米Microsoftは2006年12月に,新しいオンライン・サービス「Windows Live Book Search」の提供を開始した。これは,「Google Book Search」の対抗サービスで,デジタル・データとしてアーカイブされたコンテンツの検索を可能にする。現在はベータ版として米国内でのみ利用可能だが,Live Book Searchには長い間絶版となっていた書籍も,コンテンツとして含まれている。

 MicrosoftのPublisher Evangelism担当DirectorであるCliff Guren氏は自身のブログで,「Windows Live Book Searchは,ライブラリ・スキャン機能を利用して,カリフォルニア大学やトロント大学,英国図書館などから,何万冊にも及ぶ版権切れの書籍を検索できるようになる」と語る。彼はこう続けている「さらに,ニューヨーク公共図書館およびAmerican Museum of Veterinary Medicineとも新しくパートナシップを締結した。書籍としてのみ存在する信頼できかつ権威あるコンテンツは,今日でも非常に多い。Windows Live Book Searchのリリースによって,これらのコンテンツが人目に触れるようになり,簡単に読めるようになるための最初の一歩を踏み出した」。

 Microsoftは著作権の切れていない書籍の「一括スキャン」は行わず,著作権のある出版物については出版社に任せると述べている。これは2006年の初めに,著作権の切れていない書籍をスキャンし,コンテンツをオンラインで利用可能にするプランを発表して出版社の怒りを買った競合相手のGoogleに対する暗黙的な中傷である。出版社や一部の作家,作家団体などは,Googleのこの問題のあるプランに対して,米国内で訴訟を起こしている。

 Live Book Searchのパブリック・ベータ版は,米国内のユーザーであれば
http://search.live.com/results.aspx?q=&scope=books」,というURLからアクセスできる。(訳注:日本のユーザーでも,上記のURLに「&mkt=en-us」という文字列を追加して,
http://search.live.com/results.aspx?q=&scope=books&mkt=en-us」というURLにアクセスすれば,Live Book Search(英語版)を利用できる。

[2007/01/25]
posted by gljblog at 00:00| その他の蔵書デジタル化計画 | このブログの読者になる | 更新情報をチェックする

Microsoftのオンライン・サービスに「書籍検索」が加わる

Microsoftのオンライン・サービスに「書籍検索」が加わる

 米Microsoftは2006年12月に,新しいオンライン・サービス「Windows Live Book Search」の提供を開始した。これは,「Google Book Search」の対抗サービスで,デジタル・データとしてアーカイブされたコンテンツの検索を可能にする。現在はベータ版として米国内でのみ利用可能だが,Live Book Searchには長い間絶版となっていた書籍も,コンテンツとして含まれている。

 MicrosoftのPublisher Evangelism担当DirectorであるCliff Guren氏は自身のブログで,「Windows Live Book Searchは,ライブラリ・スキャン機能を利用して,カリフォルニア大学やトロント大学,英国図書館などから,何万冊にも及ぶ版権切れの書籍を検索できるようになる」と語る。彼はこう続けている「さらに,ニューヨーク公共図書館およびAmerican Museum of Veterinary Medicineとも新しくパートナシップを締結した。書籍としてのみ存在する信頼できかつ権威あるコンテンツは,今日でも非常に多い。Windows Live Book Searchのリリースによって,これらのコンテンツが人目に触れるようになり,簡単に読めるようになるための最初の一歩を踏み出した」。

 Microsoftは著作権の切れていない書籍の「一括スキャン」は行わず,著作権のある出版物については出版社に任せると述べている。これは2006年の初めに,著作権の切れていない書籍をスキャンし,コンテンツをオンラインで利用可能にするプランを発表して出版社の怒りを買った競合相手のGoogleに対する暗黙的な中傷である。出版社や一部の作家,作家団体などは,Googleのこの問題のあるプランに対して,米国内で訴訟を起こしている。

 Live Book Searchのパブリック・ベータ版は,米国内のユーザーであれば
http://search.live.com/results.aspx?q=&scope=books」,というURLからアクセスできる。(訳注:日本のユーザーでも,上記のURLに「&mkt=en-us」という文字列を追加して,
http://search.live.com/results.aspx?q=&scope=books&mkt=en-us」というURLにアクセスすれば,Live Book Search(英語版)を利用できる。

(Windows IT Pro, (C)2007. Penton Media, Inc.)
(Paul Thurrott)  [2007/01/25]
http://itpro.nikkeibp.co.jp/article/COLUMN/20070123/259405/
posted by gljblog at 00:00| その他の蔵書デジタル化計画 | このブログの読者になる | 更新情報をチェックする

2007年01月23日

Google、電子ブックの販売も計画?

2007年1月23日(火曜日)
Google、電子ブックの販売も計画?

英The Sunday Times紙がGoogle Book Searchの欧州担当者に行ったインタビューによると、Googleは将来的には電子ブックの販売も視野に入れているとのことです。同社の今後の動向が注目されます。

Google plots e-books coup - The Sunday Times
http://www.timesonline.co.uk/article/0,,2095-2557728,00.html

Google Book Search担当者、電子書籍販売プラットフォームの開発を示唆? - hon.jp
http://hon.jp/news/1.0/0/890/
グーグル、書籍のダウンロードサービスを計画か–ブログ界の反応 - CNET Japan
http://japan.cnet.com/news/media/story/0,2000056023,20341274,00.htm
posted by gljblog at 00:00| Google Book Searchプロジェクト | このブログの読者になる | 更新情報をチェックする

グーグル、書籍のダウンロードサービスを計画か--ブログ界の反応

http://japan.cnet.com/news/media/story/0,2000056023,20341274,00.htm

グーグル、書籍のダウンロードサービスを計画か--ブログ界の反応
文:Margaret Kane(CNET News.com)
2007/01/23 18:06

 報道によると、Googleでは、コンピュータに書籍をダウンロードし、BlackBerryのようなモバイル端末で読めるようにする計画だという。

 英The Times Onlineの報道によると、この取り組みは、世界の図書館にある蔵書をスキャンしてデジタル化する「Google Book Search」プロジェクトの下で進められるという。Google Book Searchプロジェクトは、出版社や作家らが著作権の侵害を訴えるなど、これまで物議をかもしてきた。

 欧州でGoogle Book Searchに取り組むディレクターのJens Redmer氏は(The Times Onlineの記事の中で)「休暇に出かける旅先の情報を借りたり、書籍の中のある章だけを買ったりしたいというニーズもあるかもしれない。本の読まれ方を決めるのは、読者だ」とコメントしている。

 電子書籍の分野ではまだ、これといって大きく成功している企業はない。Googleの取り組みが、電子書籍の分野を切り開くことになるのだろうか。

 以下がこのニュースに対するブログコミュニティーの反応である。

 「Googleが書籍のダウンロードビジネスに参入すれば、電子書籍は注目を浴びることになるだろう。しかし、だからといって電子書籍が突然ブームになるとも考えられない。Googleは検索には長けているが、電子書籍の分野ではとても苦労するだろう」--Mark Evans

 「大きな枠組みで捉えると、Googleによる電子書籍の小売り業参入はE Inkの技術を採用した電子書籍リーダーの登場よりも、はるかに重要な意味を持つかもしれない。PDAや携帯電話、デスクトップを表示装置とする市場が今も残っているのだから」----TeleRead

 「Googleは、印刷された全ての書籍を検索可能にしたがっているとして、多くの人々から非難を浴びている。懸念を表明しているのは、著作権の問題や盗作を気にする人たちだ。ここで興味深いのは、Googleのシステムのおかげで、売り上げが向上したと発表している出版社がいくつか存在することだ。もう1つ言わせてもらうと、現在の電子書籍に採用されている役立たずなDRMの仕組みより良いものが出来上がるに決まっているのだから、やはり自分はGoogleを応援したい」--GottaBeMobile
posted by gljblog at 00:00| Google Book Searchプロジェクト | このブログの読者になる | 更新情報をチェックする

2007年01月22日

Google Book Searchにテキサス大学オースティン校も加わる

2007年1月22日(月曜日)
Google Book Searchにテキサス大学オースティン校も加わる
http://www.dap.ndl.go.jp/ca/modules/car/index.php?p=2910

Googleの書籍デジタル化プロジェクト“Google Book Seach”に、テキサス大学オースティン校が加わると発表されました。同校の図書館は全米で5番目の規模で、中南米の貴重書・手稿などを集めたNettie Lee Bensonコレクションなどが有名とのことです。

University of Texas at Austin becomes our latest library partner - Inside Google Book Search
http://booksearch.blogspot.com/2007/01/university-of-texas-at-austin-becomes.html
The University of Texas Libraries Partner with Google to Digitize Books - The University of Texas at Austin
http://www.utexas.edu/opa/news/2007/01/libraries19.html

posted by gljblog at 00:00| Google Book Searchプロジェクト | このブログの読者になる | 更新情報をチェックする

Google Library Keeps Growing, and Growing

http://www.gameshout.com/news/google_library_keeps_growing_and_growing/article8907.htm

Google Library Keeps Growing, and Growing
Posted Jan 22, 2007, 2:44 PM ET

Google has added another major U.S. college library to it's library project to put all the world's books online.

The University of Texas library in Austin Texas has better than one million written works, and Google intends to convert them all into digital format and add them to the Google Library Project. Some of the university's collection includes some rare books and manuscripts from early Latin American history.

University director of libraries Fred Heath said in a statement today that "Intellectual discovery is at the heart of the scholarly research process." Be further added that "the best collections of information are only as useful as the quality of the tools available for discovering and accessing that information."

Google initiated the Google Book Search project in 2004. Its aim was to scan every literary work into digital format and make them available online. Google has partnered with the New York Public Library and major universities such as Harvard, Oxford, Complutense of Madrid and the University of California to add their collections to its virtual book shelves.

They have of course faced some opposition as received outcries from publishing houses and authors. For this reason, Google modified its online library to offer only summaries of copyrighted works along with information regarding where to buy or borrow the books. Additionally they have seen complaints saying that since Google is a U.S. company, they are favoring only English works, but Google plans on rolling out a Google Book Search in French.
posted by gljblog at 00:00| Google Book Searchプロジェクト | このブログの読者になる | 更新情報をチェックする

Googleの書籍本文検索プロジェクトにテキサス大学が参加,100万冊以上をデジタル化

http://itpro.nikkeibp.co.jp/article/NEWS/20070122/259203/

Googleの書籍本文検索プロジェクトにテキサス大学が参加,100万冊以上をデジタル化

 米Googleは米国時間1月19日,同社の書籍本文検索プロジェクト「Google Books Library Project」に,テキサス大学オースチン校(UTA)が参加すると発表した。UTAの図書館は,米国大学のなかで5番目の規模を持ち,Nettie Lee Benson氏の中南米に関する蔵書で有名という。

 これにより,GoogleはUTAと協力して100万冊以上の書籍をデジタル化し,書籍検索サイト「Google Book Search」(ベータ版)で本文を検索できるようにする。著作権が消滅している書籍に関しては,全テキストの閲覧や検索が可能(関連記事)。一方,著作権が保護されている書籍は,タイトルと著作者名,検索キーワード周辺の数行だけを表示する。

 なお,Google Books Library Projectには既にミシガン大学,ハーバード大学,スタンフォード大学,カリフォルニア大学,スペインのマドリッド・コンプルテンセ大学,ニューヨーク公立図書館,英国のオックスフォード大学などが参加しているが,著作権の観点からさまざまな論議を呼んでいる(関連記事)。

(ITpro)  [2007/01/22]

posted by gljblog at 00:00| Google Book Searchプロジェクト | このブログの読者になる | 更新情報をチェックする

Google's library grows and grows

http://australianit.news.com.au/articles/0,7204,21097119%5E15841%5E%5Enbv%5E,00.html

Google's library grows and grows
Correspondents in San Francisco
JANUARY 22, 2007

GOOGLE has announced that another major US college library had joined its controversial project to put the world's books online.

The more than one million written works at the University of Texas library in Austin will be converted to digital format and added to Google Books Library Project.
The university's collection includes rare books and manuscripts from early Latin American history, Google said.

"Intellectual discovery is at the heart of the scholarly research process," university director of libraries Fred Heath said in a statement.

"The best collections of information are only as useful as the quality of the tools available for discovering and accessing that information."

The Google Book Search project was initiated in 2004 with the aim of scanning every literary work into digital format and making them available online.

Google has partnerships with the New York Public Library and major universities such as Harvard, Oxford, Complutense of Madrid and the University of California to add their collections to its virtual book shelves.

The company has stored on its searchable database classic works in the public domain, along with copyrighted books either sent with or without the publishers' permission.

After outcries from publishing houses and authors, Google modified its online library to offer only summaries of copyrighted works along with information regarding where to buy or borrow the books.

Google has rejected claims that, being based in the United States, it has favoured English and it promised it would next roll out a Google Book Search in French.

Opposition to the project, particularly by French and US editors, resulted in a group of book publishers forming the Open Content Alliance (OCA) in October of 2005.

The OCA is a non-profit organisation which joins together an array of universities, foundations, and data processors to create a "common pot" of digitised books available online for download or printing.

The OCA won the support of Yahoo, which was to tailor a search engine for the alliance and finance converting 18,000 books to digital format.

Microsoft promised to contribute 150,000 digitised books to the OCA collection. The OCA hoped to recruit the National Library of France, where 90,000 books have already been scanned.

Microsoft launched an online library in December in a move that pits the world's biggest software company against Google's book project.

Microsoft said the US test version of Live Search Books featured tens of thousands of out-of-copyright books, including works held by the British library and major universities in the United States and Canada.

Microsoft has book-scanning partnerships with New York Public Library and the American Museum of Veterinary Medicine. It also has agreements with the University of California system and the University of Toronto.

At stake for the companies were revenues that could be raked in by placing ads on web pages visited by book-seeking internet surfers.

Reuters


posted by gljblog at 00:00| Google Book Searchプロジェクト | このブログの読者になる | 更新情報をチェックする

2007年01月20日

Google Books Libraryにテキサス大学オースティン校が参加

Google Books Libraryにテキサス大学オースティン校が参加

全米の大学図書館で第5位の規模を誇るテキサス大学オースティン校が、Google書籍検索プロジェクトへの参加を表明した。

2007年01月20日 07時36分 更新
http://www.itmedia.co.jp/news/articles/0701/20/news005.html

 米Googleは1月19日、テキサス大学オースティン校がGoogle書籍検索プロジェクトに参加したと発表した。同大学図書館は全米の大学図書館のなかでも第5位の規模を誇り、特にラテンアメリカ関連のコレクションBenson Collectionは世界的にも有名だ。

 Benson Collectionは当初、メキシコに関する希少本や文書の寄贈から始まったが、現在ではラテンアメリカに関連する豊富な文献を蔵する。特にブラジル、チリ、ペルー関連の書籍は充実しており、アルゼンチンや中央アメリカ諸国の書籍も多い。同コレクションはラテンアメリカの歴史、政治、社会学、著名な作者の文献を年代順に保管している。

 Googleとテキサス大学は、100万冊以上を共同でデジタル化していく計画で、誰もがWeb上で自由に閲覧可能となる。著作権の存在する書籍については、書籍のタイトルと作者名、書籍に関する簡単な情報と購入(または借り出し)方法が表示される。

posted by gljblog at 00:00| Google Book Searchプロジェクト | このブログの読者になる | 更新情報をチェックする

Google Books Libraryにテキサス大学オースティン校が参加

Google Books Libraryにテキサス大学オースティン校が参加

全米の大学図書館で第5位の規模を誇るテキサス大学オースティン校が、Google書籍検索プロジェクトへの参加を表明した。

2007年01月20日 07時36分 更新
http://www.itmedia.co.jp/news/articles/0701/20/news005.html

 米Googleは1月19日、テキサス大学オースティン校がGoogle書籍検索プロジェクトに参加したと発表した。同大学図書館は全米の大学図書館のなかでも第5位の規模を誇り、特にラテンアメリカ関連のコレクションBenson Collectionは世界的にも有名だ。

 Benson Collectionは当初、メキシコに関する希少本や文書の寄贈から始まったが、現在ではラテンアメリカに関連する豊富な文献を蔵する。特にブラジル、チリ、ペルー関連の書籍は充実しており、アルゼンチンや中央アメリカ諸国の書籍も多い。同コレクションはラテンアメリカの歴史、政治、社会学、著名な作者の文献を年代順に保管している。

 Googleとテキサス大学は、100万冊以上を共同でデジタル化していく計画で、誰もがWeb上で自由に閲覧可能となる。著作権の存在する書籍については、書籍のタイトルと作者名、書籍に関する簡単な情報と購入(または借り出し)方法が表示される。

posted by gljblog at 00:00| Google Book Searchプロジェクト | このブログの読者になる | 更新情報をチェックする

2007年01月17日

Google Librarian Central Blog


Google Librarian Central Blog
http://librariancentral.blogspot.com/
posted by gljblog at 00:00| その他のGoogle | このブログの読者になる | 更新情報をチェックする

2007年01月12日

『古事類苑』の電子化プロジェクトが進行中

http://www.dap.ndl.go.jp/ca/modules/car/index.php?p=2861

『古事類苑』の電子化プロジェクトが進行中
2007年1月12日(金曜日)

国際日本文化研究センターの山田奨治助教授が中心となり、『古事類苑』の電子化プロジェクトが進行しているようです。すでに本文画像のスキャニングとテキスト入力を完了し、現在テキストデータに対する校正、Unicode、外字対応といった作業が進められているそうです。また、『古事類苑』が内包する概念体系をシソーラス辞書化、さらに概念体系内部における語彙の位置を示す「Uniform Concept Locater (UCL) 」の定義を目指しているそうです。
公開のための作業が完了した「天部」が、日文研の山田研究室と国文学研究資料館のウェブサイトで公開されています。また将来的にはWikiでの公開も計画されているそうです。

電子化古事類苑プロジェクト(国際日本文化研究センター山田奨治研究室ウェブサイトより)
http://www.nichibun.ac.jp/~shoji/cgi-bin/dmh/wiki.cgi?page=%C5%C5%BB%D2%B2%BD%B8%
C5%BB%F6%CE%E0%B1%F1%A5%D7%A5%ED%A5%B8%A5%A7%A5%AF%A5%C8

『古事類苑』天部 HTML版
http://www.nichibun.ac.jp/~shoji/kojiruien-test/ten/

山田奨治, 早川聞多, 相田満: 古事類苑(天部・地部)の全文入力とWiki版の試行−前近代の文化概念の情報資源化−, 情報処理学会研究報告, Vol,2006, No.112, pp.39-46, 2006.(国際日本文化研究センター山田奨治研究室 「電子化古事類苑プロジェクトウェブサイト」より)
http://www.nichibun.ac.jp/~shoji/archives/CH-72-6.pdf

古事類苑検索試験システム(国文学研究資料館版)
http://base1.nijl.ac.jp/~kojiruien/ruientop

総合日本文化研究実践教育プログラム - e-learning事業群(「古事類苑データーベース開発事業」が紹介されています)
http://www.initiative.soken.ac.jp/5jigyo/5jigyo_e-learning.html

niform Concept Locaterと「本の路線図化」(bookscanner記 2007年1月12日付記事より)
http://d.hatena.ne.jp/bookscanner/20070112/p1
posted by gljblog at 00:00| その他の蔵書デジタル化計画 | このブログの読者になる | 更新情報をチェックする

2007年01月11日

カタロニア国立図書館が“Google Book Search”プロジェクトに加わる(スペイン)

2007年1月11日(木曜日)
カタロニア国立図書館が“Google Book Search”プロジェクトに加わる(スペイン)

“Inside Google Book Search"によると、スペインのカタロニア国立図書館が“Google Book Search”プロジェクトに加わるようです。なお1/11の時点で、カタロニア国立図書館からの公式発表はなされていません。

The National Library of Catalonia joins the Library Project
http://booksearch.blogspot.com/2007/01/national-library-of-catalonia-joins.html

Biblioteca de Catalunya
http://www.bnc.cat/
posted by gljblog at 00:00| Google Book Searchプロジェクト | このブログの読者になる | 更新情報をチェックする

カタロニア国立図書館が“Google Book Search”プロジェクトに加わる(スペイン)

http://www.dap.ndl.go.jp/ca/modules/car/index.php?p=2844

カタロニア国立図書館が“Google Book Search”プロジェクトに加わる(スペイン)

“Inside Google Book Search"によると、スペインのカタロニア国立図書館が“Google Book Search”プロジェクトに加わるようです。なお1/11の時点で、カタロニア国立図書館からの公式発表はなされていません。

The National Library of Catalonia joins the Library Project
http://booksearch.blogspot.com/2007/01/national-library-of-catalonia-joins.html

Biblioteca de Catalunya
http://www.bnc.cat/

posted by gljblog at 00:00| Google Book Searchプロジェクト | このブログの読者になる | 更新情報をチェックする

2007年01月09日

ICADL2006 - Google Book Search技術担当者が語るデジタルアーカイブ

【レポート】
ICADL2006 - Google Book Search技術担当者が語るデジタルアーカイブ
2007/01/09
http://journal.mycom.co.jp/articles/2007/01/09/icadl/menu.html


(1) Google Book Searchの驚異

人類の知=書物すべてを検索可能へ

サーチエンジンを手始めに、Google マップ、Gmailと多角展開しつつ、売り上げの90%を広告から得ている広告企業Google。そのGoogleが目標に掲げるのが、これまでの人類の知すべてを検索可能にすることである。

具体的にGoogleが進めているプロジェクトが、これまでに刊行された書物すべてをスキャンしてデジタル化し、OCRでテキスト化、検索可能にする「Google Book Search」(日本では「Google ブック検索」)である。

Googleは、アメリカ内外の大学図書館や公共図書館と協力して、全書籍のデジタル化を進めている。パートナーには、ハーバード大学、ミシガン大学、カリフォルニア大学、オックスフォード大学、スタンフォード大学、ニューヨーク公共図書館などが名を連ねる。ちなみに、それぞれの蔵書には日本の出版社の蔵書も含まれていて、それらも分け隔てなくスキャンの対象となっている。

このGoogle Book Searchには、驚かされるところがいくつもある。

ひとつは、ブルドーザー的なスキャンの規模である。

もうひとつは、著作権への対応である。

ご存じかと思うが、筆者は『記憶する住宅』というプロジェクトで、これまでに約100万ページのデータをスキャンおよびデジタル写真によって蓄積してきた。1冊200ページの書物として換算すると、だいたい5,000冊分に相当する。これは個人の規模としては充分大きいが、Googleのやろうとしている規模にはとうてい及ばない。というか、Googleの全書籍のスキャンと比較すると、ドン・キホーテ的な香りもする。

全書籍とは、なんとも勇ましいというか、うらやましいというか、いったい、これはどういうことなのだろうか。

米GoogleのBook Searchプロジェクトの技術責任者であるDaniel Clancy(ダニエル・クランシー)氏が来日して講演した。


(2) Google創業者、ラリーとサーゲイのアイデアとは

デジタルライブラリーを作ろう

ダニエル・クランシー氏の講演は、Googleの歴史から始まった。Googleはご存じのように、スタンフォード大学の学生だったラリー・ペイジ氏とサーゲイ・ブリン氏が共同で創業した。

「Googleは情報にアクセスするのを容易にした」とクランシー氏はいう。「人びとはlazy(怠け者)で、ちょっとだけの文字(をタイプして)大量の情報にアクセスしたいと思っている。Googleは求めているものを提供した」

ラリーとサーゲイのアイデア(Larry and Sergey's Idea)。それは、「デジタルライブラリーを作ろう」というものだった。「デジタルライブラリーは必要で役に立つ」と考えたのだ。「すべての情報とおなじように、ひとはすべての本にアクセスしたいと思っている」

これは筆者自身の体験でもあるのだが、デジタル化した書物は、じっさいに本棚に入って死蔵しがちの書物より、ずっと身近に感じられるようになってくる場合がある。とくに、書棚に本があふれて、本が前後二段に入っていて、どこに求める本があるかどうかわからないような場合には顕著だ。

最初に読むときには紙の本のほうが2万倍くらい優れているけれど、一度読み終わったあとで、もう一度本にアクセスしたいと思ったら、デジタル化された本のほうが、ずっと効率的にアクセスすることが可能だ。

「Googleのミッションは、世界の情報を体系づけ、アクセス可能にし、役立てること」とクランシー氏はいう。そして、その対象となるのが、オンラインコンテンツでありすでに検索対象となっているWebページと、オフラインコンテンツでありまだインデックス化されていない厖大な書物なのである。


米GoogleのBook Searchプロジェクトは、世界中の本を完全に検索可能にすることを目的とする


著作権の切れた85%
Googleが打ち出すふたつの方針とゴールは、次のようなものだ。

まず、出版社と協力して行う「出版社向けプログラム」。

Googleによれば、過去ならびに現在出版されたすべての書籍のうち、わずか15%が流通している状態にある。これらをスキャンするのが出版社向けプログラムである。

残りの85%は、絶版になっていたり、すでに著作権の切れているもの。これらの本は図書館でしか見つけることができず、これをスキャンするのが「図書館プロジェクト」である。

そして、Googleスキャンのゴールは、出版社の権利をクリアした状態で、すべての書籍の総合的なスキャンを完了することだ。

「Googleは、法律を遵守する」とクランシー氏はいう。

書籍のスキャンというと、著作権の問題をどうクリアするかは、きわめて重要なテーマとなる。


(3) "すべての本"とは一体なにか

歴史的に誕生したすべての本はわずか4億冊

すべての本。

ここで問題なのが、じゃあぜんぶの本というのは、どのくらいあるんだ、という話である。

クランシー氏によれば、各図書館の蔵書数は、700万〜2,400万冊。合計するとざっと1億冊となる。ここには重複しているものもあるだろう。Googleの見積もりでは3,000万冊となっている。

別の計算もできるかもしれない。

日本で1年間に出版される本の冊数は74,587点(2004年)である。1980年ごろには、5万冊を超えたというような話があった。戦後、紙が少なかったころにはもっと小規模だったが、グーテンベルグの15世紀以降、約500年にわたって本は出版されてきたわけだ。

とくに、20世紀後半(戦後)の50年と現在までを書物の爆発期としてひじょうに大ざっぱに計算すると、次のようになる。

7万冊/年間×(2006-1945年)=430万冊。

この50年間に、日本で出版された全書籍の合計は、ざっと430万冊である。

日本の図書といえば、明治からスタートし、主として納本によって「すべての本」を収蔵している国立国会図書館の蔵書数が目安となる。2005年度の蔵書数は、図書8,598,798冊(うち、和漢書6,199,302冊、洋書2,399,496冊)。620万冊である。書店で販売する書籍と国会図書館のいう図書との概念にはややずれがあるだろうし、先の430万冊は1945年以前の書籍は含まれていないから、620万冊というのはまあ納得できる数である。

外務省によれば、世界には2006年7月現在で、192の国がある。これほどの大規模な出版というのは、それなりに国が安定していなければできないだろうから、このうち半数の85カ国で毎年7万冊出版されたと仮定しよう。たとえば、『A Wild Haruki Chase 世界は村上春樹をどう読むか』(文藝春秋 柴田元幸ら編)によれば、村上春樹の本は世界の40カ国近くで翻訳されているという。そうだとすれば、本ということでいえば、85カ国というのはあながち根拠が皆無ということでもないだろう。合計の本は次のようになる。

7万冊/年間×61年×85カ国=3億6,295万冊。ざっと3.6億冊である。620万冊×85カ国としても5.3億冊にとどまる。

全書籍をスキャンする作業量

Googleの統計の1億冊よりも多めの見積もりになるが、それはまあ数字を多めにとっているための誤差だ。こういうのを誤差といってよいのか微妙ではあるが、まあ人間がこれまでに作ってきた本の総数は、1億冊から4億冊程度で収まる、と考えてよいだろう。これだけ大ざっぱに計算してわずか4倍程度の差もないのだ。この数字の桁が、何桁も違うことは考えにくい。たとえば、1兆冊とかではない、ということだ。

1億冊とか4億冊というのは、もちろん充分に多い。充分に多いけれど、思った程でもないな、というのが筆者を始めとするおおぜいの感じるところではないだろうか。

ひとりで5,000冊スキャンするとしたら、4億冊をスキャンするとして、のべわずか8万人で足りるのである。10年で作業するとすれば8,000人でよい。

あるいはまた、スキャナーの性能からでもいい。キヤノンのもっとも安価なドキュメントスキャナ「DR-2050C」は、性能上1日に700枚程度のスキャンが推奨されている。ざっと200ページの書籍3冊分である。これを使って、1年間に200日スキャンしたとすると、1年間で600冊をスキャンできることになる。のべ7万人(7万台)で10年作業をすれば、4億冊である。作業量から計算しても、4億冊は「たったその程度」の分量にすぎない。「歴史上刊行された全書物」というバベルの塔的な途方もなさに較べれば、これは充分現実的な数字だ。

「いまGoogleは、書籍のデジタル化にフォーカスしている。その仕事はとてもかんたんな仕事のひとつだ」とクランシー氏は説明する。たしかに、本のスキャンはコピー取りと同程度にかんたんな仕事である。


テクノロジーが可能にする!
「これから24年で、書籍の一次情報へのアクセスをテクノロジーが可能にする。これは革命だ」とクランシー氏は断言する。すべての書籍のオリジナルソース、オリジナル情報にアクセスできるようになるのだ。

Googleとパートナーによるその1億冊の本の内訳は、次のとおりだ。

15%は現在出版されていて著作権の現存するもの。65%が著作権が明瞭でないもの。著作権の寿命からいって、1923年以降の書籍がこれに該当する。20%が著作権の切れたもの。

全書籍のスキャンは物量で解決できる問題であるが、著作権のほうは法的な問題をクリアにする必要がある。「Copyright War」とクランシー氏はいう。

著作権の状態によって、表示の仕方も変わってくる。たとえば著作権の現存するページは、書籍のうちサンプルのページのみを表示する、明瞭でないものは部分的な表示をする、著作権の切れたものは全ページをページイメージで表示する、というようなかたちになる。著作権者の意向によっては、サンプルのみの表示さえできないこともあるだろう。

実例として、ここでクランシー氏は、じっさいにGoogle Book Searchにアクセスし、「kyoto history」をキーワードとして入力、Mary Elizabeth Berry著の『The Culture of Civil War in Kyoto』のページをめくってみせた。

検索にヒットした文字には、イエローのマーカーラインが引かれている。めくるのとは違うが、スクロールできる。本とは違うが、Webページよりもずっと書物としての本に近い。

この本に、じっさいにGoogle Book Searchを使ってアクセスしてみると、すべてのページは公開されていないことがわかる。つまり、この本は、著作権をもっているか、著作権の状態が不明の書物だということである。洋書には奥付がないことが少なくないので、出版年月がいつかはわからなかったが、アマゾンへのリンクがありそちらを見ると、1997年3月20日発行とある。

ちなみに、アマゾンのSEARCH INSIDE!(「なか見!検索」)でも、この本のなかのページに、おなじようにアクセスすることができている。スキャンをしているのは、ひとりGoogleだけではないのだ。

上記のパートナーの図書館に収蔵されていれば、日本語の本もスキャン対象となっている。たとえば日本語ではもっとも一般的なひらがなと思われる「は」で検索すると、319冊の本がヒットする。「の」では4,480冊が、「た」では0冊がヒットした。これで見ると、すくなくとも4480冊程度は日本語の本もすでにスキャンされて検索できるようになっているのである。


Googleは書物のスキャンに対してふたつのアプローチをとっている
著作権の状態によって、表示できる状態を変化させる



この本はアマゾンでも中身を見ることができる
日本語の本もスキャンの対象となっている。「は」で検索すると319冊がヒットした


Book Flow Process
続いてクランシー氏は、米国初代大統領ジョージ・ワシントン(1732年2月22日-1799年12月14日)の日記を開いた。著作権が切れているため、この本は、ほとんど本そのもののように表示される。

スキャンしたページを見ていくと、たとえば12ページには下に黒い染みがあるなど、ほんとうにその本のありのままの状態に近い形でスキャンしていることがわかる。その他のページを見ても、必ずしもスキャンの精度が高いとはいえない。

Google Book Searchでは、高いクオリティを求めていないことは見ればすぐにわかる。

表示がモノクロ表示になっていて、本来書籍のもつカラー情報は失われている。

このあたりが、写真や絵を忠実に再現しようとするグラフィックスキャンとの作業の違いである。

「数千万の本があり、それを効率的にスキャンする必要がある」とクランシー氏はいう。「Googleは本をスキャンし、蓄積し、インデックスをつけて検索可能にしてサービスとして提供する」


ジョージ・ワシントンの日記
ジョージ・ワシントンの日記の12ページには黒い染みもある



スキャンした本にはレファレンスページも用意され、本が絶版になっていなければ購入することもできる
本をスキャンし、蓄積し、インデクシングしてサービスする


立ちはだかる難題
じっさいの書物を前にしては、「ページを知る」ということさえもむずかしいことになる可能性がある。

クランシー氏は、事例をあげる。

「あるページの肩の部分が斜めに破かれていました。はたしてこれは何ページでしょう?」

「(破かれて次のページが99ページなのだから)97ページになる!」と、会場の声。

「OCRで読むとしても、ロシア語と英語とが混在している本の場合、スペルはどうやって判定したらよいでしょう? 日本語のような縦書きの場合には?」

結局、本というものは、通常思っているよりもずっと柔軟で、これと定まったかたちをもっていない、ということに直面せざるを得ない。これが唯一という真実はないのである。それを機械的に自動的にスキャンする方法は、たぶんまだない。

「書籍をスキャンする」作業のうち、物理的なスキャンというのは、もっとも単純でかんたんな作業で、それ以外のページを見極めるとか、テキスト化するとか、分類整理するとか、著作権をクリアする(著作権者の権利と公共の利益のバランスを取る)とかのほうが、重要な課題なのだ。


たとえばページが破かれた本
ロシア語と英語が混在した書籍のスペルチェックを自動化するには?
日本語のような縦書き右綴じの場合のページ送りは英文の書物とは逆になる


Finding Stuff
「書籍をスキャンするよりも重要なのは、たとえばどうやってわれわれは探したいものを探しているか、ということを考えることだ」とクランシー氏はいう。

検索するのか、ブラウジングして閲覧するのか、偶然の発見をするのか、検索補助(アシスタンス)によるのか。

検索するといっても、リッチで明解な構造は存在しない。問題は山積している状態だが、Googleは物量で問題を乗り越えようとしている。


どうやってひとは探したい情報を探しているのだろうか
問題は山積し議論しながら進めている、とダニエル・クランシー氏

posted by gljblog at 00:00| Google Book Searchプロジェクト | このブログの読者になる | 更新情報をチェックする

2007年01月05日

絶版書籍、ネット閲覧可能に・政府が著作権法改正へ

http://www.nikkei.co.jp/news/main/20070105AT3S0300305012007.html

絶版書籍、ネット閲覧可能に・政府が著作権法改正へ

 政府は絶版になった出版物をインターネットで閲覧できるようにするため著作権法を改正する方針を固めた。国立国会図書館などの公的機関が専門書を非営利目的で公開する事例などを想定している。著作権者に一定の補償金を支払えば許諾がなくても文書をネットに保存・公開できる仕組みを検討する。入手困難な出版物を利用しやすくし、研究活動の促進などにつなげる狙いだ。
 政府の知的財産戦略本部(本部長・安倍晋三首相)が今夏に策定する「知的財産推進計画2007」にこうした方針を盛り込む。知財本部は2008年の通常国会での著作権法改正案の提出をめざし、文部科学省などとの調整に入る。(16:01)
posted by gljblog at 00:00| その他の蔵書デジタル化計画 | このブログの読者になる | 更新情報をチェックする

広告


この広告は60日以上更新がないブログに表示がされております。

以下のいずれかの方法で非表示にすることが可能です。

・記事の投稿、編集をおこなう
・マイブログの【設定】 > 【広告設定】 より、「60日間更新が無い場合」 の 「広告を表示しない」にチェックを入れて保存する。


×

この広告は1年以上新しい記事の投稿がないブログに表示されております。