2006年11月07日

Peter's Digital Reference Shelf : Google Book Search

Peter's Digital Reference Shelf
November 2006

Title: Google Book Search (a.k.a. GooglePrint)
Publisher: Google, Inc.
URL: http://books.google.com
Cost: Free
Tested: Continuously

The Context
Google Book Search (GBS), launched in 2004 under the name Google Print, is the most controversial project of the many beta releases of Google, Inc.? mostly for the Google Books Library Project module. I skip the legal and/or ethical pros and cons in the case; there are many substantial sources to let you see both sides of the coin, and legal cases are pending. Here is an excellent bibliography by Charles Bailey. I focus on what is the current content; what is accessible; and how the software helps and prevents finding materials. Only a small segment of the books and other print materials seem to be available free in their entirety. For this column, I approach it primarily from the ready reference perspective, where even snippets of information can be useful.

Google has an unusually extensive background page about Google Book Search (but without any factual information about the size and composition of the database). It is full of success stories and happy testimonials. They are mostly from users who believe that the concept of digitizing books and making them full-text searchable is yet another innovation by Google, Inc. These happy users apparently have lived in the Google bubble, ignorant about other alternatives.

The eBook idea first appeared in the early 1970s, when Michael Hart started the Gutenberg Project to scan pages and convert them into plain-text format public domain documents. By now there are 19,700 eBooks in Project Gutenberg. By today’s standard this is a relatively small amount, but these items can be displayed and/or printed in their entirety (although the typography is plain and ugly ASCII text, not a facsimile of the books). It is dwarfed by the beautiful American Memory multimedia super collection of historical materials. Its creation started in the early 1990s (15 years before Google Print), and now has more than 9 million items. It has 465 items about the impeachment of Andrew Johnson alone.

The Million Books project is another mega database that started long before Google Print was conceived.

There are several, relatively small but worthy eBook collections that are free to search and display the full text of books, such as the small scholarly book collection of the National Academies Press or the free subset of ebrary with about 30,000 books. For further information, see Nicholas Tomaiuolo’s well-updated and annotated list of e-text collections and the Open Directory Project section on the topic as implemented by Google.

One of the most prominent pioneers of the Web era, Amazon's, Look Inside The Book (LIB), then Search Inside The Book (SIB) features must have been the obvious inspiration for Google Book Search (GBS). The SIB subset of Amazon has about 280,000 fully searchable books. Many of these are greatly enriched by extra information, such as book reviews from professional journals, information about the authors, citing and cited references as I discussed in my review.

The Software
I almost always discuss the software at the end of the review, but here I must make an exception and bring up serious software problems that confuse even veteran searchers, and distort or make enigmatic some results. Even with simple searches, there is enough confusion because of the ignorance, illiteracy and innumeracy of the software.

Boolean search
The most startling problem is the incorrect use of the Boolean OR operation, the simplest of all. It is taught in kindergarten that the search for A OR B cannot produce less results than the higher found for A or B. Still, the query aboulia produces 26 items, abulia yields 40, but aboulia OR abulia produces only 35.

Neither can a search for A OR B produce more hits than the sum of the hits found for A and B together at most. But this is what happens as illustrated by this simple search: for books with the word arrogance in the title. It finds 2 books. The search for books with the word arrogant in the title finds 6 documents. (Minutes earlier the software produced 8 hits, and such disappearances add an additional dimension to the confusion). The search for books with arrogant OR arrogance in the title yields 13 books.

This is surprising, as there could not be more than 8 books. The first page of the list shows books with the word arrogance in the title that were not shown when searching for that word. The same is true for arrogant. This may explain the result of the OR operation but then keeps the user wondering why those extra books were retrieved only for the Boolean OR operation.

Using limit fields
Most search programs make it easy to limit the search to the title field, the publication year and some other fields. Google serves up strange results even for the simple title search, ignoring obviously matching hits. Searching for the term Google in the title yields two hits. When you search for the word anywhere, the first 12 of the 28 hits show books where the term appears in the title. For perspective: Amazon has 23 fully searchable books with the word Google in the title.

Use of the date limit is also a letdown. It seems absurd that GBS has only 55 partially viewable books published in 2006. Amazon has 15,152. To its credit, GBS has 25 fully viewable books, but it is a small consolation.

Split results
The handling of fully viewable books is inconsistent in GBS, and therefore the results are unpredictable. Sometimes they are included in the All Books search, sometimes not; sometimes some of the fully viewable books are included in the All Books search, but not the others. The search for the word fundamentalism in the title yields 8 hits in the All Books list and 3 in the fully viewable result list. None of the latter appears in the former.

The search for the term ignorance returns 91 hits in the All Books result list, and 66 in the Full View result list. Four of the first five hits in the latter appear also in the All Books search result, but none of the other 62. Practically, if you want a comprehensive search you must repeat the search in both domains. This is very irritating. The simple query form should have check boxes to accommodate the user preferences for content type, and to make the result list consistent and predictable.

Confusing hit counts
It certainly discombobulates the users when hits are reported in terms of pages rather than books. When searching about the macaque monkey, however, 26 pages are reported in the result list. Actually 26 represents the number of books listed, not the number of pages. The first two books (with a total of more than 1,000 pages) are dedicated to the topic of the social behavior of macaque monkeys. The search term obviously must appear on hundreds of pages in those two books, so the number of pages should be much higher than the number of books.

Using the search cell within the page of the first matching page shows that there are 30 pages where the search word occurs and are viewable. This is clearly the number of pages that GBS allows the user to view, not the number of pages on which the search term appears, let alone the total number of occurrences of the search word.

Even more enigmatic is the result list header on the first page of the search for the word arrogance which says Books 1-10 with 4110 pages on intitle:arrogant OR intitle:arrogance. What is that score? The total number of pages in the books? Not likely, and it would not be relevant anyhow. The total number of hits matching the word arrogant or arrogance in the books? That could be useful, but why it is shown only when there are more than 10 hits for the query? Why does it disappear when you get to the end of the result list? Why is it not shown when you set the num= parameter to higher than the default 10 hits per page?

The search for publisher Houghton Mifflin produces a list that claims 10,100,000 (yes, ten million one hundred thousand) pages as hits. By the time you scroll down the list, it settles for 53 books ? and 53 pages.

The header on the top of the short result list should offer much better information, reporting that there are X number of occurrences of macaque, on Y number of pages in N books. There are Z number of pages which can be displayed.

The scanning process brings its own oddities. It caught my attention that in the search for the word ignorance there is an item authored by Plea, and the title starts with “A plea for strengthening …”. I just wondered why the letter A was not misinterpreted as the initial of the first name of Mr. Plea. I could not imagine why Haydn’s dictionary from 1883 came up for my search for tsunami in dictionaries, when the word was not even used in that year. It turns out that the name of a Turkish pasha, Osman, was considered to be a match. In fairness, Amazon also has odd results for scanning reasons, and Google has a much more difficult task scanning materials from centuries earlier. About 95% of the books in the SIB collection are less than 30 years old, in my estimate.

These problems are not nearly as lethal in this database as in Google Scholar, which has very similar deficiencies, and is used by some too-enthusiastic scientists in various disciplines. They take the hit counts and the citation scores reported by Google Scholar without checking their plausibility, then feed the numbers to their programs, which diligently churn out many useless statistical measures. They give a publisher an embellished pseudo-scholarly paper based on often inflated hit counts and phantom citations, and these papers are cited, exciting other researchers. You can find examples for the serious problems of Google Scholar, and the puppy love attitude of serious researchers, in a PowerPoint presentation for the closing session of the UKSG conference, and in a paper published in Online Information Review.

The Content
GBS includes eBooks converted from scanned print publication format and books received directly from the publishers in digital format. Character recognition in the scanning process is never 100% accurate, but the ratio of scanning errors was small in my samples (as it is in Amazon). Even in most of those cases, the context made clear for the naked eye what the original word may have been. Of course, for searching purposes these words are lost, as they are not matching the query term. However, if the word appears more than once in the text, the book is still retrieved, and if the word appears more than once on the same page and at least once correctly, the specific page will also show up in the results.

Database composition
GBS offers four content viewing options. The most generous is the full view option that allows thumbing through the entire book as well as downloading the books in PDF format. Books that are in the public domain have this option, or if the copyright holder asked Google to make them viewable without restriction, as is the case with the 2001 edition of the nearly 300 page book in the Daytrips series about Hawaii [daytrips]. There are no equivalent to this category yet in Amazon.

Copyright holders mostly choose the limited view option when only about 20-25% of the pages can be viewed and downloading/printing are disabled. Still, they can be very informative for getting a feel about the content, style and format of the book, to decide if the book is worth buying, borrowing or requesting through interlibrary loan. You can read reviews about the spectacularly illustrated Concise Animal Encyclopedia, but taking a glance at a picture or two of this book is, indeed, worth a thousand words of reviews.

The limited view option is not that too limiting for those who just need some factual information about a person, a place, an event or a concept. For example, the Best Beaches of Hawai’i book is just perfect in this format for getting concise information.

The index page shows one page for Lanikai, which turns out to be the first page of a three-page sub-section, and you can read it through from page 19 through page 20 to page 21. You can go fishing for another beach in the table of contents, which is usually available in its entirety for most books even in limited view, and pick another beach name for the next query, then jump to the appropriate page shown in the sidebar of the search result page.

The snippet view option has very restricted viewing options, just a paragraph from a few pages at best which include your search terms. This still could be useful for a ready reference question, such as the meaning of a word, especially when it is a geographic name (usually not included in many general dictionaries), and a gazetteer would not provide the meaning. Occasionally, there are books that appear both as no preview and snippet view types.

It is another question if the source defines the term correctly. In ready reference, corroboration of the information is crucial, but can be time consuming. In the example above, heavenly shore for Lanikai is a tad loose translation. One of the beauties of GSB is that even the snippets might give a hint, than clicking on an adjacent entry might reconfirm or contradict the information. In this search result the entry right above the entry with the snippet view happens to be an excerpt from the book Hawai’i Place Names, and it provides a much more informative and credible piece of information about the meaning of the name of the beach of the small town.

The most restrictive option provides only the usual bibliographic data, but no preview. It is still useful, as at least you would know that your search term occurs somewhere in the book ? except when it does not. Searching for my last name, for example brings back books, which includes Jacson instead of Jacso. Of course, you don’t know about such mistakes if there is no preview.

Database size
It would be useful to know the proportion of books in each category discussed above. Google does not provide any quantitative information about the database itself, or such details as the ratio of books in the different categories.

As is usual with Google services, it is not possible to determine through special searches how many items there are in the database, or get factual information about other aspects of the content, such as the distribution of items by publication year (at least by broad range, such as for the last decade).

There is a publication year range cell on the advanced template, but it is like a prop in the cheap B-movies. It does not work if you touch it. For example, the search for books published in the past 10 years which include the word “love” anywhere in the body of the text, yields an implausibly low number of 18 hits from GBS.

Oprah used to recommend more than that between two commercial breaks. The Amazon SIB subset for books published in the past 10 years that include the word “love” anywhere in the body of the text yields 191,178 hits. It’s a reasonable number that would please all reading club members and talk-show participants. Extending the time span to more than 500 years the hit number makes the result in GBS increase by 3 to 21.

If the subject word is dropped to find out how many books there are in GBS published between 1496 and 2005, the hit number goes up to 59. That would be pathetic even in the eye of those bloggers who get instantly infatuated with any Google service without really testing them.

Because of the crippling software limitations, the best alternative approach may be to compare results from GBS with Amazon’s SIB subset for the semantically equivalent (but sometimes syntactically different) queries, without using date limitation or more advanced but often dysfunctional query combinations and filters which would guarantee to leave GBS in the dust.

Database sources
My samples have shown that not only books, but all kinds of printed materials, such as pamphlets, are present in the database; from every time period, in every genre. Sometimes, odd items show up in result list, which are certainly not books, but journals, whose GBS records were apparently created from the journal title list of Ebsco, and ProQuest (which are described as authors), or publishers’ catalog of books.

Unfortunately, it is impossible to estimate, let alone to determine their absolute numbers. As for the scope of publishers, the biggest names have submitted books in digital format for inclusion, including both university presses, such as Oxford, Cambridge, Princeton, Chicago and, to a lesser extent, commercial publishers, such as Penguin, Springer and Houghton Mifflin. From the perspective of ready reference, encyclopedias, dictionaries, almanacs, and factbooks are the most important traditional sources. Limiting the search to one of these words in the title, showed a good variety of ready reference works with definition and/or description for the term I searched for.

Even more importantly, non-reference books can now serve as ready reference sources by virtue of searching the entire body of text of all kinds of books. Occasionally, a quick search in GBS can return a wealth of ready reference information for a question which classical dictionaries, encyclopedias, and almanacs don’t answer.

Results of test searches
A search for the definition or description of affluenza yields no result from any of the following dictionaries American Heritage, Chambers, Collins, Cambriidge American English, Longman Contemporary English, Merriam-Webster (10 th and 11 th and unabridged editions), Oxford Concise, Compact Oxford, any of the dictionaries in the Oxford Reference Online suite, and Wordsmyth. Only Oxford English Dictionary had a definition with sample citations.

In contrast, GBS finds 29 books where the word appears. Actually, the first one is a book titled Affluenza ? dedicated to the topic. Even the snippets shown on the result list might give the answer, or take you directly to the answer in the book.

With that said, Amazon shows its superiority not only by bringing up the same book (although only as the 9th hit) but also 290 other books in which the word appears. It also includes reviews from Booklist, Library Journals, and several other review publications incorporated in the master record), and offers many other informative features, including links to 116 other books cited by Affluenza.

Searches by the name of 15 publishers showed big differences between Amazon SIB collection and GBS. The latter came up better only for O’Reilly and the University of Hawaii Press with 36 versus 10, and 37 versus 3, respectively).

In the rest, Amazon was incomparably better, as illustrated by university presses such as Oxford (7,045 vs 57), Cambridge (11,445 vs 53), University of Chicago (2,923 vs 43), Princeton (2,193 vs 48), as well as commercial publishers Houghton Mifflin (736 vs 56), Blackwell (3114 vs 61), Penguin (2090 vs 16), Springer (13,138 vs 65), Taylor and Francis (1,565 vs 52), or McGraw-Hill (4,210 vs 34).

The hit numbers in GSB fluctuated somewhat during my test. I did not reduce hits because of false drops like matching author name appearing in publisher field for Taylor & Francis, for snippet view and no preview records) These numbers may not include the 200 or so full view books offered by the publishers. As the difference is two orders of magnitude, it was not worth the effort to check how many of those are included in the All Books counts, and how many are indeed unique, and thus to be added. It is a laudable feature of GBS but does not change the picture. I hope that this low number of items from the largest publishing partners of Google is just a software failure not shallow content. Publishers could easily run some tests on their titles.

As far as the legally undisputable clean subset of GBS is concerned, it very well complements Amazon’s SIB. Time and again I found top notch, ready reference sources in GBS with limited preview option which are not searchable through Amazon’s SIB subset. There are many comments on the GDB site by some Google-smitten bloggers about GBS. Most of them sound like those in the midnight commercials by exuberant housewives finding their true love in a laundry detergent or sink cleaning gizmo. Google prominently quoted from Tom Bruno’s Jersey Exile blog, but should not take at face value what Tom, a library assistant at Harvard University, wrote (Google's search capabilities beat the pants off of its competitor [Amazon]. Google Print also doesn't muddle the results of its searches by trying to sell you unrelated stuff conjured up by your keyword searches in Amazon). Beyond simple keyword searching, Google’s software seems to be cognitively challenged, to put it nicely, and hinders access to the content, which would deserve at least a functional and half as smart software as Amazon has.

Opinions expressed in this review do not necessarily reflect the opinions of Thomson Gale, its employees or affiliates. We cannot guarantee the accuracy of information contained in non-Thomson Gale sites.

posted by gljblog at 00:00| Google Book Searchプロジェクト | このブログの読者になる | 更新情報をチェックする

レファレンスツールとしてのGoogle Book Searchの評価

http://www.dap.ndl.go.jp/ca/modules/car/index.php?p=2504

レファレンスツールとしてのGoogle Book Searchの評価

先日売却方針が発表された米Thomson Galeが一般公開しているサービスの中に、ハワイ大学情報・コンピュータ学部図書館情報学プログラムのピーター・ヤチヨ(Dr. Peter Jacso)教授が、オンラインまたはパッケージで提供されるデジタル情報資源について、毎月1〜2点を取り上げてレファレンスツールとしての評価を行う連載があります。2006年11月の連載では、注目を集めているGoogle Book Searchが取り上げられています。Google Book Searchは検索機能に難があるものの、一部分の表示だけでも他のレファレンス資料にはない情報を得られることができ、AmazonのSearch Inside the Book(日本語版では「なか見!検索」)同様、急ぎのレファレンスに有益だろうとのことです。

なお、ブログ“ResourceShelf”が、このピーター・ヤチヨ教授の記事をさらにレビューしています。

Google Book Search - Peter’s Digital Reference Shelf
http://www.gale.com/reference/peter/googlebooks.htm
Peter’s Digital Reference Shelf
http://www.gale.com/reference/peter/
(※これより前のバックナンバーも、左側のArchivesから検索できます。)

November 7, 2006付けResourceShelfの記事
http://www.resourceshelf.com/2006/11/07/8767/
posted by gljblog at 00:00| Google Book Searchプロジェクト | このブログの読者になる | 更新情報をチェックする

2006年10月31日

Google Book Search訴訟でフランスの出版業界が共闘

http://www.computerworld.jp/news/trd/51890.html

Google Book Search訴訟でフランスの出版業界が共闘
(2006年10月31日)

 フランスの出版社400社を代表するフランス出版社協会(SNE)は先ごろ、同国のラ・マルティニエール・グループが起こしている、書籍のデジタル化するグーグルの行為の差し止めを求める訴訟に加わった。

 ラ・マルティニエール・グループは今年6月6日、Google Book Searchサービスが書籍の偽造行為を行っているとして、米国グーグルとそのフランス法人を提訴した。ラ・マルティニエールは、同社の書籍をスキャニングする行為の差し止めと100万ユーロ(130万ドル)の損害賠償を求めている。ラ・マルティニエールが著作権を持つ100冊以上の作品をグーグルが違法にコピーし、許可なくGoogle Book Searchに掲載しているというのが同社の主張だ。

 ラ・マルティニエールの訴訟に加わったSNEは、声明の中で「われわれはラ・マルティニエール・グループとともにこの訴訟に加わり、出版社の利害を守るつもりだ」と述べている。

 Google Book Searchは、グーグルによってスキャンされた書籍の中から引用文を検索するサービス。検索結果は、まるで本から破り取ったように縁がギザギザになっている紙片のグラフィックスとして表示される。

 こうした検索結果の表示方法が争点の1つとなっている。ラ・マルティニエールの広報担当者であるテッサ・デスタイス氏によると、この方法がフランスの出版業者を怒らせたという。自分たちの作品がゴミ箱に捨てられる一歩手前のような印象を与えるからだ。「グーグルが巨大かつ強力な企業であることはわかっているが、少しは本を尊重する姿勢を示すべきだ」と、同氏は怒りを隠さない。

 こうした動きに対し、グーグル・フランス法人の代表者は今すぐコメントすることはできないとしている。ちなみにグーグルは現在、ベルギーでも訴訟を抱えている。ベルギーでは、新聞社が発行しているオンライン・ニュースの記事から抜き出した見出しをGoogle News検索サービスで使用する方法が争点になっている。

(ピーター・セイヤー/IDG News Service パリ支局)
posted by gljblog at 00:00| Google Book Searchプロジェクト | このブログの読者になる | 更新情報をチェックする

2006年10月27日

Google Book Search、ハロウィンにちなみ「怖いお話」を特集

http://www.dap.ndl.go.jp/ca/modules/car/index.php?p=2449

Google Book Search、ハロウィンにちなみ「怖いお話」を特集
2006年10月27日(金曜日)

米Google Book Searchが、ハロウィンにちなみ、怖いお話を紹介する特設ページを開設しています。「ドラキュラ」「フランケンシュタイン」「ジキル博士とハイド氏」「黒猫」など、古典の名作が紹介されています。ただし、紹介されている作品の中で、パブリック・ドメインになっていてダウンロードできる作品は1作品のみ(“The Works of the Late Edgar Allan Poe”)でした。

Scary Stories - Google Book Search Beta
http://books.google.com/googlebooks/scarystories/
10/26/2006付けOfficial Google Blogの記事
http://googleblog.blogspot.com/2006/10/scary-stories.html
posted by gljblog at 00:00| Google Book Searchプロジェクト | このブログの読者になる | 更新情報をチェックする

2006年10月13日

Google Booksearch プロジェクトにウィスコンシン大学マディソン校図書館が参加

http://www.dap.ndl.go.jp/ca/modules/car/index.php?p=2357

Google Booksearch プロジェクトにウィスコンシン大学マディソン校図書館が参加

Google Book Searchプロジェクトに、ウィスコンシン大学マディソン校図書館の参加が発表されました。同図書館のほか、ウィスコンシン歴史協会図書館の蔵書も参加対象となるとのことです。
同図書館の蔵書は720万冊で、蔵書数では北米第11位の規模を誇るそうです。同図書館では米国史に関する歴史史料と図書を多く所蔵しているとのことで、連邦政府資料のインターネット公開と利用が促進されると、マディソン校長のPatrick Farrell氏はコメントしています。

UW-Madison joins massive Google Book project
http://www.news.wisc.edu/13010.html
University of Wisconsin-Madison and Google Make Rich Historical Collection Available Online
http://www.google.com/press/annc/uniwisconsin_books.html
posted by gljblog at 00:00| Google Book Searchプロジェクト | このブログの読者になる | 更新情報をチェックする

GoogleのBook Libraryにウィスコンシン大学も参加

http://www.itmedia.co.jp/news/articles/0610/13/news037.html

GoogleのBook Libraryにウィスコンシン大学も参加

米国の歴史に関する蔵書で有名なウィスコンシン大学の蔵書も、Google Book Searchで検索可能になる。
2006年10月13日 08時07分 更新

 米Googleは10月11日、書籍検索プロジェクト「Google Books Library Project」に、新たに米ウィスコンシン大学マディソン校が参加することを明らかにした。ウィスコンシン大学は米国の歴史に関する蔵書で有名。大学図書館と、ウィスコンシン歴史協会図書館の蔵書の合わせて720万冊が、新たにGoogle Book Searchで検索可能になる。

 Google Books Library Projectには、既に米国議会図書館、ハーバード大学、ニューヨーク公立図書館、カリフォルニア大学などがパートナーとして参加、蔵書のデジタル化を進めている。

 ウィスコンシン大学とのプロジェクトでは、まず著作権の切れた蔵書を中心にデジタル化を開始する。著作権の切れた書籍については全文の閲覧が、著作権で保護されている書籍については基本情報と検索キーワード前後の文を読むことが可能になる。
posted by gljblog at 00:00| Google Book Searchプロジェクト | このブログの読者になる | 更新情報をチェックする

2006年10月06日

Google、書籍検索訴訟でYahoo!とMSに召喚状

Google、書籍検索訴訟でYahoo!とMSに召喚状

Googleは書籍検索をめぐる著作権侵害訴訟で、競合プロジェクトを進めるYahoo!とMicrosoftに情報提供を要求するつもりだ。
2006年10月06日 18時43分 更新
パロアルト(ダウ・ジョーンズ)

 米Googleは、法廷で同社の書籍スキャンプロジェクトを弁護するため、召喚状により検索市場のライバルであるYahoo!とMicrosoftにデータ提出を要求する予定だ。

 Googleは、書籍をオンラインに掲載してユーザーが無料で読めるようにする計画をめぐり、出版社および作家から著作権法違反で訴えられている。同社は、書籍の一部しか表示しないため、同社の計画はオープンな発想の市場では許されるはずだと主張している。

 同社は、書籍をスキャンし、インターネットで公開するYahoo!とMicrosoftの競合プロジェクトについての情報を求める計画だ。審理はニューヨークで行われる。

 Googleの広報担当者は、訴訟と召喚状についてそれ以上の情報を明かさなかった。
posted by gljblog at 00:00| Google Book Searchプロジェクト | このブログの読者になる | 更新情報をチェックする

2006年09月28日

GoogleのBooks Libraryにスペインの大学が参加

http://www.itmedia.co.jp/news/articles/0609/28/news007.html

GoogleのBooks Libraryにスペインの大学が参加
スペインで最大規模の図書館を持つマドリード・コンプルテンセ大学がパートナーに加わった。
2006年09月28日 08時00分 更新

 米Googleは9月26日、書籍検索プロジェクト「Google Books Library Project」にスペインのマドリード・コンプルテンセ大学が参加することを明らかにした。スペイン語の図書館がこのプロジェクトに参加するのは初めてという。

 Google Books Library Projectには、既に米国議会図書館、ハーバード大学、ニューヨーク公立図書館などがパートナーとして参加、蔵書のデジタル化を進めている。デジタル化された蔵書はGoogle Book Searchで検索が可能となる。

 マドリード・コンプルテンセ校はこのプロジェクトの下、著作権の切れた蔵書数十万冊をデジタル化する。Googleによると、同校の図書館はスペインで最大規模という。

 また同校の図書館はスペイン語の蔵書のほか、フランス語、ドイツ語、ラテン語、イタリア語、英語の蔵書も有している。Googleは、同校との協力はBook Searchの多言語化をさらに押し進めるだろうとしている。
posted by gljblog at 00:00| Google Book Searchプロジェクト | このブログの読者になる | 更新情報をチェックする

2006年09月27日

Google Book Search プロジェクトに新メンバーが加わる(スペイン)

http://www.dap.ndl.go.jp/ca/modules/car/index.php?p=2277

Google Book Search プロジェクトに新メンバーが加わる(スペイン)

スペインのマドリード・コンプルテンセ大学がGoogle Book Search プロジェクトに参加するとのことです。スペイン語圏では初めて、ヨーロッパではオックスフォード大学図書館に引き続き2館目となるそうです。

Madrid’s Complutense University opens its library to the world
(Google Book Searchの公式ブログ)
http://booksearch.blogspot.com/2006/09/madrids-complutense-university-opens.html

Proyecto de digitalizaci醇pn Biblioteca Complutense-Google
http://www.ucm.es/BUCM/biblioteca/11979.php
posted by gljblog at 00:00| Google Book Searchプロジェクト | このブログの読者になる | 更新情報をチェックする

Googleの書籍本文検索プロジェクトにスペインの大学が協力

http://itpro.nikkeibp.co.jp/article/USNEWS/20060927/249049/

Googleの書籍本文検索プロジェクトにスペインの大学が協力

 米Googleは米国時間9月26日,同社の書籍本文検索プロジェクト「Google Books Library Project(旧称:Google Print Library Project)」に,スペインのマドリッド・コンプルテンセ大学が参加すると発表した。同プロジェクトにスペイン語の図書館が参加するのは「初めて」(同社)。

 Googleによると,同大学の図書館はスペインで最大規模の大学図書館という。スペイン語のほか,フランス語,ドイツ語,ラテン語,イタリア語,英語の書籍も所蔵する。

 Googleは同大学と協力して,著作権が失効している書籍をデジタル化し,同社の書籍検索サイト「Google Book Search」で,本文の閲覧や検索,ダウンロードができるようにする。

 コンプルテンセ大学学長のCarlos Berzosa氏は,「これまで,当大学に来なければ見ることができなかった多数の書籍を,インターネットを介して世界中の人に提供できるようになる。Googleと協力して,教育の門戸を開放できることを喜ばしく思う」と述べている。

 Google Books Library Projectには,英オックスフォード大学,米カリフォルニア大学,米ミシガン大学,米ハーバード大学,米スタンフォード大学などが参加している。またGoogleは,米国議会図書館と協力して同様のパイロット・プロジェクト「World Digital Library」にも取り組んでいる。

(ITpro)  [2006/09/27]

posted by gljblog at 00:00| Google Book Searchプロジェクト | このブログの読者になる | 更新情報をチェックする

Google Libraryにスペインの大学図書館が参加、多言語化へ第一歩

http://internet.watch.impress.co.jp/cda/news/2006/09/27/13416.html

Google Libraryにスペインの大学図書館が参加、多言語化へ第一歩

 米Googleは26日、スペインの最高学府であるUniversity Complutense of Madridの大学図書館がGoogle Books Library Projectに参加することで合意したと発表した。University Complutense of Madridの大学図書館はスペイン国内で最大の大学図書館で、スペイン語系図書館がGoogle Books Library Projectに参加する初めての事例となる。

 この提携により、GoogleとUniversity Complutense of Madridは大学図書館にある数十万のパブリックドメインとなっている書籍のデジタル化作業に着手。Google Book Searchを通して検索、閲覧、全文をダウンロードするサービスを提供することになる。

 Google Books Library Projectにはこれまで英米の有力大学図書館が参加していたため、ほとんどの書籍が英語だった。今回のUniversity Complutense of Madridの参加により、スペイン文学、ラテンアメリカ文学のスペイン語文献が大幅に加わるだけでなく、同図書館が所蔵しているフランス語、ドイツ語、ラテン語、イタリア語の書籍もデジタル化されるため、Google Book Searchの多言語化に一歩前進したことになる。

関連情報
■URL
  ニュースリリース(英文)
  http://www.google.com/press/annc/books_madrid.html

2006/09/27 12:10


posted by gljblog at 00:00| Google Book Searchプロジェクト | このブログの読者になる | 更新情報をチェックする

2006年08月30日

Download the classics

http://googleblog.blogspot.com/2006/08/download-classics.html

Download the classics
8/30/2006 09:38:00 AM

Posted by Adam Mathes, Associate Product Manager, Google Book Search

Starting today, you can go to Google Book Search and download full copies of out-of-copyright books to read at your own pace. You're free to choose from a diverse collection of public domain titles -- from well-known classics to obscure gems.

Before the rise of the public library -? a story chronicled in this 1897 edition of The Free Library ? access to large collections of books was the privilege of a wealthy minority. Now, with the help of our wonderful library partners, we're able to offer you the ability to download and read PDF versions of out-of-copyright books from some of the world’s greatest collections.

Using Google Book Search, you can find The Free Library and many other extraordinary old books, such as:

* Ferriar's The Bibliomania
* A futurist from 1881's 1931: A Glance at the Twentieth Century
* Aesop's Fables
* Shakespeare's Hamlet
* Abbott's Flatland
* Hugo's Marion De Lorme
* Dunant's Eine Erinnerung an Solferino
* Bolivar's Proclamas
* Dante's Inferno

To find out-of-copyright books that you can download, simply select the "Full view" radio button when you search on books.google.com. (Please note that we do not enable downloading of any book currently under copyright. Unless we have the publisher’s permission to show more, we display only small snippets of text ?- at most, two or three sentences surrounding your search term -? to help you determine if you’ve found what you’re looking for.)

Of course, this is just the beginning. As we digitize more of the world's books -- whether rare, common, popular or obscure -- people everywhere will be able to discover them on Google Book Search.
posted by gljblog at 00:00| Google Book Searchプロジェクト | このブログの読者になる | 更新情報をチェックする

2006年08月24日

Finding the wealth in your library (and everyone else's)

http://googleblog.blogspot.com/2006/08/finding-wealth-in-your-library-and.html

Finding the wealth in your library (and everyone else's)
8/24/2006 10:10:00 AM

Posted by Bruno Fonseca, Google Brazil

As a student and then as a researcher, I used to haunt libraries in Belo Horizonte, Brazil. I spent time looking for the books I needed, but also happened to find gems by chance, as I scanned the shelves I walked by. Fun as it was to find an unexpected treasure, I always knew that much remained hidden. Large libraries are way too big to just walk around and browse, even for an enthusiastic teenager.

Today, we're launching the Library Catalog Search feature in Google Book Search, designed to help casual readers and bookworms everywhere find gems in the libraries around the world. Queries on Google Book Search will automatically include results from library catalogs when appropriate. Each result includes a "Find Libraries" link to help readers find libraries that hold the book -- ideally a library nearby, or if need be, a library far away. For example, after reading Martin Gardner's book Fads and Fallacies, I wanted to follow up on Immanuel Velikovsky's books about scientific explanations for biblical miracles. Clicking on the "Find Libraries" link for Velikovsky's Worlds in Collision, I found that a copy was available in the University of Sao Paulo library.

This is true of many types of books in countries all over the world -- my colleagues in Google's Zurich office tell me about being able to find Harry Potter and the Chambers of Secrets for their nephews and nieces. In many cases, it's even possible to click through to the local library and reserve the book.

For this feature, we have worked with more than 15 library union catalogs that have information about libraries from more than 30 countries, as well as with our colleagues working on Google Scholar (which includes a similar feature just for scholarly books).

We would like to acknowledge and fete our partners who have collected information about the wealth in world's libraries with amazing thoroughness and care. And we're looking to work with union catalogs in other parts of the world so it can be just as easy for library patrons elsewhere to learn what their libraries have waiting for them.

If you're a library patron and can't find the books you're looking for, ask your local library to participate in this program. If you are a librarian at a union catalog and would like to work with us to help users find books in your collections, please contact us.

Here's hoping readers worldwide will use this to discover and explore the wonderful collections in the world's libraries.
posted by gljblog at 00:00| Google Book Searchプロジェクト | このブログの読者になる | 更新情報をチェックする

2006年05月11日

グーグル、日本でも書籍全文検索サービス提供へ

http://www.itmedia.co.jp/news/articles/0605/11/news103.html

グーグル、日本でも書籍全文検索サービス提供へ

欧米で提供している書籍テキスト検索サービス「Google Book Search」の日本での提供を目指して、出版社向けページが本日公開された。
2006年05月11日 21時14分 更新

 グーグルは5月11日、書籍の本文テキストを対象にしたキーワード検索サービス「Googleブック検索」の年内提供開始を目指し、出版社向けの窓口となるページを公開した。

 Googleブック検索は、2004年に米国で開始した「Google Book Search」(開始当時は「Google Print」)の日本語版。出版社から提供された書籍をスキャンしてテキスト化し、一般ユーザーが任意のキーワードにより検索できるようになる。検索結果は基本的にオリジナルの書籍の1ページずつイメージとして表示する仕組みだ。

 Googleブック検索で表示されたページイメージはコピーや印刷、ファイル保存などはできない。また1冊の書籍の内容のうち、どの程度の割合をGoogleブック検索に提供するかは出版社側が判断する。Googleブック検索結果のページには、広告や書籍販売サイトへのリンク、近隣書店の場所を示すGoogleマップのリンクなどが表示される。これらの機能によって、書籍を提供する出版社や著者には、書籍そのものの売り上げにつながる機会が得られることになる。

 グーグルが公開した窓口ページは、出版社に向けて、Googleブック検索の内容を説明しパートナープログラムへの参加をうながすもの。このプログラムにはISBN(日本図書コード)を持つ書籍を発行している出版社であれば無償で参加できる。書籍のスキャン費用やGoogleブック検索への登録に関しても無償という。今回、パートナープログラムや書籍登録の仕組みが一通り整備されたことで、今後グーグルは出版社に対して参加を働きかけていく。

 同社では順調に書籍が集まるようであれば、年内にも一般ユーザー向けにGoogleブック検索を提供したいとしているが、サービス開始で先行した欧米では、出版社団体や著作権者団体からの反発を受けた(関連記事参照)こともあり、日本では出版社などの反応を見ながら慎重に進めていくもようだ。

 グーグルによると書籍だけを検索対象にしたhttp://books.google.com/(現在は英語版のみ)のほか、通常のWeb検索の検索結果に書籍の検索結果も合わせて表示することも考えているとしている。また、欧米で提供しているGoogle Book Searchでは出版社からだけでなく、いくつかの大学付属図書館からも著作権の切れた書籍を中心として提供を受けているが、日本では現在のところそうした計画はないという。

 なお、書籍のデジタルデータ化やその検索サービスについては、Googleの発表後Yahoo!やMSNも類似の計画を進めている。


Googleブック検索について(http://books.google.co.jp/intl/ja/googlebooks/about.html
posted by gljblog at 00:00| Google Book Searchプロジェクト | このブログの読者になる | 更新情報をチェックする

2005年11月18日

「Google Print」が「Google Book Search」に名称変更

http://internet.watch.impress.co.jp/cda/news/2005/11/18/9900.html

「Google Print」が「Google Book Search」に名称変更

 米Googleは17日、書籍の内容を検索するサービス「Google Print」の名称を「Google Book Search」に変更すると発表した。現在、Google PrintのWebサイトにアクセスすると自動的にGoogle Book Searchに転送されるようになっている。

 Google公式ブログによると、今回の名称変更はGoogleが提供しようとしているサービスの実態をより正確に伝えるためのものだと説明している。例えば、Google Printという名称のために、多くの人は文書やWebページを印刷するためのサービスをGoogleが提供してくれると勘違いしていたという。名称をGoogle Book Searchに変更することによって、書籍の全文検索でこれまで見つけられなかった本を見つけられるようにし、購入したり借りられるようにするというGoogleの目標を明確に表現できるとしている。

2005/11/18 12:24
posted by gljblog at 00:00| Google Book Searchプロジェクト | このブログの読者になる | 更新情報をチェックする

2005年10月20日

グーグルの書籍検索サービスが欧州に拡大/図書館書籍スキャンめぐり2件めの提訴

http://www.computerworld.jp/news/trd/23903.html

グーグルの書籍検索サービスが欧州に拡大/図書館書籍スキャンめぐり2件めの提訴
(2005年10月20日)

 米国グーグルは今週、その書籍検索サービス「Google Print」を欧州にも拡大し、フランス、イタリア、ドイツ、オランダ、オーストリア、スイス、ベルギー、スペインの8カ国で新しいWebサイトを開設した。

 一方、Google Printの「Google Library Project」というプロジェクトでグーグルが著作権者の許しを求めずに図書館の書籍をスキャンしていることは出版社や著作者に物議を醸しており、同社を相手取った2件目の著作権侵害訴訟が今週米国で起こされた。

 米国出版者協会(AAP: The Association of American Publishers)は10月19日、協会員であるザ・マグローヒル・カンパニーズ、パーソンズ・エデュケーション、ペンギン・グループ(USA)、サイモン&シャスター、ジョン・ワイリー&サンズの5社を代表して、ニューヨーク州南部地区の米連邦地方裁判所に訴状を提出した。原告側はこの訴訟で、グーグルが著作権で保護された書籍全体をスキャンした際に著作権侵害を犯したと裁判所が認定し、著作権者の許諾無しに同社がそうした行為を行なうのを禁じる裁判所命令を出すことを求めている。

 AAP会長のパット・シュレーダー氏は同日、この提訴についての電話取材に対し、「選択の余地がなかった。誰だって有力企業を訴えたくはない。そうせずに済めばどれほど良かったことか」と語った。

 9月には、著作者協会(AG: The Authors Guild) と3人の個人著作者が、グーグルを相手取って同じような著作権侵害訴訟を起こしている。

 グーグルは8月に、出版社がどの本のスキャンを望む本と望まない本を同社に知らせることができるように、著作権で保護された図書館の書籍のスキャンを10月いっぱいまで一時中断すると表明した。グーグルの製品および知的財産問題担当首席弁護士のアリグザンダー・マギリブレー氏によると、同社では11月1日にそのスキャンを再開する予定である。 

 グーグルは、Google Printの書籍データベースを作成するために、「Google Publisher Program」と「Google Library Program」という2通りのプログラムを実施している。Google Publisher Programは出版社と提携するもので、参加する出版者がグーグルにGoogle Printに含めたい書籍のリストを渡し、グーグルまたは出版社が書籍全体のスキャンを行なう。これに対し、Google Library Programは図書館と提携するもので、グーグルがその所蔵図書のすべてまたは一部をスキャンする。

 グーグルは、8月にフランス、イタリア、ドイツ、オランダ、スペインでGoogle Publisher Programを開始したが、英国などではまだ公式に開始されていない。

 WebユーザーがGoogle Printで検索を行なうと、検索語句が見つかった書籍のページが表示される。ユーザーは同サイトからのプリントや保存を行なえない。著作権が切れた書籍は、すべてを参照できるようになっている。

(Originally reported by Nancy Gohring and China Martens, IDG News Service 10/19/2005)
posted by gljblog at 00:00| Google Book Searchプロジェクト | このブログの読者になる | 更新情報をチェックする

広告


この広告は60日以上更新がないブログに表示がされております。

以下のいずれかの方法で非表示にすることが可能です。

・記事の投稿、編集をおこなう
・マイブログの【設定】 > 【広告設定】 より、「60日間更新が無い場合」 の 「広告を表示しない」にチェックを入れて保存する。


×

この広告は1年以上新しい記事の投稿がないブログに表示されております。