What to do When Google ignores your Fedora objects Robin - - PowerPoint PPT Presentation

what to do
SMART_READER_LITE
LIVE PREVIEW

What to do When Google ignores your Fedora objects Robin - - PowerPoint PPT Presentation

What to do When Google ignores your Fedora objects Robin Dean Jonathan Green robin@coalliance.org jonathan@discoverygarden.ca Digital Repository Director Chief Technology Officer


slide-1
SLIDE 1

What ¡to ¡do ¡

When ¡Google ¡ignores ¡your ¡Fedora ¡objects

Robin ¡Dean

robin@coalliance.org

Digital ¡Repository ¡Director Colorado ¡Alliance ¡of ¡Research ¡Libraries

Jonathan ¡Green

jonathan@discoverygarden.ca

Chief ¡Technology ¡Officer discoverygarden ¡inc.

Open ¡Repositories ¡2013

CharloGetown, ¡Prince ¡Edward ¡Island, ¡Canada Fedora ¡Users ¡Group ¡– ¡Thursday ¡July ¡11, ¡5:30 ¡PM

1

slide-2
SLIDE 2

Alliance ¡ Digital ¡ Repository

Fedora ¡3.4.2 Islandora ¡11.3 ¡ ¡ + ¡Drupal ¡6 ¡ ¡ + ¡Core ¡Islandora ¡Modules ¡ + ¡Custom ¡Modules/Viewer hGp://adr.coalliance.org

2

slide-3
SLIDE 3

Custom ¡Compound ¡Object ¡Viewer ¡in ¡Islandora ¡6

3

slide-4
SLIDE 4

Improving ¡ repository ¡ search ¡results ¡ in ¡Google

  • 1. ¡Create ¡RSS ¡sitemaps ¡of ¡Fedora ¡
  • bjects ¡for ¡search ¡engines
  • 2. ¡Improve ¡search ¡results ¡

snippets ¡by ¡re-­‑using ¡MODS ¡ metadata ¡in ¡HTML ¡<meta> ¡tags

  • 3. ¡Add ¡meaning ¡for ¡search ¡

engines ¡“behind ¡the ¡scenes” ¡with ¡ RDFa

4

slide-5
SLIDE 5

Without ¡Sitemaps ¡(Bing) With ¡Sitemaps ¡(Google)

5

slide-6
SLIDE 6

How ¡did ¡we ¡ make ¡RSS ¡ sitemaps ¡in ¡ Islandora?

  • 1. ¡ ¡ Index ¡all ¡Fedora ¡objects ¡in ¡

Solr

  • 2. ¡ ¡ Add ¡public ¡objects ¡in ¡Solr ¡to ¡

an ¡RSS ¡feed ¡using ¡Islandora

  • 3. ¡ ¡ Submit ¡the ¡RSS ¡feed ¡as ¡a ¡

sitemap ¡in ¡Google ¡ Webmaster ¡Tools ¡

6

slide-7
SLIDE 7

Sitemap ¡Details ¡from ¡Google ¡Webmaster ¡Tools

7

slide-8
SLIDE 8

RSS ¡sitemap ¡ submiGed ¡ October ¡23, ¡ 2012 Pages ¡ Crawled Pages ¡ Indexed Page ¡ error ¡ fixed ¡in ¡ Islandora Page ¡error ¡ fixed ¡for ¡ ETDs

Trend ¡in ¡Pages ¡Crawled ¡and ¡Pages ¡Indexed

Pages ¡ indexed ¡ starts ¡to ¡ decrease ¡(?)

8

slide-9
SLIDE 9

What ¡about ¡ Google ¡ Scholar?

  • 1. Google ¡scholar ¡is ¡trickier. ¡

Uses ¡a ¡different ¡web ¡crawler ¡ than ¡normal ¡Google.

  • 2. ¡Doesn’t ¡accept ¡RSS ¡sitemaps.
  • 3. ¡In ¡a ¡large ¡repository, ¡indexer ¡

tends ¡to ¡request ¡a ¡lot ¡of ¡ documents ¡very ¡quickly.

9

slide-10
SLIDE 10

Google ¡Scholar Sitemaps

  • 1. Create ¡simple ¡HTML ¡pages.
  • 2. ¡ ¡ Create ¡a ¡list ¡of ¡recently ¡added ¡

papers.

  • 3. ¡ ¡ Ensure ¡that ¡Google ¡can ¡

quickly ¡crawl ¡your ¡pages. ¡

10

slide-11
SLIDE 11

Re-­‑use ¡descripjve ¡metadata ¡in ¡HTML ¡<meta> ¡descripjon ¡

Islandora ¡Solr ¡Results Google ¡Search ¡Results

11

slide-12
SLIDE 12

Google ¡Scholar Meta ¡Tags

  • 1. ¡ ¡ Scholar ¡expects ¡meta ¡tags ¡in ¡

its ¡own ¡format.

  • 2. Google ¡Scholar ¡supports
  • ­‑

Highwire ¡Press ¡tags

  • ­‑

Eprints ¡tags

  • ­‑

PRISM ¡tags. ¡

  • 3. ¡Limited ¡support ¡for ¡Dublin ¡

Core ¡tags.

12

slide-13
SLIDE 13

<meta ¡name="citajon_jtle" ¡content="12-­‑Acetoxypseudopterolide" ¡/> <meta ¡name="citajon_author" ¡content="Ata, ¡A." ¡/> <meta ¡name="citajon_author" ¡content="Kerr, ¡R. ¡G." ¡/> <meta ¡name="citajon_author" ¡content=", ¡." ¡/> <meta ¡name="citajon_publicajon_date" ¡content="2000" ¡/> <meta ¡name="citajon_journal_jtle" ¡content="" ¡/> <meta ¡name="citajon_volume" ¡content="53" ¡/> <meta ¡name="citajon_issue" ¡content="3" ¡/> <meta ¡name="citajon_firstpage" ¡content="717" ¡/>

Google ¡Scholar ¡<meta> ¡Tag ¡Examples

13

slide-14
SLIDE 14

hGp://schema.org/Recipe hGp://schema.org/Review

Rich ¡results ¡with ¡schema.org ¡microdata

14

slide-15
SLIDE 15

Before ¡RDFa Aper ¡RDFa

15

slide-16
SLIDE 16

RDFa ¡ fixes ¡and ¡ improvements

Use ¡an ¡object ¡type ¡that ¡exists ¡in ¡ an ¡ontology ¡we ¡can ¡link ¡to Try ¡the ¡MODS ¡RDF ¡elements ¡ instead ¡of ¡our ¡homegrown ¡ MODS ¡crosswalk Empty ¡elements ¡should ¡not ¡be ¡ marked ¡up ¡with ¡RDFa

16

slide-17
SLIDE 17

Next ¡Steps ¡for ¡ Google ¡Scholar ¡ Indexing

Improve ¡crawling Look ¡to ¡others ¡in ¡the ¡community ¡ for ¡advice Create ¡caches ¡that ¡Google ¡ Scholar ¡can ¡crawl ¡faster

17

slide-18
SLIDE 18

Quesjons ¡ and Discussion

Jonathan ¡Green

jonathan@discoverygarden.ca

Chief ¡Technology ¡Officer discoverygarden ¡inc.

Robin ¡Dean

robin@coalliance.org

Digital ¡Repository ¡Director Colorado ¡Alliance ¡of ¡Research ¡Libraries

18