fredag 5. august 2011

OAI7 i Geneve



I sommer deltok jeg på CERN Workshop on Innovations in Scholarly Communication (OAI7), 22-24 juni i Geneve, Sveits.


Hektiske dager med masse interessante innlegg, velger å oppsummere den presentasjonen jeg syntes var mest interessant: nemlig hvordan et arkiv best blir synlig i søkemotorer.

Presentasjonen ble holdt av Robin Tansley fra Google, og er i skrivende stund tilgjengelig på URL: https://atmire.com/labs17/bitstream/handle/123456789/11796/2011_06_21_OAI7_DSpace_Search_Engine_Optim.pdf

  • Det finnes over 1100 DSpace-instanser der ute, med forskjellig struktur og oppsett. For å bli best indeksert av Google gjelder det å være mest mulig lik alle de andre!
  • Sørg for at det blir lenket til arkivet fra institusjonens hovedside. Desto flere lenker jo bedre.
  • Alle dokumenter må kunne nås i løpet av 10 klikk fra hovedsiden.
  • Bruk sitemaps (ingen søkemotorer ser ut til å bry seg om OAI-PMH)
  • Permanente URL'er som Handles har mange fordeler for oss, men for Google ser dette bare ut som noe som ikke hører sammen med arkivet. Hjelper heller ikke at Handles nøvendiggjør to klikk for å komme til dokumentet. 
  • Sørg for gode metadata, Dublin Core er ikke alltid nok. DSpace versjon 1.7 kommer med støtte for HighWire Press metadata headers der man f.eks. kan lenke direkte til fulltekst i felt "citation_pdf_url". Skal også bidra til at siteringer indekseres korrekt (noe som er et problem nå).
  • Innholdet bør bestå av én PDF-fil (under 5Mb), med tekstinnhold (OCR eller laget fra Word), og helst ingen license.txt!
  • Embargo-funksjon sperrer for all indeksering, det bør brukes IP-autentisering i stedet slik at søkemotorene får tilgang til å indeksere. 
Et av problemene med DSpace som ingen ennå har funnet en løsning på er at når mjan søker opp en PDF-fil via en søkemotor, så har man ingen mulighet for å klikke seg opp til toppnivå og arkivets hovedside. Dvs. man havner langt nede i arkivet et sted, og man må endre i URLen for å komme til toppnivå for å se hvor dokumentet kommer fra. 

Det ble også snakket om andre elementære ting som å registrere seg i diverse webmaster-tjenester:
● Bing: http://www.bing.com/webmaster
● Google: https://www.google.com/webmasters/tools/
● Yahoo: https://siteexplorer.search.yahoo.com/mysites


Og et viktig poeng til slutt: "Don't change URL structure!"