I sommer deltok jeg på CERN Workshop on Innovations in Scholarly Communication (OAI7), 22-24 juni i Geneve, Sveits.
Hektiske dager med masse interessante innlegg, velger å oppsummere den presentasjonen jeg syntes var mest interessant: nemlig hvordan et arkiv best blir synlig i søkemotorer.
Presentasjonen ble holdt av Robin Tansley fra Google, og er i skrivende stund tilgjengelig på URL: https://atmire.com/labs17/bitstream/handle/123456789/11796/2011_06_21_OAI7_DSpace_Search_Engine_Optim.pdf
- Det finnes over 1100 DSpace-instanser der ute, med forskjellig struktur og oppsett. For å bli best indeksert av Google gjelder det å være mest mulig lik alle de andre!
- Sørg for at det blir lenket til arkivet fra institusjonens hovedside. Desto flere lenker jo bedre.
- Alle dokumenter må kunne nås i løpet av 10 klikk fra hovedsiden.
- Bruk sitemaps (ingen søkemotorer ser ut til å bry seg om OAI-PMH)
- Permanente URL'er som Handles har mange fordeler for oss, men for Google ser dette bare ut som noe som ikke hører sammen med arkivet. Hjelper heller ikke at Handles nøvendiggjør to klikk for å komme til dokumentet.
- Sørg for gode metadata, Dublin Core er ikke alltid nok. DSpace versjon 1.7 kommer med støtte for HighWire Press metadata headers der man f.eks. kan lenke direkte til fulltekst i felt "citation_pdf_url". Skal også bidra til at siteringer indekseres korrekt (noe som er et problem nå).
- Innholdet bør bestå av én PDF-fil (under 5Mb), med tekstinnhold (OCR eller laget fra Word), og helst ingen license.txt!
- Embargo-funksjon sperrer for all indeksering, det bør brukes IP-autentisering i stedet slik at søkemotorene får tilgang til å indeksere.
Det ble også snakket om andre elementære ting som å registrere seg i diverse webmaster-tjenester:
● Bing: http://www.bing.com/webmaster
● Google: https://www.google.com/webmasters/tools/
● Yahoo: https://siteexplorer.search.yahoo.com/mysites
Og et viktig poeng til slutt: "Don't change URL structure!"