Annons

Utvecklingsbloggen

Per Åström

Per Åström

Robots.txt är en textfil som talar om för spindlar och sökmotorer vilka delar av en sajt som ska indexeras. Specifikationen beslutades 1994 och har varit oförändrad sedan dess. Det har talats om att uppgradera textfilen till en XML-fil och att tillåta tidsstyrning i robots.txt för att styra när en robot får crawla en sajt (av prestanda- och kapacitetsskäl) men inget sådant har genomförts.

I dagsläget kan man styra sökmotorerna med robots.txt, meta-taggar och cachetider. Sökmotorer (de stora) respekterar robots.txt så om man skriver att man inte vill ha sin sajt indexerad så blir den inte heller det (eller delar av sajt).

WAN (World Association of Newspapers) har satsat $583,700 på att ta fram ”ACAP” – Automated Content Access Protocol. ACAP är ett protokoll, ett regelverk för att styra rättigheter för sökmotorers och spindlars indexering av en sajt. Det är tänkt att komplettera robots.xml som WAN anser är för begränsat och outvecklat för den typ av detaljerad styrning som WAN vill möjliggöra.

ACAP är ett branschinitiativ som bottnar i de problem tidningar i Belgien upplevde med att Google News drog igång och visade rubriker och tumnagelbilder av innehåll från nyhetssajter. Med ACAP ska rättighetsinnehavaren själv kunna definiera hur och var deras innehåll kan användas och indexeras.

För att ACAP ska slå igenom krävs det att sökmotorerna beslutar sig för att stödja ACAP och i dagläget finns det endast en som har uttalat stöd: Exalead. Ingen av de tre stora Google, Yahoo eller MSN stödjer i dagsläget ACAP, och senaste informationen jag hittat är från mars i år där Google säger ”The general view is that the robots.txt protocol provides everything that most publishers need to do. Until we see strong reasons for improving on that, we think it will get every one where they need to be.” (Rob Jonas, Google’s head of media and publishing partnerships in Europe).

För att få ACAP att slå igenom vill ACAP att medlemssajter och även alla andra lägger till ACAP stöd i robots.txt. På så vis ska man visa att man stödjer ACAP även om man i dagsläget kanske inte lägger till några nya regler för att skydda något speciellt innehåll.

På ACAP’s hemsida kan man läsa att Bonnier stödjer ACAP:

”On behalf of the Bonnier Group I would like to confirm that we fully support the ACAP project. It is vital to the future of our industry to manage our content and to set the terms and conditions on how it is used. Copyright is required to underpin the future of and encourage investments in the content industry and to create a rich and diverse online environment to match the offline one. With ACAP, publishers will be able to make more content available to users through the search engines, and to continue to innovate and invest in the development of business models for network publishing.”

Bengt Braun,

President & CEO,

The Bonnier Group

En genomgång av några svenska sajter nyhetssajter visar att ingen har lagt in stöd för ACAP ännu och förvånande nog att det också saknas robots.txt på flera sajter:

Aftonbladet – ja

Barometern– nej

Blekinge Läns Tidning – nej

City – ja

Dagens Industri – ja (och sitemap inlänkad)

DN – ja

E24 – ja

Expressen – nej

Göteborgsposten – ja

GT – nej

Kristianstads Bladet – ja

Kvällsposten – nej

Metro – ja

Norran – nej

Svenska Dagbladet – ja

Sydsvenskan – nej

Smålandsposten – nej

WAN själva använder ingen robots.txt, varken standard eller ACAP-enablad. Inte heller IFRA, en annan branschorganisation för tidningar använder robots.txt eller ACAP.