March 05, 2006
Netarkivet.dk - netdræberen

[Update: Netarkivet er flinke til at hjælpe med den slags problemer]

Robot.txt

Alt offentliggjort materiale vil blive indsamlet, dvs. pligtafleveringsinstitutionernes høstere
vil ikke respektere metoder som robot.txt til at frabede sig høstning af hele eller dele af et
givent netsted.

Fra netarkivets vejledning til websites (PDF)

Jeg gik og troede at min server var ved at dø, men nej, nej - det var bare Det Kongelige Bibliotek der gik msnbot i bedene, og føler sig forpligtet til at arkivere verden i røversprog og pi kinisisk. Lørdag arkiverede netarkivet 11400 sider på den måde.
Fordi det er lovpligtig indsamling af materiale på nettet respekterer man ikke robots.txt, og derfor er jeg nu tilbage hvor jeg startede: Mine webtransformationstjenester lægger fuldstændig min server ned, fordi jeg transformerer links også og fordi netarkivet følger linksene (de er jo på en dansk server, nemlig min).

Jeg er helt med på at der skal arkiveres, men at disrespektere robots.txt og undlade andre mekanismer til at anmelde indhold som ligegyldigt for Det Kongelige Bibliotek er simpelthen så dumt at det trodser enhver beskrivelse(det er nok for hårdt) fjollet. Nu bliver jeg nødt til at lave min robotbeskyttelse i CGI istedet. Jeg glæder mig allerede til netarkivet.dk konstaterer at heller ikke den praksis er acceptabel og begynder at fake Internet Explorer istedet for at bruge en identificerbar UserAgent.

Posted by Claus at March 05, 2006 10:00 PM | TrackBack (0)
Comments (post your own)
Help the campaign to stomp out Warnock's Dilemma. Post a comment.
Name:


Email Address:


URL:



Type the characters you see in the picture above.

(note to spammers: Comments are audited as well. Your spam will never make it onto my weblog, no need to automate against this form)

Comments:


Remember info?