”Efter The Pirate Bay” i epub-format (och en lång diskussion om ND-klausulen)

I fredags släpptes, via Rasmus Fleischer och ett antal nättjänster, antologin ”Efter The Pirate Bay” i PDF-format. Eftersom den är licensierad under en Creative Commons-licens så får vem som helst sprida den vidare hur som helst. Vackert så.

Men jag är ju, som kanske tidigare framgått, väldigt förtjust i min Sony PRS-300, och även om den kan läsa PDF-filer så gör den bäst ifrån sig på epub-filer. Eftersom jag redan provat att konvertera en annan PDF-fil till epub så tänkte jag göra det även för denna fil.

Här är resultatet: Efter The Pirate Bay (epub). Lång utläggning om de tekniska och juridiska problem jag hade med att göra denna version följer.

Den första juridiska frågan är: Får jag sprida en epub-version av verket? Den licens som anges i PDF-filen är Creative Commons Erkännande, Icke-kommersiell, Inga bearbetningar 3.0 (eller, som kidsen säger, BY-NC-ND), och denna licens har ett antal villkor (lustigt nog verkar utgivarna av boken själva bryta mot ett av dessa, nämligen 4(a) som säger ”You may Distribute or Publicly Perform the Work only under the terms of this License. You must include a copy of, or the Uniform Resource Identifier (URI) for, this License with every copy of the Work You Distribute or Publicly Perform.” – varken licenstext eller URI tycks finnas i PDF-filen).

Det villkor som är mest intressant är ND, dvs ”no derivatives” eller på svenska ”inga bearbetningar”. När jag såg detta klagade jag högljutt vilket väckte en diskussion där kontentan var att ND-klausulen skiljer på rena formatkonverteringar och ”adaptions” (eller på svenska ”bearbetat verk”). Man får, även med en ND-licens göra konverteringar av ett verk till ett annat format (artikel 3, sista stycket):

The above rights include the right to make such modifications as are technically necessary to exercise the rights in other media and formats, but otherwise you have no rights to make Adaptations.

Så frågan är om en PDF -> epub-konvertering är en formatkonvertering eller ett bearbetat verk. Det tycks åtminstone klart för mig att en konvertering från PDF till epub måste anses vara ett bearbetat verk under vissa förutsättningar, nämligen när jag tillför saker som inte fanns i ursprungsverket, exv egna kommentarer om innehållet. Och det verkar rimligt att en epub-version av ett verk som till allt innehåller samma text, samma utseende och samma funktionalitet som PDF-filen borde klassas som en formatkonvertering, tillåten enligt artikel 3.

Men ingen av dessa ytterligheter verkar särskilt realistisk att nå. Jag beslöt mig för att använda det eminenta programmet calibre (ett open source-itunes för eböcker) och dess inbyggda formatkonverterare. Resultatet blev… nästan läsbart, men inte bra:

Ni ser själva. Fotnoter och sidnummer dyker upp som om det vore text, styckeindelningen är kaotisk, och formen är inte i närheten av Jens Anderssons original. Att göra en bra konvertering från PDF till epub är helt enkelt inget som låter sig göras med automatik, eftersom man i princip måste omtolka all formgivning till de förutsättningar som gäller för ett CSS-baserat, omflödningsbart format. För att det ska gå måste innehållet vara rimligt semantiskt uppmärkt. Och som vi alla vet är processen att konvertera PDF till något strukturerat är som att konvertera hamburgare till kor.

Men det är ändå denna kackiga version jag gjort tillgänglig. Anledningen (förutom tidsbrist) är att varje manuell handpåläggning medför en bedömning eller, rättare sagt, ett utrymme för mig att ge uttryck för min individuella skaparförmåga. Det låter högtravande, men om man gör femtio sådana handpåläggningar (och min Lessig-konvertering innebar fler än så) får man ett resultat och ett uttryck som är unikt för mig som epub-hantverkare. Allt sådant gör att avvägningen mellan formatkonvertering och bearbetat verk förskjuts åt det senare.

Jag har skrivit om det här förut. Inget nytt under solen. ND-klausulens kompis NC (”icke-kommersiell”-klausulen) har traditionellt orsakat minst lika mycket huvudbry, men efter mycket arbete presenterade Creative Commons för ett år sedan en omfångsrik rapport om hur det begreppet kan tolkas. Kanske det är läge att göra samma sak för ND?

En annan fråga är varför man i detta fall valde att använda ND-klausulen. Kanske är det en liknade motivering som Spelbloggen använt? Några författare eller redaktörer till antologin som kan sprida ljus över detta?

Snart dags att återvinna pappersböcker

I veckan släppte Amazon version 2 av sin ebokläsare Kindle. Den stora nyheten verkar främst vara förbättrad design, vilket kanske var rätt fokusering med tanke på att version ett var ful som stryk. Inte heller version 2 finns tillgänglig för oss svenskar, och anledningen till det är ganska obegriplig. Visst är det så att whispernet inte finns tillgängligt här, men det finns väl andra sätt att få in böcker i apparaten? Mina analoga bokhylla har klarat sig ganska bra utan trådlös nätverksaccess.

Och kanske är det här ett steg på vägen mot en ipodifiering av bokläsandet (kom ihåg att inte ens ipod var en succé från dag ett). Bakåtsträvare tjatar om att det ändå är något visst med att hålla en fysisk bok i händerna, känna sidorna under fingrarna och kunna anteckna klokskaper i marginalen, men för mig låter det som det där vurmandet för stora LP-omslag och lägga-nålen-på-skivytran-ritualen som man hörde strax innan CD:n slog ut vinyl.

På samma sätt kommer det bli med böcker – dagens exemplarkramande kommer att dö ut i takt med att verktygen för att läsa elektroniskt blir bättre. De praktiska fördelarna med att kunna bära med sig hela sitt bibliotek, kunna söka i böckerna, slippa den urtrista möbeltypen ”bokhylla”, och kunna dela med sig av sina böcker elektroniskt är helt enkelt för stor.

Och av det sista så förstår ni att det kommer bli ytterligare en upphovsrättsdebatt när gemene man börjar fildela PDF:er. Det får bli ett ämne för en senare postning, nu tänkte jag fokusera på varför du inte redan läser böcker på skärmen och när du kommer börja med det.

Jag använder ofta min tablet som ebokläsare. Eftersom skärmbilden kan roteras till stående nästan-A4 och upplösningen är närmare 150 DPI blir det ganska lättläst. Kombinerat med PDF Annotator i fullskärmsläge kan jag stryka under och anteckna i marginalerna bäst jag vill (anteckningarna är läsbara i vilken annan PDF-läsare som helst). Dock är en två kilo tung dator, som dessutom blir rätt varm, inte så bra rent ergonomisk, och en aktivt lysande skärm ger trots allt inte samma känsla som en bok. Lägg till det de distraktioner som trådlös internetåtkomst ger, så har vi en förklaring varför jag inte tycker den i alla avseenden är bättre än analoga böcker.

Dock är den ofta good enough – jag köpte för ett tag sedan ”Learning Drupal 6 Module development” från förlaget och fick då en PDF-version direkt, samt en fysisk bok någon vecka senare i posten. Jag använder oftare den elektroniska varianten eftersom den alltid är med och det rent ergonomiskare faktiskt är smidigare med en bok som är ett Alt-Tab bort, snarare än en som är en armlängd bort.

Men jag tror ändå att jag skulle gilla en läsare med e-bläck, dvs en reflektiv skärmtyp. Eftersom Amazon inte vill sälja till mig har jag tittat på vilka andra alternativ som finns. Många talar varmt om Hanlin V3 som har ungefär samma formfaktor som Kindle, minus tangentbordet. Själv är jag dock mest sugen på den större iRex DR1000S, som har en tiotumsskärm och anteckningsmöjligheter genom medföljande Wacom-penna. Kolla gärna igenom MobileReads utmärkta wiki med bland annat en jämförelseöversikt över befintliga modeller. Poängen med den större skärmen är att man faktiskt kan läsa de flesta PDF-filer på den med en hel sida i taget. Eftersom PDF är det klart dominerande formatet för allt som jag skulle vilja kunna läsa på en sån här pryl, det formatet är hopplöst knutet till ursprunglig sidstorlek, och den sidstorleken vanligtvis är A4 eller något av de konstiga amerikanska standardformaten, så kan det nog vara värt den större formfaktorn. Dock är DR1000S svindyr. Jag har en osviklig förmåga att pricka in köp av ny hårdvara ungefär ett halvår innan priserna rasar rejält (har hittils skett med modem, hemmabiosystem, TFT-skärm, MP3-spelare, DVD-brännare och den tidigare omtalade tablet-PC:n), så kanske bör jag hålla mig ett tag till.

Å andra sidan, nån måste ju vara early adopter…

XHTML2, CSS3 och PDF

Tidigare frågade
jag runt
vilket som var det bästa sättet att skapa PDF från nån
typ av strukturerad XML-data. De svar jag fick från olika håll pekade
på att köra det gen om en CSS3-kapabel layoutmotor vore
lämpligt. Så jag har ägnat lite tid åt att trimma in ett stylesheet
anpassat för lagtext uttryckt XHTML2 tillsammans med metadata från
ESFR-vokabulären.

Som testobjekt använde jag den
lagtext som utgör kursfordran
för förvaltningsrätt, dvs den kurs
jag läser för närvarande. Tidigare har ett förlag tryckt upp en särskild
författningssamling
för detta ämne, men på
introduktionsföreläsningen nämndes att detta inte skulle göras i år,
då kostnaden för att ta fram uppdaterade tryckorginal för varje kursstart var för stor
(kursen går två gånger om året).

Nu har jag ett automatiserat publiceringsflöde, som utgående från
en huvudfil,
uttryckt i XHTML2, och en samling lagtexter, också uttryckt i XHTML2,
genererar en sammmanslagen
fil
. Denna innehåller alla författningar (eller delar därav) som
huvudfilen hänvisar till genom XInclude/XPointer. Från den
sammanslagna filen och ett CSS3-stylesheet skapas sen en PDF. Första
steget görs med xmllint --xinclude,
andra med Prince. Kostnad för att ta fram uppdaterade tryckoriginal: i princip
noll.

Resultat:
enkelspaltig
(css),
dubbelspaltig
(css).

Några saker att lägga märke till:

  • Innehållsförteckningen har korrekta sidnummerhänvisningar
  • Sidhuvudet visar var och i vilken lag man befinner sig på (och
    växlar utseende beroende på om det är en kapitelindelad lag eller inte)
  • Huvudfilen anger vilka förkortningar som ska användas för aktuell
    lag i sidhuvudet
  • Höger- och vänstersidor ser olika ut (precis som i riktiga böcker!)
  • Avstavning sker automatiskt efter svenska regler
  • PDF-bokmärkena ger en hierarkisk översikt över hela filen
  • Det går att inkludera bara enstaka kapitel (eller andra avsnitt) från en
    lag

Det finns förstås mycket kvar att fixa (kolla exv SekrL 16 kap –
inte många rätt i formatteringen där), och även mer att skriva om hur
man kan använda CSS3 och Prince XML, men det
får bli efter julen.

Tablet PC:s, studieteknologi och PDF-byggande

Sedan någon månad tillbaka använder jag min Tablet PC som studiehjälpmedel i kursen förvaltningsrätt. Mitt huvudsakliga verktyg för antecknande är Evernote, som håller reda på en samling anteckningar i både och maskin- och handskrivet format, och organiserar dem med taggar (tyvärr dock ingen svensk handstilsigenkänning). På föreläsningar där jag är en student bland hundra använder jag datorn som en vanlig laptop och skriver på tangentbordet, men på mindre seminarier och lektioner där interaktivitet och diskussion förekommer använder jag den i tabletläge och skriver på skärmen, för att inte gömma mig bakom en uppfälld skärm.

Istället för en lagbok använder jag en PDF-fil som jag skapat med betalversionen av Adobe Acrobat, som vi har på jobbet. Den antecknar jag sedan i med PDF Annotator, både i tablet- och laptopläge, och har numera en någorlunda genomklottrad fil. Tyvärr får jag inte ta med mig datorn på tentan, så dagarna innan har jag tänkt överföra de understrykningar (men inga anteckningar)

Jag tycker det här sättet att jobba på funkar riktigt bra. Om kurslitteraturen fanns att köpa elektroniskt skulle datorn vara det enda jag behövde släpa på till och från skolan. Men det finns några problem utöver att jag måste övergå till amishteknik inför tentan, varav det största är att lagtext-PDF:en är undermålig. Det vore ju mycket bättre om lagen.nu hade nån sorts ”generera författningssamling i PDF-form”-funktion. Jag ser fyra sätt att bygga en sådan, givet källmaterial är i XHTML2 och RDFa och följande krav:

  • Automatisk avstavning som följer svenska regler
  • Kontroll över sidfötter och huvuden som automatiskt reflekterar vilken lag och vilka paragrafer som finns på varje sida (tänk
    sidhuvuden i typisk telefonkatalog eller lexikon)
  • Automatisk generering av innehållsförteckning och index
  • Fungerande interna och externa hyperlänkar i resultatet
  • Kontroll över generering av PDF-bookmarks
  • Andra saker som blir uppenbara när en lösning som saknar dem står färdig.

Jag kan se fyra sätt:

  1. Old school: Transformera XHTML2-koden till (La)TeX och låt pdftex bygga en snygg PDF
    + Snygg typografi, riktigt bra svensk avstavning
    – Jag och (La)TeX har, trots upprepade försök, inte bondat riktigt
  2. New school: Transformera XML-koden till XSL-FO och låt fop eller
    någon annan processor göra PDF av det hela
    + Standardiserat och fint
    – Jag kan inte XSL-FO. Finns det nån gratis XSL-FO -> PDF-processor
    som är bra?
  3. Bleeding edge: Skriv ett superavancerat CSS3-stylesheet, koppla
    direkt mot XHTML2-datat och koppla in en CSS3-kapabel
    PDF-genererare

    + Ingen mellantransformering
    – Jag kan inte CSS3 (och är djupt misstänksam mot tidigare
    CSS-varianter). Prince XML är svindyrt.
  4. NIH-syndromet: Använd iText eller annat lib för att generera PDF
    direkt.
    + Jag slipper bli expert på ett sidbeskrivningsspråk
    – Jag måste bli expert på ett API

Dear lazyweb: vad skulle ni välja (givet att ni inte är experter på LaTeX, XSL-FO eller CSS3)?