Počítač není psací stroj

Nástupem počítačů se zcela změnila podstata práce s textem. Doposud byl totiž text vždy pevně svázán jak se svým nosičem (hliněné destičky, papyrus, pergamen, papír...), tak grafickým vyjádřením (písma, typografie, rukopis, tisk...). Počítač tuto vazbu zcela zrušil. Pro obsah dopisu je přece lhostejné, zda je uložen na pevném disku v útrobách počítače, nebo na vzdáleném serveru či na datové klíčence. Přenosem z jednoho media na druhé se v něm nezmění jediné písmenko. Podobné to je i s vizuální podobou textu. Několika kliknutími myši v kancelářském editoru změníme typ či velikost písma, zarovnání atd. 

To nám otevírá zcela nové možnosti. Jednou vytvořený text můžeme například vytisknout na domácí tiskárně nebo publikovat v časopise, poté jej využít jako kapitolu knihy, nebo k vytvoření webu, e-knihy atd. To však předpokládá důsledné oddělení vlastního obsahu (textu) od jeho grafické podoby (stylování). Důsledné využívání stylů také usnadní formátování dokumentu a zajistí jeho vizuální konzistentnost.

Z pohledu věčnosti

Gentleman ví, že cílem práce na počítači není obdivovat „cool" efekty programového rozhraní, ale výsledná data. Tím se jeho pohled liší od pohledu komerčních dodavatelů programů, kteří vás přesvědčují, že výsledek vaší práce jen okrajový exkret jejich báááječných programů. Protože vám chtějí každý rok prodat krabici s novou sadou svých úžasností, musí se postarat o to, aby vás zamotali do spleti vlastních formátů a výjimek, jejichž šikovnými změnami vás donutili pravidelně nakupovat jejich krabice. Přitom tají použité formáty a nezveřejňují jejich vnitřní uspořádání. Tak nejen znemožňují konkurenci vytvořit alternativní produkty, ale zejména silně omezují svobodu uživatelů při volbě potřebných nástrojů.

Základním pravidlem počítačového přežití je důsledné používání standardů. Jen tak lze zaručit, že data vytvořená v určitém programu budou použitelná i poté, co přechodná marketingová sláva tohoto programu pohasne a ten zapadne mezi tisíce podobných, dříve oslavovaných a nyní zaniklých zázraků.

Chceme-li, aby naše dokumenty byly čitelné i jinde než na počítači na kterém byly vytvořeny, aby byly dále zpracovatelné a aby je šlo použít i po desítkách let, musíme je ukládat v „otevřených formátech". Těmi rozumíme takový způsob ukládání, které autor podrobně popsal, tento popis prošel mezinárodní standardizací, je veřejně dostupný a je prost licenčních omezení.

Jen pro takovýto formát totiž může kdokoliv (kdo to umí) vytvořit potřebné programy. Proto je i práce s daty v otevřených formátech mnohem efektivnější, protože pro jednotlivé úkony můžeme volit optimální, často velmi sofistikované nástroje, nejsme závislí na konfiguraci počítače (písma, národní konvence...) na operačním systému, použité platformě atd. Hlavní výhodou však je, že data budou přístupná i po desítkách let.

Mistr Jan za to nemůže

Ve škole jsme se učili, že Husova reforma pravopisu byla pro češtinu požehnáním a důležitým impulzem pro její další rozvoj. Dnes si však její výhodností nejsme zcela jisti. Mistr Jan totiž, mimo jiné, odstranil spřežky a nahradil je „nabodeníčky", tedy diakritikou. Česká abeceda má tedy znaky, které původní latinská abeceda neznala a nezná. Bohužel je nezná ani angličtina, mateřština dnešních počítačů.

To vede k řadě komplikací při užívání češtiny na počítačích. Latinskou abecedu rozšířenou o zvláštní znaky má však i mnoho dalších jazyků (francouzština, severské jazyky...) a proto s „neanglickými" abecedami musí umět pracovat všechny dnešní počítače (operační systémy a programy).

V počítači je každý znak reprezentován číslem v rozsahu 0 až 255 (1 byte). Pro angličtinu stačilo pouhých 128 znaků (velká a malá písmena, čísla, interpunkce, pomocné znaky...). Tento soubor „nejstandardnějších" znaků (tzv. dolní polovina ASCII) představuje nejmenšího společného jmenovatele, na kterém se shodnou všechny další standardy.

Znaky národních abeced využívají zbylých 128 míst „tabulky znaků". Potíž je však v tom, že tento prostor nestačí ani pro všechny národní znaky latinky, natož cyrilici, alfabetu, atd. Proto byl zaveden standard ISO, který určil znakové sady pro jednotlivé jazykové oblasti (západní Evropa, střední Evropa, cyrilice atd.). České kutilství a světovládné choutky jistého Billa však způsobily, že pro češtinu máme více než půl tuctu „zaručeně nejlepších", ale vzájemně neslučitelných kódování.

Další hora problémů vyplývá z toho, že kód znaku sice určuje „co chtěl autor říct", ale nemá žádný vliv na to, jak bude znak zobrazen na obrazovce či vytištěn. Vizuální podobu znaku určuje použité písmo (font), tedy „obrázky" které znaky zobrazují. Pokud tedy kódování písma neodpovídá kódování dokumentu, zobrazí se nám známý „rozsypaný čaj". Situace je zašmodrchaná i tím, že písma využívají různé technologie (postscript, ttf, rastr) a na různých platformách (Windows, Unix, OSX...) jsou různá.

Potřeba kombinovat jazyky v jednom dokumentu a používat počítač i s „exotickými" jazyky (japonština, čínština, arabština...) si vynutila obecnější přístup ke kódování znaků, tzv. Unicode. Ten používá ke kódování mnohem větší tabulku (2 a více byte), která pojme všechny myslitelné znaky. To, že výsledné texty jsou poněkud větší je drobná nevýhoda, kterou kompenzuje jednoznačnost a snadnost použití.

Spolu s novým standardem písem Open Type (písma jsou shodná pro všechny platformy a mohou obsahovat všechny znaky) tvoří Unicode ideální základ elektronických dokumentů, které lze snadno sdílet a budou čitelné ještě po desítkách let.

Kódování

  • ASCII (nejuniverzálnější a nejjednodušší - znaky bez diakritiky kompatibilní s Unicode, ISO i Windows)
  • Unicode (utf-8)
  • ISO (pro středoevropské jazyky iso-8859-2)
  • Windows, keyb2, KOI atd. (nestandardní, nedoporučeno!)

Formáty

  • txt (tzv. holé ASCII)
  • xml (nejdokonalejší a nejobecnější formát)
  • odt (open document format – standardisovaná varianta /podmnožina xml vhodná pro kancelářské dokumenty)
  • (x)html (podmnožina xml určená pro web)
  • pdf 
  • doc, sam, 602 atd. (nestandardní, nedoporučeno!)