Co budete potřebovat

Tento průvodce popisuje hlavní požadavky, které je potřeba splnit pro různé úrovně certifikace.

Bronzový certifikát

Bronzový certifikát zaručuje základní úroveň otevřenosti dat, tedy jejich veřejnou dostupnost pod otevřenou licencí a možnost data libovolně využít a sdílet. Ke získání bronzového certifikátu budete potřebovat název datové sady a jméno vydavatele. Dále musí datová sada splnit následující technické a právní požadavky.

Právní požadavky

Je potřeba zjistit, jestli vůbec máte právo data zveřejnit. Pokud jste jejich hlavním autorem, neměl by to být problém. V ostatních případech to může být o něco složitější:

  • Pokud používáte data odjinud, musíte si ověřit, jestli jejich licence umožňuje další šíření. Pokud jde o otevřená data, je to bez problému.
  • Pokud data sbíráte pomocí crowdsourcingu, nejspíš budete muset zkontrolovat, jestli vám jednotliví přispěvatelé umožnili další zveřejnění dat ve své přispěvatelské licenční smlouvě (CLA).
  • Pokud je právní situace složitější, například když využíváte nějaká cizí data bez jasně uvedené licence, bronzový certifikát můžete získat i tak.
  • Pokud si nejste jisti, raději se poraďte s právníkem.

Po dokončení těchto kroků můžete data zveřejnit pod otevřenou licencí. Doporučujeme vám využít licenci existující. Pokud se rozhodnete pro vlastní licenci, musíte si nechat potvrdit, že je skutečně otevřená.

Pokud je libovolná část obsahu dat chráněna autorským zákonem, například pokud data obsahují netriviální člověkem psané popisky, i tento obsah musí být licencován pod otevřenou licencí.

Technické požadavky

Měli byste potenciálním uživatelům svých dat usnadnit jejich hledání. Dobře v tomto ohledu poslouží některý z datových katalogů jako například anglický data.gov.uk. Hledání dat můžete usnadnit také pomocí následujících kroků:

  • Pokud publikujete jednorázové vydání jedné datové sady, měli byste mít přímé URL, ze kterého se data dají stáhnout.
  • Pokud publikujete sérii datových sad, máte několik možností. Můžete uživatelům dát k dispozici stálé URL, na kterém bude vždy ke stažení aktuální verze dat, nebo můžete URL každé aktualizace měnit podle pevného vzoru, který vývojáři snadno pochopí, případně můžete dát k dispozici strojově čitelný seznam vydání.
  • Pokud svá data publikujete prostřednictvím API, měli byste dát k dispozici kořenové URL tohoto API a na něm zároveň dokumentaci.

Stříbrný certifikát

Pro získání stříbrného certifikátu musíte mít web, na kterém data popisujete. K tomuto účelu dobře poslouží i záznam v nějakém katalogu, například data.gov.uk.

Právní požadavky

Pokud nemáte jasné právo data publikovat, pro získání stříbrného certifikátu musíte zveřejnit dokument, který popisuje případná rizika spojená s použitím a sdílením těchto dat dalšími uživateli. (Například riziko, že data kvůli právním problémům zmizí.)

Pokud data původně pochází odjinud, musíte zveřejnit dokument, který jasně popisuje jejich zdroj. Podle něj se pak uživatelé dat mohou rozhodnout, nakolik jim mohou věřit.

Dále musíte zveřejnit prohlášení o právech, ve kterém popíšete veškerá autorská a databázová práva spojená s vašimi daty, způsob licencování těchto práv a požadovaný způsob uvádění autora a původu dat. Bez těchto informací by se datům nedalo rozumně důvěřovat.

Pokud lze na základě vašich dat (třeba i v kombinaci s dalšími daty) identifikovat jednotlivé osoby, musíte se nějak vypořádat s ochranou osobních údajů. Data týkající se osob byste měli publikovat pouze v anonymizované podobě, s výjimkou případů, kdy vám jejich plné zveřejnění dovoluje nebo přikazuje zákon. Také byste měli provést analýzu rizik, která jsou se zveřejněním podobných informací spojena. A v souladu s evropskými zákony na ochranu dat byste měli zveřejnit prohlášení, že veškeré dotčené osoby souhlasily se zveřejněním osobních údajů. V případě pochybností problém konzultujte s tím, kdo má ve vaší organizaci na starost ochranu osobních údajů.

Praktické požadavky

Pokud publikujete data, která mohou zastarávat, přidejte k nim časové razítko, aby jejich uživatelé omylem nepoužili nějaké staré informace.

Pokud se vaše data průběžně mění a vydáváte je jako sérii datových sad, prodleva mezi vytvořením datové sady a jejím zveřejněním by neměla být větší než prodleva mezi dvěma vydáními. Jinými slovy: pokud například vydáváte novou datovou sadu každý měsíc, vydání by nemělo obsahovat data starší jednoho měsíce. Pokud se vaše data mění často, řekněme jednou denně a častěji, měli byste aktualizace vydávat aspoň jednou měsíčně nebo častěji.

Pokud nabízíte přístup ke svým datům přes API a zároveň publikujete exporty celé databáze, měli byste exporty vydávat aspoň jednou měsíčně, aby zájemci o celou databázi neměli příliš stará data.

Dále je potřeba zvážit, jak dlouho budete data poskytovat. Pro získání stříbrného certifikátu byste se měli zavázat, že budete data v nezměněném formátu poskytovat aspoň rok. V opačném případě je nepravděpodobné, že by do nich nějaký uživatel investoval netriviální úsilí nad rámec jednoduchých prototypů.

Technické požadavky

Pokud publikujete jednu datovou sadu, u které se nepočítá s průběžnou aktualizací, měli byste uživatelům nabídnout přímé URL ke stažení dat.

Pokud publikujete sérii datových sad, jednotlivá URL pro jejich stažení by měla dodržovat jednotný vzor, aby uživatelé mohli snadno odhadnout například URL pro daný měsíc nebo si naskriptovat stažení všech datových sad najednou.

Pro získání stříbrného certifikátu musí být data zveřejněna ve strojově čitelném formátu. Navíc ale musí jít o formát, který se pro vaše data hodí:

  • Pro statistická data použijte tabulku, například Excel.
  • Pro zeměpisná data použijte nějaký strukturovaný formát, například JSON, XML nebo CSV.
  • Pro obecné dokumenty použijte například formát Word, OpenOffice nebo PDF.

Sociální požadavky

Pro získání stříbrného certifikátu musíte uživatelům poskytnout technickou dokumentaci na nějakém veřejném URL. Dále musíte uživatelům dát kontaktní informace pro jejich dotazy, hlášení chyb v datech a hlášení případných problémů s osobními údaji.

Zlatý certifikát

Zlatý certifikát míří na data, jejichž publikování není prototyp nebo experiment, ale běžná součást provozu organizace. Jejich uživatelé se proto mohou spolehnout, že data budou k dispozici dlouhodobě, a mohou na nich stavět další produkty a služby.

Právní požadavky

Práva

Musíte mít nezpochybnitelné právo tato data zveřejnit coby otevřená. Data se zlatým certifikátem by měla být po právní stránce zcela bez problémů; uživatelé je mohou používat bez jakéhokoliv právního rizika.

Pokud jste data kompletně nenasbírali nebo nevytvořili sami, musíte dát k dispozici strojově čitelný seznam všech jejich zdrojů. Strojovou čitelnost můžete zařídit například samostatným dokumentem nebo RDFa značkováním na webové stránce se seznamem zdrojů (kterou požaduje už stříbrná úroveň certifikace).

Licencování

Musíte dát k dispozici následující strojově čitelná metadata:

  • licence k databázovým právům
  • licence k autorským právům
  • požadovaný způsob uvádění autora a původu dat (i když třeba ve svém licenčním ujednání na uvádění původu netrváte)
  • URL, na které se uživatelé mají odkazovat při uvádění původu

Poskytování těchto metadat ve strojově čitelné podobě usnadňuje jejich automatickou agregaci a automatické uvádění původu.

Pokud se nějaká právní ochrana na vaše data nevztahuje (například na čistá fakta nebo čísla se nevztahují autorská práva), je dobré to explicitně uvést, aby měli uživatelé jasno.

Ochrana soukromí

Pokud jste vydávaná data anonymizovali pomocí agregace (jinými slovy: pokud lze v datech rozlišit pouze skupiny lidí, nikoliv konkrétní jednotlivce), musíte mít proces anonymizace nezávisle auditovaný, aby byla jistota, že skutečně zachovává soukromí.

Pokud publikujete data o jednotlivých osobách:

  • Pokud vám zveřejnění těchto dat přímo umožňuje nebo přikazuje zákon (například protože publikujete nějaký veřejný registr daný zákonem), musíte zveřejnit dokument, který tato práva explicitně popisuje. Pomůžete tím uživatelům dat i osobám, kterých se data týkají.
  • Musíte zveřejnit analýzu dopadu na soukromí dotčených osob.
  • Vaše analýza rizik musí projít nezávislým auditem, aby se ověřilo, že nezapomíná na žádný z potenciálních problémů.
  • Nezávislým auditem musí projít také váš proces anonymizace dat, aby byla jistota, že omylem nepublikujete nějaké osobní údaje.

Praktické požadavky

Dohledatelnost

Pro získání zlatého certifikátu musíte prokázat, že na datovou sadu odkazujete někde na vlastním webu. Dále budete potřebovat aspoň jedno URL, na kterém je vidět vaše datová sada v seznamu podobných zdrojů. K tomuto účelu dobře poslouží například nějaký katalog podobný data.gov.uk, ale postačí i obyčejný výsledek hledání relevantního dotazu na Googlu. A konečně budeme chtít důkaz, že se na vaši sadu odkazují nějaké články, například blog posty nebo prezentace.

Zastarávání

Datová sada oceněná zlatým certifikátem by měla být vždy rozumně aktuální. Zatímco například naměřené výsledky experimentu už se s časem měnit nebudou, databáze autobusových zastávek ano, takže pokud má dosáhnout na zlatý certifikát, musí být pravidelně aktualizována.

Pokud publikujete sérii datových sad, do které postupně přidáváte další vydání, prodleva mezi vznikem datové sady a jejím publikováním by neměla překročit polovinu času mezi dvěma vydáními. Pokud tedy například nová data vydáváte měsíčně, obsah datové sady by nikdy neměl být starší než dva týdny. Tím zajistíte, že uživatelé budou mít vždy k dispozici rozumně aktuální data.

Pokud dáváte data k dispozici ve formě API, pro získání zlatého certifikátu musíte zároveň nabídnout zdrojová data za tímto API a nové exporty musí vznikat nejpozději do týdne od poslední změny dat. A pokud se data mohou měnit, musíte se navíc zavázat k opravě chyb, které vám uživatelé nahlásí.

Kvalita a záruky

Musíte dokumentovat veškeré známé rezervy v kvalitě publikovaných dat, aby uživatelé věděli, nakolik se mohou na data spolehnout.

Data musíte pravidelně zálohovat systémem offsite, tedy na jiném místě, než kde vznikají. Ideální je, pokud je záloha veřejná a hostovaná úplně jinou organizací, aby byla k dispozici i v případech, kdy vám vypadne web.

Pokud dáváte data k dispozici přes API, musíte dokumentovat očekávanou úroveň služeb. Jaká je očekávaná dostupnost vašeho API? Omezujete nějak počet požadavků? Když dojde k výpadku, máte představu, za jak dlouho bude služba obnovena?

Datová sada se zlatým certifikátem by měla být běžnou součástí provozu vaší organizace, měli byste s ní počítat ve střednědobém plánování.

Technické požadavky

Umístění

Pokud publikujete sérii datových sad, musíte uživatelům nabídnout pevné URL, na kterém vždy najdou aktuální vydání. (URL může být přesměrováno na adresu poslední vydané datové sady.) Dále byste měli mít strojově čitelný seznam všech vydání, aby si uživatelé mohli snadno stáhnout všechna data bez nutnosti hádat URL.

Pokud data publikujete prostřednictvím API, musíte zveřejnit strojově čitelný popis služby nebo vstupního bodu API. Cílem je, aby se klientské aplikace mohly lépe přizpůsobit případným změnám v API, ke kterým dlouhodobě většinou dochází. Kromě toho musíte dát k dispozici pevné URL, na kterém bude k dispozici aktuální export dat, na kterých je API založeno.

Formáty

Data musíte publikovat v nějakém standardním otevřeném formátu, například XML, CSV nebo JSON. Pokud publikujete obecné dokumenty, musí být v nějakém vhodném formátu se sémantickým značkováním, například HTML, Docbooku nebo Markdownu. Data statistického charakteru musí být ve standardním tabulkovém formátu, například CSV, nebo nativním formátu přímo určeném pro statistická data.

Objekty popisované v datech musí mít nějaké identifikátory, podle kterých se dají dohledat další podrobnosti – ať už zadáním identifikátoru do nějaké služby, nebo jeho prostým otevřením (pokud jde o URL). Tyto identifikátory pomáhají propojit data z různých zdrojů.

Sociální požadavky

Dokumentace

Musíte zveřejnit strojově čitelná metadata, například pomocí DCAT a RDFa, přinejmenším pro následující údaje:

  • název datové sady
  • popis
  • datum vydání
  • datum poslední změny
  • četnost aktualizací
  • identifikátor dat
  • URL na hlavní stránku datové sady
  • jazyk datové sady
  • jméno vydavatele
  • zeměpisné území, kterého se data týkají
  • časové rozpětí, kterého se data týkají
  • klíčová slova

Pokud poskytujete strojově čitelná metadata o jednotlivých souborech, měli byste pokrýt přinejmenším:

  • název souboru
  • popis
  • datum vydání
  • datum poslední změny
  • odkaz na prohlášení o právech, která se na data vztahují

Pokud jsou data uložena v obecném datovém formátu, který používá nějaké schéma (například názvy sloupců v CSV nebo atributů v JSON), musíte toto schéma dokumentovat. Totéž platí pro číselníky, pokud je v datech používáte. Zkrátka by datová sada měla obsahovat všechno, co je potřeba pro její správnou interpretaci.

Podpora

Pro komunikaci s uživateli dat byste měli nabízet sociální sítě, například Twitter nebo Facebook. Při certifikaci po vás budeme chtít názvy vašich účtů.

Dále musíte mít vyhrazený prostor pro diskuzi o vašich datech, například diskuzní fórum nebo poštovní konferenci. Budeme po vás chtít URL, na kterém se uživatelé o tomto prostoru dozví.

Pokud má smysl počítat s průběžnými opravami chyb v datech, musíte dát uživatelům instrukce, jak vám případné chyby mohou hlásit. Budeme po vás chtít URL stránky, na které jim mechanismus hlášení chyb vysvětlujete. Dále byste měli mít poštovní konferenci nebo feed, prostřednictvím kterých se uživatelé o provedených opravách dozví; opět budeme chtít URL stránky, na které se dá k tomuto kanálu přihlásit.

Platinový certifikát

Platinový certifikát je navržen pro datové sady, které tvoří základ informačí pyramidy – pro data, na kterých bude stavět a která bude rozvíjet řada dalších datových sad. Požadavky platinového certifikátu pak logicky odráží důležitost těchto dat.

Právní požadavky

Kromě všech předchozích požadavků musíte ve strojově čitelné podobě uvést následující informace:

  • veškerá data z prohlášení o právech (viz zlatý certifikát)
  • prohlášení o autorských právech
  • rok spojený s autorskými právy
  • držitele autorských práv

Pokud vaše jurisdikce rozlišuje databázová práva, přidejte navíc rok spojený s databázovými právy a držitele databázových práv.

Uvedením těchto informací ve strojově čitelné podobě umožňujete automatické citování ze své datové sady.

Praktické požadavky

Pokud publikujete sérii datových sad, prodleva mezi vytvořením datové sady a jejím zveřejněním by měla být zanedbatelná. A pokud dáváte data k dispozici přes API, měli byste nejpozději do jednoho dne od každé změny exportovat celou databázi ke stažení. Cílem je, aby uživatelé mohli vždy pracovat s aktuálními daty.

Měli byste veřejně dokumentovat své procesy pro řízení kvality, aby uživatelé dat měli představu, nakolik se na ně mohou spoléhat.

Pokud poskytujete API, musíte mít veřejnou stránku, na které budou aktuální informace o stavu služby, zejména o aktuálních a plánovaných výpadcích.

Data s platinovým certifikátem by měla být základní součástí provozu vaší organizace; měli byste s nimi počítat v dlouhodobém plánování.

Technické požadavky

Pokud poskytujete API, musíte zároveň publikovat exporty na URL s časovým razítkem, aby si uživatelé mohli snadno stáhnout libovolnou posloupnost exportů, například pro účely porovnání. Navíc musíte poskytnout seznam těchto exportů ve strojově čitelné podobě, například jako RSS.

Vaše data by měla být zpracovatelná existujícími nástroji založenými na otevřených standardech:

  • Statistická data by měla být k dispozici i ve standardním statistickém formátu, například SDMX nebo Data Cube. Cílem je, aby uživatelé měli k dispozici celý původní model včetně všech rozměrů, měření a atributů.
  • Zeměpisná data by měla být k dispozici i ve standardním geografickém formátu, například KML nebo GeoJSON.

Objekty ve vašich datech musí být opatřené identifikátory ve formě URL, na kterých se uživatel dozví další informace o popisovaném objektu. Pokud se nabízí použití spolehlivých URL třetí strany, použijte je, nevymýšlejte vlastní. Použití URL identifikátorů usnadňuje propojování dat z různých zdrojů.

Dále musíte uvést strojově čitelný záznam o původu dat a jejich zpracování, například pomocí standardu PROV. Tento bod je zvlášť důležitý u dat, která vznikla zpracováním jiných dat, aby uživatelé věděli, co všechno se s daty dělo a nakolik se jim dá věřit.

Vaše data mohou uživatelé získat z různých zdrojů, možná i od třetí strany, a tak byste je měli opatřit nějakým kontrolním součtem, aby bylo možné ověřit jejich integritu. Nabízí se například digitální podpis nebo hešovací funkce, díky kterým by se na libovolný neautorizovaný zásah přišlo.

Sociální požadavky

Musíte mít člověka nebo tým pro budování komunity uživatelů vašich dat. Budeme po vás chtít URL stránky, kde je možné se stát členem této komunity.

Musíte zveřejnit seznam aplikací a knihoven, ve kterých se vaše data dají zpracovat, ať už jde o vaše vlastní nástroje nebo nástroje třetích stran. Usnadníte tím uživatelům začátky.