Článek Louče

zpět na Louč - komentuje svět žurnalistiky a médií

7.12.2009

RUBRIKA: Informace, glosy, polemiky

Informační zdroje na internetu a jejich využívání (referát na Wikikonferenci 5.12.2009)

Úvodem citát z knihy, která vyšla téměř před šedesáti lety: „Proces přijímání a využívání informace je procesem našeho přizpůsobování k nahodilostem vnějšího prostředí a našeho aktivního života v tomto prostředí…. Aktivně žít znamená žít s přiměřenými informacemi…“ ¨Byla to kniha amerického matematika Norberta Wienera o kybernetice, která u nás vyšla o patnáct let později pod názvem „Kybernetika a společnost“ (str.32 českého vydání z roku 1963).

Wiener se zde zmiňuje o tom, že potřeby i složitost moderního života kladou na získávání informace větší nároky než kdykoli jindy, což dnes platí neméně naléhavě jako v roce 1948. Uspokojování těchto nároků tehdy Wiener ukládal – cituji jeho pořadí – tisku (ve významu dnešních médií), muzeím, vědeckým laboratořím, univerzitám, knihovnám, učebnicím. Kdyby Norbert Wiener psal svou knihu dnes, zcela určitě by v ní nechyběl internet.

Pojem „informace“ budu pro účel tohoto referátu používat ve smyslu sdělení sociální komunikace, vyjadřující jistou míru uspořádanosti a obsahující jisté významy ve vztahu k člověku a k prostředí, v němž žije, tedy ve smyslu, jenž vychází z latinského základu „informare“, tj. formovat, tvořit, uvádět v tvar, vytvářet představu, zobrazovat.

Nehodlám zde bilancovat všechny změny, které do našeho života přinesl internet tím, že vytvořil zcela nové komunikační prostředí pro rozvoj dosavadních způsobů a vytvoření nových modů sociální komunikace, navíc v globálním měřítku. Zaměřím se pouze na jednu jeho funkci, kterou reprezentuje Word Wide Web jako imaginární informační prostor, jako zdroj informací všeho druhu, ať už jsou to statistická data, dokumenty, textové zprávy, obrázky, grafy, zvukové i audiovizuální záznamy – tedy informace ve všech svých multimediálních podobách.

Vznik a existence toho nového komunikačního prostoru naplnilo půlstoletí starou vizi Vannevara Bushe, kterou neopomene zmínit žádná příručka o historii internetu. Bush v článku „As We May Think“ v časopise Atlantic Monthly, ročník 1945, nastínil projekt tzv. „memexu“, jenž jakoby předjímal vznik dnešního hypertextového webu.

Bushův „memex“ mělo být zařízení, které shromažďovalo a navzájem propojovalo informace všeho druhu v jednom pracovním stole s klávesnicí a projekční plochou. Hlavními stavebními kameny tohoto zařízení měly být mikrofiše a jejich kódování, které by se snímalo fotobuňkami. Není proto divu, že hlavní přednost „memexu“, totiž asociativní vyhledávání a propojování informací, nebylo možné v rámci tehdejších technických možností do praxe zavést. Kdyby Vannevar Bush byl ještě dnes naživu, nestačil by se divit, jak skutečnost předběhla jeho vize. To, co se zdálo být v roce 1945 utopií, je dnes samozřejmostí. Počítače v našich domovech a kancelářích uchovávají nesmírné množství informací a dat. Kromě toho se můžeme prostřednictvím internetu napojit na web.

Ráj, o kterém snil Vannevar Bush, se stal skutečností. Nejen privilegovaný vědec v laboratoři, ale kdokoli z nás si může pořídit svůj vlastní „memex“, dle Bushových slov „rozšířený dokonalý doplněk naší paměti“ (enlarged intimate supplement to our memory).

Nicméně vznikem internetu a rozvojem webu vznikl problém, o němž Vannevar Bush nemohl mít tušení, problém zvaný „informační zahlcení“. Nabídka informací na webu je tak rozsáhlá, že přesahuje možnosti a schopnosti jednotlivce je všechny přijmout, vnímat, a zpracovat. Situaci, v níž panoval hlad po informacích, jejichž dostupnost byla omezená prostorem a časem, vystřídal v internetové éře stav, v němž existuje nadbytek informací, jejichž disponibilita je globální a okamžitá. V tomto stavu dochází k pocitu přesycení informacemi, při němž, ať chceme či nechceme, musíme hledat odpověď na otázku o „přiměřenosti“ informací nezbytných pro náš život.

Kvantita a dostupnost informací v informačním prostoru webu totiž často přesahuje naše schopnosti využít jejich potenciál pro kvalifikované rozhodovací procesy. Nadbytek informací může mít stejný účinek jako jejich nedostatek. Řešením může být využití vhodných informačních filtrů, které jsou schopny rozlišit relevantní podstatné informace od informací nedůležitých, irelevantních. Jak ukazují současné zkušenosti, nelze se spoléhat výhradně na informační filtry, které se nám nabízejí na webu – především vyhledávače, ale také wikipedie. Tím nejdůležitější filtrem by měla být informační gramotnost uživatele internetu a webu, složená ze schopnosti obracet se na relevantní informační zdroje a ze schopnosti získané informace kvalifikovaně či adekvátně vyhodnocovat.

x x x

Jak napovídá název mého referátu, zaměřuje se na dvě témata:

1. charakter informačních zdrojů na internetu,

2. způsob, jak tyto informační zdroje vyhledávat a nakládat s nimi.

Zároveň se pokusím odpovědět na dvě otázky, které by si měli klást zvláště ti, kteří internet využívají jako informační zdroj nejen pro svoji osobní potřebu, ale také pro potřebu své profese (novináři, politici, vědci, učitelé studenti – také wikipedisté):

1. Kdy, kde a za jakých podmínek využívat zdroje informací volně přístupné na internetu?

2. Jak prověřovat zdroje a v jaké míře je možné spolehnout se na plnotextové vyhledávače typu Google?

Pokusím se o odpověď, přestože nejsem původní profesí informatik, ale novinář, což ovlivňuje můj úhel pohledu na tuto problematiku i moje zaměření na specifické informační zdroje, vhodné zejména pro novinářskou práci. Nebudu se dnes zabývat placenými zdroji informací, z nichž mnohé jsou přístupné online na internetu. Mám na mysli jednak tiskové a informační agentury, a dále všeobecné i oborově zaměřené placené databáze, u nichž se předpokládá, že za úplatu dodávají data ze spolehlivých zdrojů.

Jaké zdroje můžeme na internetu pokládat za spolehlivé? Při formulování odpovědi na tuto otázku je třeba mít stále na vědomí, že ten, kdo umístí nějaký informační zdroj na internet volně k použití, což vyžaduje čas, energii a peníze, obvykle sleduje nějaký účel. Lidově řečeno: zdarma ani kuře nehrabe. Tento účel nemusí být vždy informačně neutrální. Tj. informace zdarma se nabízejí jako součást jistého propagačního nebo přesvědčovacího procesu. Kromě toho existují lidé, které baví neustále prověřovat pozornost internetového publika tím, že vytvářejí falešné, často parodické stránky webové stránky s pravděpodobným obsahem.

Ačkoliv nelze vyloučit případy, ve kterých zdroj přesných, ověřených a významově hodnotných informací je poskytován soukromníkem z altruistického důvodu konání veřejného dobra a veřejné služby (příkladem může být projekt Wikipedie), vždy musíme počítat s tím, že poskytování informací zdarma sleduje účel, který následně ovlivňuje výběr a interpretaci nabízených dat a faktů.

Z tohoto důvodu je třeba důvěryhodnost, validitu a objektivnost informací na internetu vždy vyhodnocovat ve vztahu k jejich původcům. Dále je třeba vycházet ze známé zkušenosti internetové komunikace, vyjádřené bonmotem, podle něhož nepoznáte, zda na druhém konci drátu sedí starý muž, mladá žena nebo cvičená opice či pes. Možnosti manipulace digitalizovaných sdělení v anonymním komunikačním prostředí jsou téměř neomezené.

Z těchto dvou premis vyplývá, že ke zdrojům informací na internetu je třeba přistupovat vždy obezřetně, s kritickou nedůvěrou, jejíž stupeň by měl být větší, než při zacházení se zdroji, s nimiž můžeme být v bezprostředním sociálním kontaktu.

Na druhé straně, dosavadní zkušenosti s webem ukazují, že mezi volně dostupnými zdroji informací na webu jsou nejen účelově umístěné texty a data, které slouží propagaci a zviditelnění nejrůznějších firem, oborů a institucí. Na webu dnes můžeme nalézt také informační zdroje, které – přestože jejich vytvoření, zveřejnění a průběžná aktualizace vyžadovalo nemalé náklady – jsou volně přístupné veřejnosti, na jejichž přesnost a pravdivost se můžeme spolehnout, a které tedy mohou být užitečným nástrojem novinářské práce.

Z hlediska původu jejich provozovatelů je můžeme rozdělit zhruba do tří skupin. Jsou to informační zdroje umisťované na web

a) veřejnou správou, tj. státní správou a územní samosprávou,

b) neziskovým sektorem, tj. neziskovými a nevládními organizacemi,

c) soukromými subjekty, ať už institucemi nebo jednotlivci, u nichž lze počítat s jistým potenciálem důvěryhodnosti.

Za posledních deset let učinila Česká republika obrovský pokrok v transparentnosti státní správy a samosprávy, jejíž instituce umožňují vzdálený přístup ke všem svým základním dokumentům, které se týkají správy věcí veřejných.

Tato skutečnost se promítla i do zákona č.365/2000 Sb., jehož účelem bylo zkoordinovat jednotlivé informační systémy veřejné správy ve funkční kooperující celek. Zákon v definicích informačního systému rozeznává zvláštní kategorii „veřejného informačního systému“, tj. takového systému, který v návaznosti na informační systémy, jež veřejná správa v rámci svého pověření a svých úkolů vytváří, poskytuje službu veřejnosti.

U informačních zdrojů veřejné správy můžeme předpokládat jistou míru spolehlivosti nabízeného obsahu, proptože buď mají udržování veřejně přístupných databází v popisu práce, nebo se u nich předpokládá, že o své činnosti budou veřejnost pravidelně informovat, čímž se dostávají pod veřejnou kontrolu. Kromě toho bývají vstupní branou k velké části skrytého, neviditelného webu, jehož obsah je webovým vyhledávačům utajen, a který je vysoce užitečným zdrojem informací nejen pro novinářskou, ale pro jakoukoli badatelskou práci.

(Proč je neviditelný web neviditelným? Zjednodušeně řečeno: tzv. neviditelný web se skládá z neindexovaného nebo neindexovatelného obsahu na webu. Buď se jedná o webové stránky, které nejsou vyhledávačům přístupné, protože si jejich majitel vyhradil příkazem „no-robot“ zákaz indexování. Nebo robot vyhledávače nemohl data prohlédnout, protože k nim nevedl žádný hypertextový odkaz, neboť pocházela z automaticky generovaných stránek a uzavřených databází.)

Není účelem tohoto referátu vypočítat adresy webových stránek veřejné správy, které nám poskytují informace o nejrůznějších oblastech našeho společenského života. Mnohem podrobněji jsem to učinil v knížce, kterou jsem sepsal se svoji kolegyní Ludmilou Trunečkovou „Novinář a jeho zdroje v digitální éře.“

Datové soubory dostupné online jsou ohromující. Za všechny připomínám parlamentní servery (Sněmovna a Senát) s digitalizovanými stenoprotokoly a dokumenty zachycenými od roku 1918 i dříve. Sbírka zákonů na webu Ministerstva vnitra je k dispozici od roku 1945. Obchodní rejstřík nabízí online nejen povinné výpisy, ale dnes také další listiny, které jsou veřejné ze zákona. Dálkový přístup ke katastru nemovitostí Českého úřadu zeměměřičského a katastrálního, vládní portál veřejné správy, přístup k judikatuře ústavního a dalších soudů, informace statistického úřadu – to vše může sloužit nejen občanovi, ale i badateli se zájmem o věci veřejné a o vše, co nás obklopuje.

V tomto ohledu jsou cenným zdrojem informací také weby územní samosprávy, jejichž obsah se často neomezuje na suché úřední údaje, protože vždy se najdou nějací lokální patrioti, kteří z webové stránky obce či města udělají cenný zdroj informací o historii a současnosti dané lokality. Přístup k těmto stránkám zajišťuje portál mesta.obce.cz, ty nejkvalitnější se každoročně oceňují cenou Zlatý erb, udělovanou při pravidelných konferencích ISSS – Internet ve státní správě a samosprávě.

Rovněž neziskový sektor, tj. nevládní organizace, ale i další vzdělávací a vědecké instituce placené z veřejných zdrojů, nabízejí na svých webových stránkách zdroje využitelné k novinářské, badatelské i vědecké i všeobecně popularizační činnosti. Stále více vědeckých a dizertačních prací je k dispozici online k vyhledání přes Google Scholar. Ústav pro soudobé dějiny nabízí tematické soubory dokumentů ke klíčovým událostem českých dějin, Jazyková příručka Ústavu pro jazyk český by měla být v „oblíbených“ u každého wikipedisty, knihovny dnes nabízejí nejen katalogy, ale i zdigitalizovaná díla autorů, u nichž vypršela ochrana autorských práv – viz příklad díla Karla Čapka na webu pražské Městské knihovny.

Jak už bylo řečeno, zdarma na kuře nehrabe. Přesto však existují soukromé aktivity na webu, které nabízejí objektivní, ověřené, úplné a komplexně pojaté informace nabízené zcela zdarma. Většinou se tak děje u webů nabízejících praktické služby (jízdní řády, mapy, slovníky, adresáře, telefony) a zaměřených na určitý obor (internet, počítače – www.lupa.cz, www.zive.cz), určitou lidskou aktivitu (www.nakole.cz, www.dokina.cz) nebo na cílovou skupinu (www.rodina.cz), u nichž se předpokládá, že vygenerují dostatečnou návštěvnost, která pak prostřednictvím prodeje reklamních sdělení provoz daného webu zaplatí. V převážné většině se však jedná o informace spotřebitelského typu, nemající charakter informačního zdroje.

Nicméně existují soukromé weby, které mohou být inspirativní pro někoho, kdo se zajímá o nějaký speciální obor lidské činnosti, přinejmenším v tom, že jejich prostřednictvím se může dostat ke kontaktům na osoby, které se o daný obor zajímají a vyměňují si informace a odkazy na aktuální zdroje. Webové stránky s hledaným tematickým obsahem, které se umisťují v horní polovině žebříčku měřených návštěvností, mohou – i když také bezpodmínečně nemusí – odkazovat na web provozovaný soukromým subjektem s jistou informační hodnotou.

Některé informace podávané nějakým soukromým subjektem mohou být aktuálnější a přesnější, než informace shromážděné státní správou. Informačním zdrojem svého druhu mohou být například webové stránky oborových sdružení a asociací. Skutečnost, že tyto informace musí sloužit všem členům a nikoli jen některým z nich, je určitou zárukou jejich vyváženosti, přesnosti a spolehlivosti, bez prvků účelové manipulace.

x x x

Pro odpověď na druhou otázku - jak prověřovat zdrouje - využívám zkušenosti informatiků. Petr Boldiš z Ústavu informačních studií a knihovnictví FFUK (Jak oddělit zrno od plev) rozděluje webové stránky podle míry důvěryhodnosti do těchto skupin:

1. autorizované, u nichž je znám zdroj, autor, reference i důvod publikování informace,

2. neautorizované, u nichž nelze zjistit původ ani autora,

3. matoucí a záměrně falešné informace (poplašné či úmyslně nepravdivé zprávy tzv. hoax, webové stránky karikující či parodující původní zdroj).

(K tomu třetímu bodu já přidávám ještě tzv. virální marketing, který je stále častějším jevem na internetu, při němž PR agentury využívají falešných identit k propagaci zboží, služeb.)

Boldiš doporučuje prověřovat důvěryhodnost takových informací zkoumáním vnitřní konzistence dané informace, při níž se bude posuzovat obsahové zaměření, autorství, místo zveřejnění, aktuálnost, objektivita, a v případě pochyb se informace prověří externími zdroji (slovníky, citační analýza apod.)

U autorství by se mělo zkoumat, zda autor je skutečný či fiktivní, jakou používá e-mailovou adresu, zda komunikuje prostřednictvím mailových služeb zdarma, nebo zda má vlastní identifikovatelnou adresu od internetového poskytovatele.

Totéž se týká i umístění webové stránky, tj. je třeba si všimnout, zda dokument anonymně hostuje na bezplatném webu, nebo zda je umístěn u vlastního internetového poskytovatele.

Do hodnocení by měla vstoupit analýza jména domény, ať už jde o doménu prvního stupně, která nás může orientovat o oborovém (com, edu, org, gov) a geografickém (cz, de, pl, uk, ru) původu informace, nebo ať už se to týká domény druhého stupně, která nás může přivést ke konkrétní instituci a konkrétnímu webovému serveru.

Není na škodu všímat si, zda a kým je webová stránka sponzorována, případně zda příslušný DNS server není propojen s provozovatelem jiných webových serverů a stránek.

Důvěryhodnost dokumentu se dále prověřuje analýzou citací, tj. zda a jak dokument odkazuje na zdroje informací, jakým způsobem data získal, a do jaké míry jsou stále ještě aktuální. Dokument, který není datován, ztrácí velkou část vypovídací hodnoty.

Zkoumání obsahu by se mělo dále zaměřit na kontext, jakým se informace prezentují. Tj. zda nad fakty nepřevažují názory, zda fakta nejsou v dokumentu uváděna účelově, jednostranně, zda se zde dává prostor i konkurenčním názorům, zda lze předpokládat jistý stupeň objektivity předkládané informace.

Nikoli nepodstatným kritériem hodnocení je také zjišťování důvodu, proč ta která webová stránka vznikla, co chce autor či majitel jejím zveřejněním dosáhnout, zda mu jde o poskytování služby v obecném veřejném zájmu, nebo zda poskytovaná služba má podpořit nějaké partikulární obchodní či politické zájmy. Tolik o prověřování zdroje.

x x x

Na Fakultě sociálních věd jsem v letech 1995-2008 vyučoval předmět „Práce s informacemi.“ Ujal jsem se toho úkolu, protože školní rok 94/95 jsem strávil na univerzitě ve finském Tampere, kde jsem se pohyboval v prostředí informační společnosti, o jejíž úrovni jsme si tehdy mohli jenom zdát. Pamatuji se, jak v prvních letech jsem více než polovinu výuky věnoval seznamování studentů s tím, co to je a jak pracuje internet a web. Zbylý čas jsme věnovali využívání informačních zdrojů online.

Dnes se situace obrátila. Dnes už není třeba vysvětlovat internet, ale přesvědčovat studenty, že Google a Wikipedie nenaleznou všechno, a že je dobré investovat jisté myšlenkové úsilí k získání vědomostí o tom, kde se jaké informační zdroje nacházejí, a co a jak z nich mohu načerpat. Přiznám se, že to někdy dalo fušku, neboť mladá generace, tak suverénní v ovládání nových informačních technologií, nás, dříve narozené, občas podceňuje. Naštěstí na konci kurzu jsem obvykle zvítězil právě proto, že vyhledávače mají své limity, kterých by si měl být vědom každý, kdo s nimi pracuje.

Zdánlivá snadnost, s jakou se prostřednictvím vyhledávačů dostáváme k velkému množství dokumentů a informací na síti, může vést k mylnému přesvědčení, že vyhledávače nás dovedou vždy ke zdrojům informací, které jsou pro nás relevantní, protože mapují veškerý informační prostor webu, a protože jeho zautomatizované „nestranné“ algoritmy nám zařadí do čela výběru právě ty dokumenty, které jsou významné, a na které se můžeme spolehnout.

Množství nabízených informací a většinou úspěšné hledání vyvolává u lidí pocit, že internetový informační prostor a jeho formátování prostřednictvím vyhledávačů zrcadlí svět v jeho komplexnosti, takový jaký ve skutečnosti je. Přitom si neuvědomují, že tvorba obsahů na síti, jejich výběr a třídění je ovlivněno řadou subjektivních vlivů, které se v některých případech dají nazvat manipulací.

K jedné takové manipulaci dochází již u autorů nabízených obsahů, které bývají často produktem sofistikovaného public relations nebo selfpromotion. Autoři webových stránek se kromě toho snaží prodrat do čela vyhledaného výběru nejrůznějšími způsoby, ať už jde o vytváření umělých hypertextových odkazů na vlastní stránku, jejich řetězení a další metody označované jako SEO – Search Engine Optimization.

Manipulací svého druhu je i rozhodování, které webové stránky budou roboti vyhledávačů navštěvovat a indexovat, a které ponechají nepovšimnuty. Přes obrovský záběr a výkony robotů stranou zůstává tzv. neviditelný, skrytý web, s rozsáhlými databázemi, o kterém jsem již mluvil.

Dalším subjektivním prvkem je třídění a řazení sebraných dat. Přestože se tak děje automaticky, sestavení algoritmů může být ovlivněno obchodními zájmy provozovatelů vyhledávacích serverů. Nejen Google, ale i jiné vyhledávače upravují algoritmus třídění výsledků podle chování uživatelů, které pak tvoří další filtr nabízených informací tím, že se odsouvají odkazy, o něž nebyl masový zájem. Nehledě na to, že u tzv. paid inclusion, tj. placeného zařazení do seznamu odkazů, některé vyhledávače, mezi nimi i český Seznam.cz, nabízejí firmám za úplatu umístění odkazu do čela vyhledaného seznamu.

Zcela jasnou manipulací na straně vyhledávačů jsou pak situace, při nichž přístup k některým zdrojům a možnosti jejich vyhledání jsou zcela záměrně uživatelům odpírány. Týká se to například chování internetových firem v Čínské lidové republice.

Italský sémiolog a spisovatel Umberto Eco nedávno – v rozhovoru pro časopis Spiegel – o vyhledávači Google prohlásil: „Google vytváří seznamy/inventáře… Tyto inventáře mohou být nebezpečné - ne pro staré lidi jako já, kteří získali vědění jinými způsoby, ale pro mladé lidi, pro něž Google znamená tragédii. Pouze školy mohou vyučovat důležitému umění rozlišovat.“

Přestože vyhledávače nevytvářejí nový obsah, svými funkcemi se stávají dveřníky informací (gatekeepers), což byla role až dosud vyhrazená pouze žurnalistům a médiím. Aniž si to lidé uvědomují, vyhledávače svým uživatelům „formátují“ okolní svět. Této vlastnosti si všimli již i někteří zákonodárci v západní Evropě, kteří se domnívají, že vyhledávače – podobně jako masová média – by měly podléhat jistému dohledu a řídit se jistými obecně uznávanými buď formálně stanovenými, nebo neformálními pravidly. Týká se to především transparentnosti třídění výsledků a jejich umístění, a také rozeznatelnosti reklamních sdělení.

Dveřníkem informací svého druhu je dnes také Wikipedie. Také ona slouží jako maják v moři informací na webu ukazující cestu ke kýženému cíli. Také ona slouží jako informační filtr, který nám pomáhá bojovat s informačním zahlcením. A také ona by měla být přijímána s jistým rezervovaným odstupem, přes všechnu chválu, kterou si wikipedisté za své úsilí zaslouží.

Ve vztahu k Wikipedii jsem vnitřně rozpolcen. Na jedné straně ji nemám rád, neboť se s jejími stopami až příliš setkávám v seminárních pracech studentů, kteří si své putování za věděním až příliš zjednodušují. Na straně druhé, jsem-li v úzkých, přidám k hledané frázi do googlu slovíčko „wiki“ a své informační putování začínám právě u tohoto zdroje. Také proto neodsuzuji studenty, kteří se zachovají podobně. Ovšem za předpokladu, že Wikipedii budou chápat jako jeden z informačních zdrojů a jako rozcestník, který jim utřídil informace natolik, aby se neutopili v moři informací, aby se nestali obětí informačního zahlcení, aby byl jejich i náš život aktivní a efektivní, protože byl prožíván s přiměřenými informacemi ve smyslu úvodního Wienerova citátu.

| nahoru |