Univerzita Karlova
Filozofická fakulta
Ústav informačních studií a
knihovnictví
Vývoj poslání
redukovaného textu – názory, možnosti, využití
Esej
Zpracovala: Lucie Šmídová
Praha, květen 2002
Co je
redukovaný text?
Redukovaný text je sekundárním dokumentem, tedy
dokumentem, který něco vypovídá o dokumentu primárním. Můžeme ho považovat i za
produkt informační analýzy. Měl by
obsahovat hlavní myšlenky primárního textu a to ve zhuštěné formě. Tudíž je
mnohem kratší, než jeho předloha,
což je považováno za jeho hlavní přednost. Dle mého názoru existuje stále větší
počet lidí, kteří si např. raději přečtou
o Vojně a míru referát, než aby se sami nořili do Tolstého epopeje. Je
to chyba, nebo jen snaha ušetřit čas pro něco jiného? Co se týče beletrie
nemůžeme to samozřejmě tak jednoznačně řešit, ale pokud se zaměříme na odbornou
literaturu, je nám jasné, že při jejím množství a při nátlaku, který klade konkurence na
znalosti a informovanost, je využití redukovaného textu žádoucí a nezbytné,
pokud ovšem neovládáme rychločtení v řádech 10 000 slov za minutu.
Referát
Tvorbu referátu upravuje norma
ČSN 01 01 94 a definuje ho jako stručné vyjádření obsahu primárního dokumentu,
uvádějící základní údaje o předmětu,
cíli, metodách, výsledcích a závěrech popisované práce nebo základní
charakteristiky popisovaného předmětu. Vydává se obvykle nezávisle na primárním
dokumentu a je doprovázen bibliografickým záznamem daného dokumentu.
Z trochu jiného pohledu definuje referát B. H. Weil jako zkrácený a přesný
obraz dokumentu bez vysvětlení,
kritiky, bez vztahu k pisateli referátu.
Na pojem referát ovšem můžeme narazit i v souvislosti
s veřejným ústním jednáním.
Tady se ovšem nejedná o redukovaný
text, takovýto referát se koncipuje spíše jako podrobnější zpráva o aktuálním
dění, která např. i hodnotí, přesvědčuje a získává, tudíž v psané formě
jde o primární dokument.
Referáty můžeme rozlišit na:
q informativní – objasňují obsah
primárního dokumentu co nejúplnějším způsobem, snaží se osvětlit předmět
zkoumání, metody a použité techniky, předpoklady a výsledky
q indikativní – je kratší, neuvádí
všechna důležitá fakta, ale pouze ta, která jsou bezprostředně spjata
s tématem a podle kterých je uživatel schopen rozhodnout, zda je pro něj
primární dokument pertinentní; indikativní referát je takřka totožný
s anotací
Zvláštními druhy referátů pak jsou:
q přehledové referáty – ty už se blíží
studijní zprávě, jde totiž o zpracování dokumentů týkajících se jediného
tématu, za sebou se řadí nejvýznamnější informace z jednotlivých
dokumentů, jejichž soupis je uveden na konci
q modulární referáty – než o zvláštní typ referátu se spíše jedná o způsob řazení jednotlivých typů ve snaze podat co nejkomplexnější přehled o dokumentu, jeho složkami jsou:
q abstrakt
q informativní referát
q indikativní referát
q kritický
referát – poskytuje zhodnocení dokumentu, posouzení jeho novosti atd.
Abstrakt
Větší míru redukce bychom měli
najít u abstraktu. Ten se zaměřuje
spíše na popis toho, o čem dokument je, než na popis obsahu. Všímá si
zvláštností dokumentu, účelu a původu i např. toho, komu je určen a jakou má
hodnotu. Můžeme jej najít v čtenářských katalozích knihovny, kde rozšiřuje
informace obsažené v identifikačních údajích. Další rozdíl mezi abstraktem
a referátem je v tom, že abstrakt můžeme vytvořit třeba i na základě
sekundárního dokumentu, který se ovšem vyznačuje menší mírou redukce.
Abstrakty můžeme dělit na:
q informativní – podávají zprávu o tematice dokumentu, nepřidávají žádné
hodnocení
q doporučující – hodnotí dokument
z hlediska vhodnosti pro určitý okruh uživatelů
Z hlediska určení abstraktu na:
q všeobecné – charakterizují dokument
jako celek, určené širokému okruhu uživatelů
q specializované – soustředí se na
dokument z hlediska, které je významné pro úzký okruh odborníků
Extrakt a resumé
Extrakt (výtah) je dalším
druhem redukovaného textu, který je typický metodou tvorby. Neformulují se
totiž nové věty, jak je tomu u předchozích typů, ale z textu se vybírají
věty, či větší celky, které dokument charakterizují. Vybrané části za sebou
následují tak, jak jsou seřazeny v původním textu. Resumé najdeme na konci dokumentu jako krátké shrnutí
nejdůležitějších zjištění a závěrů (často v několika cizích jazycích),
slouží k doplnění orientace čtenáře, ale vyžaduje předchozí prostudování
celého textu.
Výpisky a výtah
K redukovaným textům můžeme přiřadit i výpisky a konspekt. Výsledky obou typů zpracování
textu by měly rovněž obsahovat důležitá fakta, rozdílem je to, že netvoří
sémanticky koherentní text, ale jen
jakýsi sled myšlenek zachycených v co nejstručnější podobě. Přičemž
konspekt zachycuje celou strukturu textu, zatímco výpisky mohou zaznamenat
třeba jen část doslovného znění
textu.
Redukovaný text slouží v první řadě k rychlému získání přehledu o tom, co primární
dokument obsahuje. Je to jeho
základní funkce, pro kterou byl tvořen a využíván už v počátcích
dokumentové komunikace, konkrétně zřejmě v době, kdy se dokumenty stávaly
rozsáhlejšími nebo méně přehlednými, a redukovat tedy mělo smysl. „Praanotace“ našli vědci už na obálkách
klínopisných tabulek ve starověké Mezopotámii. Historickými předchůdci referátů se staly tzv. synopse, výtahy z rozsáhlých
historických pojednání nebo divadelních her řeckých autorů.
Středověk vedle formy komentáře vytvořil také tzv. marginálie. Jak název napovídá, tyto stručné poznámky v rukopisech byly psány na okrajích stránek a shrnovaly jejich obsah.
V 16. a 17. století pak mezi
učenci soukromě putovaly zprávy
(reporty) o vědeckých dílech. Sem bychom mohli zařadit nástup další funkce
redukovaného textu, totiž usnadnění
rozhodnutí, zda je nebo není žádoucí, aby se čtenář seznámil s primárním dokumentem.
Myslím, že do určité doby mohl vědec obsáhnout celou tvorbu oboru (dá – li se
to tak nazvat). Odhlédněme teď od faktu, že knihy byly velmi drahé a asi ani
výše zmiňovaná soukromá komunikace nebyla příliš dokonalá. Bylo to prostě
proto, že drtivá většina lidí měla na starosti jiné věci a vědou se zabývalo
velmi málo šťastlivců, kteří přečetli vše, co kdo napsal, navíc neomezováni
jazykovou bariérou, která nás trápí dnes. Pak nastal zlom, kdy vědci začali být
nuceni si vybírat. To si samo vynutilo vznik nějakého organizovanějšího způsobu
referování – referátových časopisů.
Další funkce specifického druhu redukovaných textů se začala uplatňovat, podle mého názoru, s rozvojem pořádání znalostí. Bayer k tomuto typu textu s maximální mírou redukce počítá: předmětová hesla, klíčová slova, deskriptory a znaky umělých jazyků. Myslím, že tu vyvstává otázka, jestli je do redukovaných textů opravdu řadit. Uznávám, že nejmenší jednotkou textu je slovo, ale z jediného slova už těžko můžeme rekonstruovat alespoň základní body dokumentu, tudíž docházíme k tomu, že např. k jednomu klíčovému slovu zpětně přiřadíme více dokumentů, které se sice týkají té samé věci, ale mnohdy z úplně jiných pohledů. To je samozřejmě velmi výhodné při vyhledávání v informačních systémech, ale do jisté míry to popírá funkci ostatních, výše popsaných, typů redukovaných textů. Proto bych tyto produkty obsahové analýzy postavila trochu mimo.
Nicméně o jejich poslání se zmínit musím. Jak už bylo naznačeno slouží
především k věcnému pořádání informací. V informačním procesu fungují
jako mezičlánek – teprve na základě záznamu o dokumentu, který byl nalezen
pomocí těchto pořádacích znaků, se uživatel rozhodne o jeho pertinenci. Některé
z nich používají symbolů umělého jazyka, potom je třeba k určení
obsahu použít různých pomocných prostředků (např. příručku MDT).
První vědecký časopis, který byl původně koncipován jako časopis
referátový, Le Journal des Sçavants,
přinášel informace o vydávaných odborných dílech a jejich hodnocení. Poprvé
vyšel v roce 1665.
První univerzálně zaměřené referátové časopisy se objevují v Německu,
Anglii a Francii v 18. století.
O celé století později začnou vycházet referátové časopisy oborově
zaměřené.
Zlatý věk referátových služeb nastal v polovině 20. století, ale už v 80.letech začaly služby v rámci národa zanikat, aby se mohli rozvíjet služby na mezinárodní úrovni. V některých zemích jako je Francie, Japonsko, Čína nebo Rusko tyto služby zůstaly zachovány, ovšem jen díky vysokým státním dotacím.
U nás téměř všechny referátové služby po roce 1989 zanikly, ale jmenujme
namátkou některé z nich. Např. referátový časopis Index, který přinášel anotované přehledy světové literatury z oboru informatiky.
Zpracovával na 1800 titulů ročně psaných v 8 evropských jazycích.
Automatizovaný informační systém pro informatiku – Informatika představoval bázi bibliografických dat, která
obsahovala abstrakty a indikativní referáty s ročním přírůstkem 2 200 –
2400 titulů.
Dnes samozřejmě existuje mnoho oborově zaměřených referátových časopisů. Z našeho oboru např. Library and Information Science Abstracts, Library Literature, Referativnyj Žurnal–Informatika nebo Dokumentationsdienst Bibliothekswesen.
V současné době se referátové služby uplatňují nejen
tištěné, ale, jak velí pokrok, i na CD –ROM (např. LISA – Library and
Information Science Abstracts – anotované záznamy z převážně časopisecké
literatury celého světa od r.1969 do současnosti) a v režimu on-line. Od
70. let minulého století vznikají zejména v USA velká databázová centra, která
(za příslušný poplatek samozřejmě) zpřístupňují rozličné báze dat
v uživatelsky přívětivém rozhraní (i když stále nejefektivnější cestou,
jak se dostat k informacím, je tzv. profesionální dotazovací jazyk).
Současným trendem je poskytování nebibliografických (faktografických) bází dat a zveřejňování plných textů (fulltextů), což k tématu mé práce
zrovna nepatří. Soustředím se na
bibliografické databáze, mezi nimiž vyniká zejména systém ISI – Institute for Scientific Information,
který si stále zachovává svoji orientaci na dokumentografii a uživatele ve
vědeckovýzkumné, vývojové a vzdělávací sféře.
Počátky tohoto systému sahají do roku 1958 a jsou spjaty se jménem Eugena
Garfielda, autora citační analýzy. Právě v tomto institutu vznikla světově
uznávaná metoda hodnotící vědecké a odborné časopisy tzv. Impact Factor, čili míra citovanosti titulu v jiných titulech.
Světově proslulá služba průběžného informování o obsahu jednotlivých čísel
časopisů Current Contents funguje už
od 50. let a produkty zpracování literatury jsou dostupné na různých
elektronických nosičích včetně přístupu on-line. Periodicita šíření je jeden
týden. Je možné si objednat i edici CC with
Abstracts – abstrakty článků
v sledovaných časopisech s rozšířením na Key Words Plus, klíčová
slova, která přidal sám autor.
A tady se dostávám k možnému dalšímu významu redukovaných textů (zejména referátů) a to je získání přehledu o trendech vývoje určitého oboru. Materiály mapující hlavní směry badatelského i aplikovaného výzkumu v různých oborech, které vydává ISI, se nazývají Research Trends. Jsou založeny na metodách bibliometrických a sociometrických analýz vyvinutých Garfieldem.
Toto databázové centrum bychom mohli nazvat univerzálním, ale samozřejmě
vzniklo i mnoho dalších úzce oborových, např. Medline (Medical Analysis and
Retrieval System on-Line), které v sobě slučuje databáze bibliografické,
faktografické i plnotextové týkající se oboru medicíny. Jedním z prvních
oborových informačních systémů byl Chemical Abstract Service – útvar americké
chemické společnosti, který vznikl již v roce 1907. Jejich referátový
časopis Chemical Abstracts zpřístupňuje informace o titulech z oblasti chemie a
chemické technologie dodnes.
V této kapitole bych se chtěla zmínit především o možnostech, které nám v souvislosti s redukovanými texty dává rozvoj výpočetní techniky.
O obrovských databázích obsahujících milióny abstraktů jsme už mluvili, o možnostech zajištěných bleskovým přenosem informací v Síti sítí asi nemá smysl mluvit, s tím se všichni setkáváme běžně. Ale jak je na tom počítač a zpracování textů?
Mám dojem, že jazyk je jednou
z mála oblastí lidského života, která se stále odmítá poddat povinnému
rozložení na nuly a jedničky. Možná je to dáno tím, že jazyk byl a je už
několik tisíc let součástí vývoje člověka a stejně jako jsme ještě plně
neporozuměli lidské bytosti, nepodařilo se nám úplně postihnout ani zákonitosti
jazyka a porozumění textu.
Tak jak se postupně počítače zrychlovaly a zmenšovaly, uvažovali lidé
z různých branží o tom, jak si pomocí nich svoji práci usnadnit. Tak došlo
i na strojové (automatizované)
referování. Průkopníkem byl v tomto směru Američan H.P.Luhn, který koncem 50. let navrhl a
experimentálně ověřil systém strojového referování (na počítači firmy IBM).
První metody automatizované tvorby referátů se zakládaly na statistických kritériích (použil je ve svém experimentu Luhn). Vychází z myšlenky, že slova (plnovýznamová), která se nejčastěji vyskytují v textu, jsou obsahově důležitá. Tudíž čím více vysokofrekvenčních slov se vyskytuje ve větě, tím větší množství informací věta obsahuje a je vhodné ji zahrnout do referátu.
Metody, které v sobě spojují čtyři kritéria výběru, se nazývají logicko – matematické:
1. využívá tzv. pragmatických
slov v textu – např. „význammný“, „podstatný“
q vychází ze statistické analýzy
q vychází
z předpokladu, že tituly a podtituly charakterizují obsah textu
q zakládá
se na lokační charakteristice textu
K výběru vět dochází při uplatnění všech postupů. Tyto metody jsou
však stále nedostačující je třeba rozvinout i kritéria sémantická (významová) a
syntaktická (např. L. L. Earlová pracovala na syntaktické analýze, která na
základě struktury věty určovala její
informační hodnotu).
Jedním z nejlepších systémů strojového referování se stal ADAM (Automatic Document Abstracting
Method), který kromě statistických a
pozičních kritérií a metody pragmatických slov a jejich slovníků, bral
v potaz také sémantické vztahy mezi větami textu, jejich soudržnost. Tudíž každou větu zkoumal zvlášť, ale i
v kontextu předchozí věty. Navíc tu poprvé došlo i k zásahu do textu
referátu, vybrané věty mohly být do určité míry upraveny, aby se zvýšila míra
jejich návaznosti.
Dalšími metodami zpracování textu jsou lingvistické metody. Snaží se
najít kritéria z oblasti lingvistiky, která by byla algoritmizovatelná a
využívala by gramatické analýzy. Vychází z předpokladu, že existuje vztah
mezi syntaktickou strukturou věty a informací, která je v ním obsažena.
Jiným směrem se ubírají systémy založené na sémantické preferenci.Na
základě významných tvrzení daného oboru porovnávají předložený text. Nevýhoda
je ovšem v tom, že nejsou zachyceny nové pojmy, nová řešení.
Inteligent Miner for Text
Představuje jeden ze současných nástrojů strojového referování (v tomto případě anotování) dostupných na Internetu. Není určen pro odborníky z oblasti exaktních věd, ale spíše pro uživatele z marketingové sféry. Může být využit k analýze všech typů on-line dokumentů, které je navíc schopen podle různých kategorií rozřazovat. Jeho struktura je následující:
1. Systém hledání klíčových
slov - systém pracuje na bázi slovníku, který se vytvoří automatickou
analýzou reprezentativního vzorku textů. Skládá z několika dalších
subsystémů: např.
q Subsystém stanovení vah slovníkových výrazů
- v tomto subsystému se výrazům přiřadí číselná hodnota vyjadřující poměr
frekvence výskytů v analyzovaném dokumentu k frekvenci výskytů
v celém souboru dokumentů.
q
Subsystém
jmenných výrazů, jmen osob, organizací a lokalit
q
Subsystém
odborných termínů
q
Subsystém
zkratek
2.Systém přiřazování obsahových kategorií textu - tento systém
dokáže přiřadit souboru analyzovaných textů předdefinované obsahové kategorie.
Simuluje tak některé knihovnické operace – katalogizaci. Slovník klíčových slov
se ale nejdřív vyčistí od
nerelevantních výrazů porovnáním se souborem relevantních textů.
3.Systém
uspořádání vyhledaných textů do skupin, shluků podle obsahové podobnosti - cluster
neboli shluk lze definovat jako množinu dokumentů, jejíž prvky jsou vzájemně
podobnější než prvky ostatních množin dokumentů. Tento systém poskytuje
informace o obsahu větší skupiny dokumentů. Snadno identifikuje dokumenty
obsahově podobné nebo duplicitní. K měření podobnosti používá sémantickou
analýzu.
Jenom zběžným a laickým porovnáním
metod, které tento systém používá s informacemi o metodách, které jsem
získala z publikací vydaných v 80. letech a které jsou popsány výše,
jsem dospěla k názoru, že v tomto odvětví bohužel k žádnému
výraznému posunu nedošlo.
Snažila jsem se postihnout jednotlivé
funkce redukovaného textu tak, jak přibývaly a měnily se spolu se společenskými
i technickými podmínkami. A jaká bude jeho budoucnost? Myslím, že slibná,
protože jak jsme viděli, nezmizel s nástupem počítačů, které nám daly
netušené možnosti v přístupu k informacím i k jejich ukládání
v plných textech. Jako nástroj výběru budou formy redukovaného textu
určitě fungovat dál. V souvislosti s náročností zpracování rostoucího
množství odborných informací mě napadá, že by mohl být kladen větší důraz na
autorské referáty, které by autor připojoval k dílu, či lépe je zařazoval
do databáze, z níž by si je jednotlivé organizace zabývající se
informačními službami, stahovaly. Nový rozměr do zpracování redukovaného textu
by samozřejmě přinesla i převratná metoda automatizovaného zpracování,
zdokonalení umělé inteligence.
LITERATURA:
q
BAYER, JAN: Metodika tvorby referátů, Praha 1980, 51 s.
q HYHLÍKOVÁ, Věra: Informační analýza dokumentu, Praha 1984, 80s.
q JONÁK,
Zdeněk: Inteligence systémů zpracování textů. Ikaros [online]. 2000, č.
1 [cit. 2000-01-05].
q SOCHROVÁ,
Marie: Český jazyk v kostce, Havlíčkův Brod 1999,104 s.
q STÁTNÍ KNIHOVNA ČSR: Bibliografické, dokumentační a referátové služby v oblasti knihovnictví, bibliografie a VTEI ve východoevropských zemích, Praha 1990, 183 s.
q
ŠIMKOVICOVÁ Anna, Informačný systém Chemical Abstract
Service, Bratislava 1970
q Terminologický
slovník pro oblasti obsahové analýzy dokumentů a selekčních jazyků, zpracoval Peter Pálka, Praha 1997
q VLASÁK, Rudolf: Světový informační průmysl, Praha 1999, 341 s.