ZDE JSOU METADATA PRO TENTO TEXT
ZDE METADATA VE FORMÁTU RDF

 

 

 

 

Univerzita Karlova

Filozofická fakulta

Ústav informačních studií a knihovnictví

 

 

 

 

Vývoj poslání redukovaného textu – názory, možnosti, využití

 

Esej

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Zpracovala: Lucie Šmídová

Praha, květen 2002

 

 

 

Úvod

Co je redukovaný text?

Redukovaný text je sekundárním dokumentem, tedy dokumentem, který něco vypovídá o dokumentu primárním. Můžeme ho považovat i za produkt informační analýzy. Měl by obsahovat hlavní myšlenky primárního textu a to ve zhuštěné formě. Tudíž je mnohem kratší, než jeho předloha, což je považováno za jeho hlavní přednost. Dle mého názoru existuje stále větší počet lidí, kteří si např. raději přečtou  o Vojně a míru referát, než aby se sami nořili do Tolstého epopeje. Je to chyba, nebo jen snaha ušetřit čas pro něco jiného? Co se týče beletrie nemůžeme to samozřejmě tak jednoznačně řešit, ale pokud se zaměříme na odbornou literaturu, je nám jasné, že při jejím množství  a při nátlaku, který klade konkurence na znalosti a informovanost, je využití redukovaného textu žádoucí a nezbytné, pokud ovšem neovládáme rychločtení v řádech 10 000 slov za minutu.

 

Typy redukovaného textu

Referát

Tvorbu referátu upravuje norma ČSN 01 01 94 a definuje ho jako stručné vyjádření obsahu primárního dokumentu, uvádějící základní údaje o předmětu, cíli, metodách, výsledcích a závěrech popisované práce nebo základní charakteristiky popisovaného předmětu. Vydává se obvykle nezávisle na primárním dokumentu a je doprovázen bibliografickým záznamem daného dokumentu. Z trochu jiného pohledu definuje referát B. H. Weil jako zkrácený a přesný obraz dokumentu bez vysvětlení, kritiky, bez vztahu k pisateli referátu.

Na pojem referát ovšem můžeme narazit i v souvislosti s veřejným ústním jednáním. Tady se ovšem nejedná o redukovaný text, takovýto referát se koncipuje spíše jako podrobnější zpráva o aktuálním dění, která např. i hodnotí, přesvědčuje a získává, tudíž v psané formě jde o primární dokument.

Referáty můžeme rozlišit na:

q       informativní – objasňují obsah primárního dokumentu co nejúplnějším způsobem, snaží se osvětlit předmět zkoumání, metody a použité techniky, předpoklady a výsledky

q       indikativní – je kratší, neuvádí všechna důležitá fakta, ale pouze ta, která jsou bezprostředně spjata s tématem a podle kterých je uživatel schopen rozhodnout, zda je pro něj primární dokument pertinentní; indikativní referát je takřka totožný s anotací

Zvláštními druhy referátů pak jsou:

q       přehledové referáty – ty už se blíží studijní zprávě, jde totiž o zpracování dokumentů týkajících se jediného tématu, za sebou se řadí nejvýznamnější informace z jednotlivých dokumentů, jejichž soupis je uveden na konci

q       modulární referáty – než o zvláštní typ referátu se spíše jedná o způsob řazení jednotlivých typů ve snaze podat co nejkomplexnější přehled o dokumentu, jeho složkami jsou:

q       abstrakt

q       informativní referát

q       indikativní referát

q       kritický referát – poskytuje zhodnocení dokumentu, posouzení jeho novosti atd.

Abstrakt

Větší míru redukce bychom  měli najít u abstraktu. Ten se zaměřuje spíše na popis toho, o čem dokument je, než na popis obsahu. Všímá si zvláštností dokumentu, účelu a původu i např. toho, komu je určen a jakou má hodnotu. Můžeme jej najít v čtenářských katalozích knihovny, kde rozšiřuje informace obsažené v identifikačních údajích. Další rozdíl mezi abstraktem a referátem je v tom, že abstrakt můžeme vytvořit třeba i na základě sekundárního dokumentu, který se ovšem vyznačuje menší mírou redukce.

Abstrakty můžeme dělit na:

q       informativní – podávají zprávu  o tematice dokumentu, nepřidávají žádné hodnocení

q       doporučující – hodnotí dokument z hlediska vhodnosti pro určitý okruh uživatelů
Z hlediska určení abstraktu na:

q       všeobecné – charakterizují dokument jako celek, určené širokému okruhu uživatelů

q       specializované – soustředí se na dokument z hlediska, které je významné pro úzký okruh odborníků

 

Extrakt a resumé

Extrakt (výtah) je dalším druhem redukovaného textu, který je typický metodou tvorby. Neformulují se totiž nové věty, jak je tomu u předchozích typů, ale z textu se vybírají věty, či větší celky, které dokument charakterizují. Vybrané části za sebou následují tak, jak jsou seřazeny v původním textu. Resumé najdeme na konci dokumentu jako krátké shrnutí nejdůležitějších zjištění a závěrů (často v několika cizích jazycích), slouží k doplnění orientace čtenáře, ale vyžaduje předchozí prostudování celého textu. 

Výpisky a výtah

K redukovaným textům můžeme přiřadit i výpisky  a konspekt. Výsledky obou typů zpracování textu by měly rovněž obsahovat důležitá fakta, rozdílem je to, že netvoří sémanticky koherentní text, ale jen jakýsi sled myšlenek zachycených v co nejstručnější podobě. Přičemž konspekt zachycuje celou strukturu textu, zatímco výpisky mohou zaznamenat třeba jen část doslovného znění textu.

 

Poslání redukovaného textu

Redukovaný text slouží v první řadě k rychlému získání přehledu o tom, co primární dokument obsahuje. Je to jeho základní funkce, pro kterou byl tvořen a využíván už v počátcích dokumentové komunikace, konkrétně zřejmě v době, kdy se dokumenty stávaly rozsáhlejšími nebo méně přehlednými, a redukovat tedy mělo smysl. „Praanotace“ našli vědci už na obálkách klínopisných tabulek ve starověké Mezopotámii. Historickými předchůdci referátů se staly tzv. synopse, výtahy z rozsáhlých historických pojednání nebo divadelních her řeckých autorů.

Středověk vedle formy komentáře vytvořil také tzv. marginálie. Jak název napovídá,  tyto stručné poznámky v rukopisech byly psány na okrajích stránek a shrnovaly jejich obsah.

V 16. a 17. století  pak mezi učenci soukromě putovaly  zprávy (reporty) o vědeckých dílech. Sem bychom mohli zařadit nástup další funkce redukovaného textu, totiž usnadnění rozhodnutí, zda je nebo není žádoucí, aby se čtenář seznámil s primárním dokumentem. Myslím, že do určité doby mohl vědec obsáhnout celou tvorbu oboru (dá – li se to tak nazvat). Odhlédněme teď od faktu, že knihy byly velmi drahé a asi ani výše zmiňovaná soukromá komunikace nebyla příliš dokonalá. Bylo to prostě proto, že drtivá většina lidí měla na starosti jiné věci a vědou se zabývalo velmi málo šťastlivců, kteří přečetli vše, co kdo napsal, navíc neomezováni jazykovou bariérou, která nás trápí dnes. Pak nastal zlom, kdy vědci začali být nuceni si vybírat. To si samo vynutilo vznik nějakého organizovanějšího způsobu referování – referátových časopisů.

Další funkce specifického druhu redukovaných textů se začala uplatňovat, podle mého názoru, s rozvojem pořádání znalostí. Bayer k tomuto typu textu s maximální mírou redukce počítá: předmětová hesla, klíčová slova, deskriptory a znaky umělých jazyků. Myslím, že tu vyvstává otázka, jestli je do redukovaných textů opravdu řadit. Uznávám, že nejmenší jednotkou textu je slovo, ale z jediného slova už těžko můžeme rekonstruovat alespoň základní body dokumentu, tudíž docházíme k tomu, že např. k jednomu klíčovému slovu zpětně přiřadíme více dokumentů, které se sice týkají té samé věci, ale mnohdy z úplně jiných pohledů. To je samozřejmě velmi výhodné při vyhledávání v informačních systémech, ale do jisté míry to popírá funkci ostatních, výše popsaných, typů redukovaných textů. Proto bych tyto produkty obsahové analýzy postavila trochu mimo.

Nicméně o jejich poslání se zmínit musím. Jak už bylo naznačeno slouží především k věcnému pořádání informací. V informačním procesu fungují jako mezičlánek – teprve na základě záznamu o dokumentu, který byl nalezen pomocí těchto pořádacích znaků, se uživatel rozhodne o jeho pertinenci. Některé z nich používají symbolů umělého jazyka, potom je třeba k určení obsahu použít různých pomocných prostředků (např. příručku MDT).

Referátové služby

První vědecký časopis, který byl původně koncipován jako časopis referátový, Le Journal des Sçavants, přinášel informace o vydávaných odborných dílech a jejich hodnocení. Poprvé vyšel v roce 1665.

První univerzálně zaměřené referátové časopisy se objevují v Německu, Anglii a Francii v 18. století. O celé století později začnou vycházet referátové časopisy oborově zaměřené. 

Zlatý věk referátových služeb nastal v polovině 20. století, ale už v 80.letech začaly služby v rámci národa zanikat, aby se mohli rozvíjet služby na mezinárodní úrovni. V některých zemích jako je Francie, Japonsko, Čína nebo Rusko tyto služby zůstaly zachovány, ovšem jen díky vysokým státním dotacím.

U nás téměř všechny referátové služby po roce 1989 zanikly, ale jmenujme namátkou některé z nich. Např. referátový časopis Index, který přinášel anotované přehledy světové  literatury z oboru informatiky. Zpracovával na 1800 titulů ročně psaných v 8 evropských jazycích. Automatizovaný informační systém pro informatiku – Informatika představoval bázi bibliografických dat, která obsahovala abstrakty a indikativní referáty s ročním přírůstkem 2 200 – 2400 titulů.

Dnes samozřejmě existuje mnoho oborově zaměřených referátových časopisů. Z našeho oboru např. Library and Information Science Abstracts, Library Literature, Referativnyj Žurnal–Informatika nebo Dokumentationsdienst Bibliothekswesen. 

     V současné době se referátové služby uplatňují nejen tištěné, ale, jak velí pokrok, i na CD –ROM (např. LISA – Library and Information Science Abstracts – anotované záznamy z převážně časopisecké literatury celého světa od r.1969 do současnosti) a v režimu on-line. Od 70. let minulého století vznikají zejména v USA velká databázová  centra, která (za příslušný poplatek samozřejmě) zpřístupňují rozličné báze dat v uživatelsky přívětivém rozhraní (i když stále nejefektivnější cestou, jak se dostat k informacím, je tzv. profesionální dotazovací jazyk). Současným trendem je poskytování nebibliografických (faktografických) bází dat a zveřejňování plných textů (fulltextů), což k tématu mé práce zrovna nepatří. Soustředím se na  bibliografické databáze, mezi nimiž vyniká zejména systém ISI – Institute for Scientific Information, který si stále zachovává svoji orientaci na dokumentografii a uživatele ve vědeckovýzkumné, vývojové a vzdělávací sféře.

Počátky tohoto systému sahají do roku 1958 a jsou spjaty se jménem Eugena Garfielda, autora citační analýzy. Právě v tomto institutu vznikla světově uznávaná metoda hodnotící vědecké a odborné časopisy tzv. Impact Factor, čili míra citovanosti titulu v jiných titulech. Světově proslulá služba průběžného informování o obsahu jednotlivých čísel časopisů Current Contents funguje už od 50. let a produkty zpracování literatury jsou dostupné na různých elektronických nosičích včetně přístupu on-line. Periodicita šíření je jeden týden. Je možné si objednat i edici CC with Abstracts  abstrakty článků v sledovaných časopisech s rozšířením na Key Words Plus, klíčová slova, která přidal sám autor.

A tady se dostávám k možnému dalšímu významu redukovaných textů (zejména referátů) a to je získání přehledu o trendech vývoje určitého oboru. Materiály mapující hlavní směry badatelského i aplikovaného výzkumu v různých oborech, které vydává ISI, se nazývají Research Trends. Jsou založeny na metodách bibliometrických a sociometrických analýz vyvinutých Garfieldem.

Toto databázové centrum bychom mohli nazvat univerzálním, ale samozřejmě vzniklo i mnoho dalších úzce oborových, např. Medline (Medical Analysis and Retrieval System on-Line), které v sobě slučuje databáze bibliografické, faktografické i plnotextové týkající se oboru medicíny. Jedním z prvních oborových informačních systémů byl Chemical Abstract Service – útvar americké chemické společnosti, který vznikl již v roce 1907. Jejich referátový časopis Chemical Abstracts zpřístupňuje informace o titulech z oblasti chemie a chemické technologie dodnes.

 

Možnosti

V této kapitole bych se chtěla zmínit především o možnostech, které nám v souvislosti s redukovanými texty dává rozvoj výpočetní techniky.

O obrovských databázích obsahujících milióny abstraktů jsme už mluvili, o možnostech zajištěných bleskovým přenosem informací v Síti sítí asi nemá smysl mluvit, s tím se všichni setkáváme běžně. Ale jak je na tom počítač a zpracování textů?

Mám dojem, že jazyk je jednou z mála oblastí lidského života, která se stále odmítá poddat povinnému rozložení na nuly a jedničky. Možná je to dáno tím, že jazyk byl a je už několik tisíc let součástí vývoje člověka a stejně jako jsme ještě plně neporozuměli lidské bytosti, nepodařilo se nám úplně postihnout ani zákonitosti jazyka a porozumění textu.

Tak jak se postupně počítače zrychlovaly a zmenšovaly, uvažovali lidé z různých branží o tom, jak si pomocí nich svoji práci usnadnit. Tak došlo i na strojové (automatizované) referování. Průkopníkem byl v tomto směru Američan H.P.Luhn, který koncem 50. let navrhl a experimentálně ověřil systém strojového referování (na počítači firmy IBM).

První metody automatizované tvorby referátů se zakládaly na statistických kritériích (použil je ve svém experimentu Luhn). Vychází z myšlenky, že slova (plnovýznamová), která se nejčastěji vyskytují v textu, jsou obsahově důležitá. Tudíž čím více vysokofrekvenčních slov se vyskytuje ve větě, tím větší množství informací věta obsahuje a je vhodné ji zahrnout do referátu.

Metody, které  v sobě spojují čtyři kritéria výběru, se nazývají logicko – matematické:

1.   využívá tzv. pragmatických slov v textu – např. „význammný“, „podstatný“

q       vychází  ze statistické analýzy

q       vychází z předpokladu, že tituly a podtituly charakterizují obsah textu

q       zakládá se na lokační charakteristice textu

K výběru vět dochází při uplatnění všech postupů. Tyto metody jsou však stále nedostačující je třeba rozvinout i kritéria sémantická (významová) a syntaktická (např. L. L. Earlová pracovala na syntaktické analýze, která na základě struktury věty určovala její informační hodnotu).

Jedním z nejlepších systémů strojového referování se stal ADAM (Automatic Document Abstracting Method), který kromě statistických a  pozičních kritérií a metody pragmatických slov a jejich slovníků, bral v potaz také sémantické vztahy mezi větami  textu, jejich soudržnost. Tudíž každou větu zkoumal zvlášť, ale i v kontextu předchozí věty. Navíc tu poprvé došlo i k zásahu do textu referátu, vybrané věty mohly být do určité míry upraveny, aby se zvýšila míra jejich návaznosti.

Dalšími metodami zpracování textu jsou lingvistické metody. Snaží se najít kritéria z oblasti lingvistiky, která by byla algoritmizovatelná a využívala by gramatické analýzy. Vychází z předpokladu, že existuje vztah mezi syntaktickou strukturou věty a informací, která je v ním obsažena.

Jiným směrem se ubírají systémy založené na sémantické preferenci.Na základě významných tvrzení daného oboru porovnávají předložený text. Nevýhoda je ovšem v tom, že nejsou zachyceny nové pojmy, nová řešení. 

Inteligent Miner for Text

Představuje jeden ze současných nástrojů strojového referování (v tomto případě anotování) dostupných na Internetu. Není určen pro odborníky z oblasti exaktních věd, ale spíše pro uživatele  z marketingové sféry. Může být  využit k analýze všech typů on-line dokumentů,  které je navíc schopen podle různých kategorií rozřazovat. Jeho struktura je následující:

1. Systém hledání klíčových slov - systém pracuje na bázi slovníku, který se vytvoří automatickou analýzou reprezentativního vzorku textů. Skládá z několika dalších subsystémů: např.

q       Subsystém stanovení vah slovníkových výrazů - v tomto subsystému se výrazům přiřadí číselná hodnota vyjadřující poměr frekvence výskytů v analyzovaném dokumentu k frekvenci výskytů v celém souboru dokumentů.

q       Subsystém jmenných výrazů, jmen osob, organizací a lokalit

q       Subsystém odborných termínů

q       Subsystém zkratek

2.Systém přiřazování obsahových kategorií textu - tento systém dokáže přiřadit souboru analyzovaných textů předdefinované obsahové kategorie. Simuluje tak některé knihovnické operace – katalogizaci. Slovník klíčových slov se  ale nejdřív vyčistí od nerelevantních výrazů porovnáním se souborem relevantních textů. 

3.Systém uspořádání vyhledaných textů do skupin, shluků podle obsahové podobnosti  - cluster neboli shluk lze definovat jako množinu dokumentů, jejíž prvky jsou vzájemně podobnější než prvky ostatních množin dokumentů. Tento systém poskytuje informace o obsahu větší skupiny dokumentů. Snadno identifikuje dokumenty obsahově podobné nebo duplicitní. K měření podobnosti používá sémantickou analýzu. 

Jenom zběžným a laickým porovnáním metod, které tento systém používá s informacemi o metodách, které jsem získala z publikací vydaných v 80. letech a které jsou popsány výše, jsem dospěla k názoru, že v tomto odvětví bohužel k žádnému výraznému posunu nedošlo.

Závěr

Snažila jsem se postihnout jednotlivé funkce redukovaného textu tak, jak přibývaly a měnily se spolu se společenskými i technickými podmínkami. A jaká bude jeho budoucnost? Myslím, že slibná, protože jak jsme viděli, nezmizel s nástupem počítačů, které nám daly netušené možnosti v přístupu k informacím i k jejich ukládání v plných textech. Jako nástroj výběru budou formy redukovaného textu určitě fungovat dál. V souvislosti s náročností zpracování rostoucího množství odborných informací mě napadá, že by mohl být kladen větší důraz na autorské referáty, které by autor připojoval k dílu, či lépe je zařazoval do databáze, z níž by si je jednotlivé organizace zabývající se informačními službami, stahovaly. Nový rozměr do zpracování redukovaného textu by samozřejmě přinesla i převratná metoda automatizovaného zpracování, zdokonalení umělé inteligence.

 

 

 

 

 

LITERATURA:

 

q       BAYER, JAN: Metodika tvorby referátů, Praha 1980, 51 s.

 

q       HYHLÍKOVÁ, Věra: Informační analýza dokumentu, Praha 1984, 80s.

 

q       JONÁK, Zdeněk: Inteligence systémů zpracování textů. Ikaros [online].    2000, č. 1 [cit. 2000-01-05].

 

q       SOCHROVÁ, Marie: Český jazyk v kostce, Havlíčkův Brod 1999,104 s.  

 

q       STÁTNÍ KNIHOVNA ČSR: Bibliografické, dokumentační a referátové služby v oblasti knihovnictví, bibliografie a VTEI ve východoevropských zemích, Praha 1990, 183 s.

 

q       ŠIMKOVICOVÁ Anna, Informačný systém Chemical Abstract Service, Bratislava 1970

 

q       Terminologický slovník pro oblasti obsahové analýzy dokumentů a   selekčních jazyků, zpracoval Peter Pálka, Praha 1997

 

q       VLASÁK, Rudolf: Světový informační průmysl, Praha 1999, 341 s.

ZDE JSOU METAÚDAJE PRO TENTO TEXT