a MozgóKépTár adatbázissémáinak leírása

A MozgóKépTár teljes adatbázisát (az adatbázis nevét egyébként kisbetűvel írjuk, de ebben a szövegben csupa nagybetűvel hivatkozunk rá) a legfőbb entitások szerint sémákra tagoljuk. A sémákban levő táblákban az alapentitás legfontosabb adatait tároljuk. A különböző entitások közti kapcsolatok tárolására vonatkozó elveket később fejtük ki. Az MKT adatbázis az alábbi sémákra tagolva tárolja az adatokat.

Sémák

entitás sémanév tábla elem megjegyzés
film film 79 19030 A filmek alapadatai. Ez a legfontosabb adatbázis, bár nem kell minden tábláját feldolgozni az első körben.
személy person 5 26970 A filmekkel kapcsolatos személyek alapadatai. Teljes egészében fel kell dolgozni.
testület corporate 11 4331 A filmekkel kapcsolatos testületek alapadatai. Egy-két tábla szükségtelen, de az adatbázis nagy részét az első körben fel kell dolgozni.
kép image 19 3027 A filmekkel kapcsolatos képek alapadatai. Az első menetben nem kell önálló adatbázisként kezelni, csak a filmekhez és az ágensekhez kapcsolva kell őket megjeleníteni.
cikk article 26 2732 A filmekkel kapcsolatos cikkek alapadatai. A feldolgozott, linkekkel teletűzdelt cikkek fontos eligazodási pontokat nyújthatnak a felhasználók egy részének, ezért ezt az első szakaszban fel kell dolgozni.
könyv book 27 3183 A filmekkel kapcsolatos könyvek alapadatai. A könyvekről csak a filmek és cikkek hivatkozásai számára kell egy névjegykártya-szerű lapot előállítani, és ezt statikusan kezelni.
periodika periodics 19 520 A filmekkel kapcsolatos periodikák alapadatai. A periodikákról csak a filmek és cikkek hivatkozásai számára kell egy névjegykártya-szerű lapot előállítani, és ezt statikusan kezelni.
esemény event 11 2729 A filmekkel kapcsolatos események alapadatai. Kevés táblából áll, de fontos adatbázis. Sok eseményjellegű adat van "szétszórva" még a különböző sémákban.
helyszín location 4 22640 A filmekkel kapcsolatos helyszínek alapadatai. Kevés táblából áll, de fontos adatbázis.
fogalom concept 85 Az MKT teljes adatbázisában használt fogalmak. Egyelőre majd 100 táblából áll, a projekt során egyetlen filmes ontológiába (pár táblába) kell gyúrni őket.
rádió radio 5 2 A filmekkel kapcsolatos rádióműsorok alapadatai. Nagyon kevés adat van benne, az első szakaszban nem használjuk.
hang sound 27 69 A filmekkel kapcsolatos hanganyagok alapadatai. Kevés adat van benne, gyakorlatilag elhanyagolható, az első szakaszban nem kell feldolgozni.

Általános elvek, szempontok

Az adatbázis építése során igazodtunk néhány elvhez, amelyek meghatározták a modellezési logikát, és amelyek segíthetnek a tábla- és mezőelnevezési gyakorlat értelmezésében (és elfogadásában).

A dokumentum általános fogalma

Az MKT adatmodelljének középpontjában a film fogalma áll, ami speciális – mozgóképes audiovizuális – dokumentum. Mivel a rendszer tervezésekor lehető legnagyobb fokú általánosításra törekszünk, ezért a film helyett a dokumentum (document) megnevezést használjuk. A filmek adatait a film sémában tároljuk, aminek a középpontjában a film mint dokumentum van. Ezt az elvet minden más dokumentumtípusra is alkalmazhatjuk, így a kép mint dokumentum van az image séma, a periodika mint dokumentum van a periodics séma, a könyv mint dokumentum van a book séma, a cikk mint dokumentum van az article séma, a hanganyag mint dokumentum van a sound séma, a rádióműsorszám mint dokumentum van a radio séma középpontjában. A filmek adatai tehát a film.document táblában, a képeké az image.document táblában találhatók, és a többi dokumentumtípusra is hasonló módon hivatkozhatunk.

A dokumentumok formai és tartalmi leírásának elválasztását a sok évtizedes könyvtári gyakorlatból emeljük át, amikor megkülönböztetjük a dokumentumok formai és tartalmi leíró adatait. A megkülönböztetés lényege az, hogy azokat az adatokat sorolhatjuk a formai leíró információk közé, melyekhez úgy is hozzájuthatunk, hogy tudnánk bármit is a dokumentum tartalmáról, míg a tartalmi leírás területére tartoznak – értelemszerűen – mindazon információk, melyeket csak a dokumentum tartalmának ismeretében rögzíthetünk.

A modell következő lényeges relációja a dokumentumok egymás közti kapcsolatát írja le, melyek közül kettő igazán fontosat kell megemlítenünk. Egyfelől a sorozat mint „gyűjteményes dokumentum”, illetve annak epizódjai között állapíthatunk meg egy rész-egész viszonyt (eleme reláció), másfelől a dokumentumok (s kiváltképp az többrészes filmek, mint több, önállónak minősíthető filmekből álló dokumentumok) és a velük tartalmazási viszonyban álló részdokumentumok közötti rész-egész viszonyt (tartalmazás reláció) pontosan kell tudnunk kezelni.

A tartalmi leírás modell szinten kevésé bonyolult a formai leíráshoz képest. Erről a területről érdemes kiemelni a filmek nemzetközi besorolására szolgáló azonosító információkat, illetve a dokumentumok tartalmát jellemző kulcsszavakat, melyeket a modellben aszerint írunk le, hogy azok típus- vagy individuumnevek-e?

A modell minden szükséges információ rögzítésére alkalmas, de természetesen a különböző dokumentumtípusokhoz nem kell, sőt bizonyos esetekben nem szabad minden adattípust hozzárendelni. A dokumentumok tipizálására támaszkodva olyan sablonrendszer hozható létre, melynek segítségével megfelelő módon lehet szabályozni mind az adatbeviteli, mind az információkereső tevékenységet. Ez azonban már sokkal inkább implementációs kérdés, és az alkalmazásfejlesztés területére tartozik.

Filmes ontológia

A formai leíró adatok egy része bekerül a document táblába, de sok esetben valamilyen 1:n-es relációban (tehát külön táblákban) lehet csak a formai adatokat a dokumentumokhoz rendelni (ez dokumentumtípusonként eltérő lehet). A dokumentumok formátumával kapcsolatos információkat kötött – rögzített elemekből – álló szótárak segítségével rendeljük a dokumentumokhoz. Minden ilyen külső, kötött szótárat egy elkülönített típusnév-tartományban tárolunk. Ezek a fogalmi listák a concept sémában vannak, jelenleg még külön - teljesen azonos szerkezetű - táblákban, de ezeket érdemes lenne egyetlen táblában egyesíteni. A concept séma adja a rendszer ontológiáját, ami önállóan is kezelhető, és amit érdemes más szemantikai terekhez kapcsolni.

Ágens

A dokumentum mellett a rendszer másik kiemelten fontos entitása a testületeket (corporate) és személyeket (person) általánosító, magába foglaló ágens (agent). A két ágenstípust leíró adatokat külön sémában tároljuk. A dokumentumok és ágensek közti kapcsolatok közül az a legfontosabb, amelyik a dokumentumok létrehozásával, terjesztésével, sugárzásával, megőrzésével stb. kapcsolatos, szakmai tevékenységekre vonatkozó, szerep-jellegű adatokat tartalmazza. Ezt a fajta kapcsolatot a táblanevekbe felvett 'by' terminussal jelöljük (pl. 'document_by_person_role' tábla írja le az adott dokumentumtípussal kapcsolatba hozható személyek tevékenységeit). A 'by'-kapcsolattípus mellett természetesen szükség van további, másfajta jelentéssel bíró relációra is a dokumentumok és ágensek között. A filmográfiák másik fontos részét képezik a filmen szereplő személyek listája. Ez utóbbi annyiban tér el az előzőtől, hogy a film előállításához hozzájáruló személyek nem jelennek meg magában a filmben, míg a szereplői listán előforduló személyek láthatóak a vásznon. Az utóbbival kapcsolatos adatokat ezért az 'in' terminussal jelöljük a táblanevekben (tehát a film sémában a 'document_in_person_role' tábla tartalmazza a film szereplőit).

Hely/idő

A modellben szerepel még két fontos, nem dokumentum jellegű individuumtípus, amelyek többféle értelemben is a dokumentumokhoz kapcsolhatóak. Az egyik az esemény jellegű információkat, a másik a hely jellegűeket írja le. Az esemény (event) jellegű adatok segítségével lehet rögzíteni a filmek gyártási, forgalmazási információit (publikálási esemény), az egyes filmeknek vagy alkotóiknak megítélt elismerésekre, díjakra vonatkozó adatokat (díjazási esemény), vagy a tartalmi feltárás során meghivatkozandó történelmi eseményeket. Az esemény jellegű adatokat nem mindig az esemény (event) sémában tároljuk. Van sok időbeli adat, amit más sémákba, más táblákba ágyazva rögzítünk (például az ágensek élettörténetével, születéssel, halállal, megalakulással, megszűnéssel kapcsolatos adatokat). Egy teljesen normalizált, konzisztens modellben minden - idő jellegű - eseményadat az esemény sémában lenne tárolva, de ennek megvalósításával szemben komoly ellenérveket lehet felhozni (mégha sok szempontból kívánatos is lenne).

További fontos kategória a filmekkel kapcsolatba hozható helyeket, helyszíneket általánosító földrajzi entitás fogalma, aminek adatait a helyszín (location) sémában tároljuk. Ebben a szemantikai dimenzióban teljesnek mondható a normalizálás, a helyszínek alapadatai mind ebben a sémában találhatóak, míg az egyes dokumentumsémákban a helyhez való kapcsolatokat rögzítjük (pl. a Balatonról szóló kisfilm a film séma 'document_about_location' táblán belül kapcsolja össze a film azonosítóját a location sémában található helynév azonosítójával).

Kapcsolatok rögzítése az individuumneveken keresztül

Bizonyos individuumtípusok esetén a kapcsolatok jelzésekor az individuumokra nem az individuumok, hanem az individuumnevek azonosítóját használjuk. Ennek az az oka, hogy ezek az entitások különböző praxisokba, kontextusokba kerülve más neveken hivatkoztak, hivatkoznak, és a történeti hűség miatt ezt a soknevűséget pontosan kezelni szeretnénk. A választott megoldás eltér az archívumi (könyvtári) gyakorlatban megszokottaktól, mert ott a preferált név kiválasztásával egyetlen nevet kiemelten kezelnek (és minden hivatkozáshoz a preferált nevet írják be). Az MKT-n belül gyakran előforduló helyzet, hogy egy dokumentumhoz kötötten más és más nevek mentén jelenik meg egy ágens vagy egy hely, és a történelmi, archivátori hűség követelményéből fakadó az a jó megoldás, hogy ilyenkor mindig azt a nevet tároljuk az adatbázisban, ami a dokumentumon szerepel (attól teljesen függetlenül, hogy az a név a preferált név-e vagy sem. A preferált nevek megjelölésére nekünk is szükségünk van, mert a névlisták készítésekor olykor (bár nem mindig) szükség lehet arra, hogy egy entitástól csak egyetlen nevet tegyünk be a listába, és ezt a preferált név segítségével tehetjük meg könnyedén, de másra nem használjuk a preferált név "intézményét".

Mindez igaz a dokumentumok kontextusát biztosító individuumtípusokra, tehát a helyre, valamint ágensek mindkét típusára, a testületre és a személyre. Egy teljesen konzisztens modellben az eseményeket is így kellene kezelnünk, de ettől eltekintünk.

A dokumentum határai

A modellezés egyik legnehezebb és jól talán soha meg nem oldható kérdése volt, hogy mit tekintsünk a dokumentum fogalmának a filmek (és hanganyagok) esetében. Nem triviális ugyanis az, hogy miként érdemes kezelnünk a film, a filmrészlet és a filmsorozat fogalmait. Első ránézésre természetesen kezelhetőnek tűnik ez a rész-egész problematika. Kétféle 'része' fogalmat használva könnyen megragadhatónak tűnik a film és filmrészlet közti viszony (a filmrészlet részhalmaza a filmnek, tehát 'részhalmaza' reláció van köztük), illetve a filmsorozat és film közti viszony (a film eleme a filmsorozatnak, tehát 'eleme' reláció van köztük). De ezek alapján fontos kérdésekre mégsem könnyű választ adni a modellezés során. Mindenesetre a döntéseket meghoztuk, és védhetőnek tartjuk minden eetben, de a modell áttekintésekor mindig érdemes figyelni arra, hogy a filmmel kapcsolatos adott információ épp a filmrészletre/filmszegmensre, a "sima (egyrészes) filmre, a többrészes filmre vagy a filmsorozatra vonatkozik-e.

A sémák közti kapcsolatok

A modellben van két ágenstípusunk, van egy idővel és egy hellyel kapcsolatos entitásunk, van egy filmszakmai ontológiánk és van hétféle dokumentumtípusunk (film, kép, cikk, könyv, periodika, hang, rádió). Utóbbiak természetesen nem egyanrangúak. A film van mindennek a középpontjában, és a többi dokumentumtípus csak a filmhez való kapcsolódása mentén érdekes számunkra. A könyv sémában csak a filmes könyvek vannak, a cikk sémában csak a filmes cikkek és így tovább. Ha a film sémát tartjuk az elsődlegesnek, akkor második szintre a kép és a cikk sémáit (és adatai) érdemes besorolnunk. Azért ezt a két tartományt, mert a filmekkel kapcsolatos képek és a cikkek önálló belépési pontként is képesek működni, tehát a filmes képeket önmagában is fel lehet kínálni nézegetni, a filmes cikkeket önállóan is érdemes felkínálni olvasásra, és ezekhez kapcsolni lehet a filmes linkeket. A filmes periodikák, filmes könyvek, illetve a filmekhez kapcsolt hanganyagok és rádióműsorszámok inkább a szűk szakmai közönség érdeklődést kelthetik csak fel, ezért önálló belépési pontként nem érdemes foglalkozni velük a projekt első időszakában.

Ha egy dokumentum és a kontextusát adó entitások (hely, idő, ágensek) közti kapcsolatot kell leírnunk, akkor a követett szabály az volt, hogy a dokumentum sémájában hozzuk létre a táblát, ott tároljuk a adatokat. Példa: a 'document_by_person_role' tábla bármelyik dokumentumsémában az adott dokumentumhoz köti a személyeket valamilyen tevékenység, szerep mentén (a Mephisto című film rendezője Szabó István). Ha a dokumentumok között tartalmi kapcsolat adatait rögzítjük, ekkor az adatokat abban a sémában tároljuk, amely dokumentum tartalmi leírásáról van szó. Példa: a film sémában tároljuk azt, hogy a filmeken milyen képekről, milyen könyvekről van szó ('film.document_about_image' vagy 'film.dcument_about_book'), de a book sémában tároljuk azt, hogy a könyvek milyen filmekről szólnak ('book.document_about_film'). Természetesen a sémákon átnyúló kapcsolatok a táblák, adatok között inverzreláció mentén ugyanúgy vonatkoztathatók a reláció másik irányában is. Példa: a person sémában meg lehet jeleníteni azt, hogy egy adott személy milyen filmekben szerepelt alkotóként (a 'film.document_by_person_role' tábla alapján).

Névterek

Az MKT adatmodelljébe szerenénk megvalósítani a nemzeti névterek, pontosabbana nemzeti individuum-névterek vagy tulajdonnévterekhez való kapcsolódást. nemzeti névterek ugyan még nincsenek, de remélhetőleg hamarosan elindulnak, és ezekhez lehet már az indulás pillanatában csatlakozni. A földrajzinévtér, a személynévtér és a testületnévtér esetében a mozgóképtár portál vállalja, hogy integrálja saját lokális-intézményi névtereit a nemzeti névterekhez, és az MKT-portál jelölt lehet arra, hogy a nemzeti filmnévtér magját adja az MKT-adatbázis 'film.document' és a 'film.document_title' táblák adataira támaszkodva. Ez egyelőre csak ötlet, de komoly érvek szólhatnak ezen elképzelés mellett, tehát érdemes ennek érdekében dolgozni.