Sunday, November 19, 2006

INIŢIERE ÎN CERCETAREA DOCUMENTARĂ

Cum funcţionează şi cum căutăm cu un program de cercetare documentară

Un sistem de cercetare documentară (TLIB sau BiblioPhil spre exemplu) se bazează pe capacitatea SGBD-ului (Sistemului de Gestionat Baza de Date) de a înmagazina, ordona, selecta, interoga BD şi a realiza rapoarte text, grafice sau diagrame. SGBD interoghează documentele structurate în fişierele memorate pe suporţi externi, semnalând pe cele în care figurează cuvântul sau combinaţia de cuvinte ce descriu conceptul la care se referă documentarea.

Programele de cercetare documentară funcţionează aproape toate prin utilizarea a trei fişiere principale:

  • lexicul,
  • fişierul index sau fişierul inversat şi
  • fişierul text (full text).

- Lexicul (tezaurul) sau fişierul de legături

Lexicul cuprinde ansamblul de cuvinte, adică lanţuri de caractere semnificative, pe care sistemul le recunoaşte. Acest fişier are rol în utilizarea vocabularului, dar lista de cuvinte pe care sistemul o caută este indispensabilă pentru ca acestea să fie identificate.

În general, tezaurul este completat de lista de legături de caractere pe care sistemul are dreptul să le ignore: cuvintele nule sau cuvintele goale (de sens), articole, prepoziţii etc. Astfel, comparaţia mesajului-întrebare de pe aceste două liste permite calculatorului să reacţioneze la primirea unui termen care nu este cuprins nici în Lexic, nici în lista cuvintelor nule. Calculatorul răspunde printr-un mesaj de eroare, ceea ce înseamnă că ignoră acest cuvânt sau că acesta conţine o greşeală de ortografie sau de implementare.

- Fişierul index

După ce calculatorul a primit instrucţiunile pentru recunoaşterea cuvintelor, el poate să găsească documentele care conţin cuvintele dorite printr-o simplă trecere secvenţială în revistă. În ciuda rapidităţii operării cu sistemele informaţionale, acest mod este foarte lent prin interogarea băncilor de date, care conţin mii sau milioane de informaţii (admiţând că verificarea existenţei unui termen într-un document care cuprinde 20 rânduri necesită 1/10 secunde, ar trebui 1 oră pentru a epuiza un fişier de 36.000 documente). Lexicul este, în general, inversat într-un fişier index, adică un fişier care regrupează pentru fiecare din formele alfanumerice, ce constituie lexicul, grupul de adrese al documentelor în care acestea figurează. Timpul de lectură este astfel redus considerabil, datorită numărului mic de caractere.

- Fişierul text (full text)

Documentele căutate sunt găsite prin adresele lor în fişierele text, în care ele au fost înregistrate în formă literală, formă în care trebuie să apară pe monitor. Prin accesul direct la zona discului care conţine aceste adrese sau chei, ele vor fi înregistrate în memoria centrală pentru a putea fi afişate utilizatorului în funcţie de cererile lui.

- Arborescenţă

Procesul de investigare pe care l-am descris este cel mai simplu, pentru că el se bazează pe o strategie de cercetare formulată cu ajutorul unui termen unic. Oricare ar fi viteza de execuţie, puţine sisteme documentare l-ar folosi, pentru că el are o viteză de regăsire foarte mică. Viteza şi precizia de acces cresc prin adăugarea de subrubrici şi chiar detalii. Altfel spus, căutarea se va efectua după noţiune (cuvânt cheie), subnoţiuni (subrubrici) şi detalii.

Sistemele moderne de gestiune a bazelor de date, folosind o logică identică, realizează Meniuri arborescente, realizând o interfaţă prietenoasă ce conduce la micşorarea semnificativă a timpului de pregătire a operatorilor şi la uşurarea operaţiilor ce se efectuează asupra bazelor de date.

După ce operatorul a indicat domeniul ales din memorie, calculatorul îi răspunde printr-o listă amănunţită şi tot aşa până în momentul când va afişa toate documentele care tratează problema izolată în mod progresiv.

Aceste sisteme sunt des apreciate pentru că sunt uşor de folosit şi nu necesită nici o perioadă de învăţare a lor. Totuşi, utilizarea lor este foarte greoaie, în măsura în care nu există nici un mijloc de accelerare a procesului de căutare în arborescenţă. Ele servesc unor sisteme documentare cu un număr mic de înregistrări sau unor fişiere tematice generale sau puţin aprofundate, fie unor reviste de actualitate limitate unui domeniu dat.

“Geniul propriu” al ordinatorului rezidă în capacitatea accesibilităţii instantanee la o informaţie precisă.

- Ecuaţia de cercetare - Operatorii bool

Sunt rare situaţiile când obiectul cercetării poate fi formulat într-un singur cuvânt sau într-o expresie unică. Într-o enciclopedie imprimată, cititorul va face el însuşi o triere a informaţiilor globale, capitolului, paragrafului la care tabela l-a trimis. Ţinând cont de compunerea unei bănci de date şi de structurarea acesteia în unităţi documentare juxtapuse şi nu organizate, este mai convenabil să avem acces direct la documentele care tratează în mod precis problema pusă. Legătura acestor cuvinte de cercetare se efectuează urmând principiile algebrei BOOLE. În termeni mai clari, aceasta înseamnă că vom putea cere maşinii să efectueze o cercetare urmând trei criterii:

- Operatorul de legătură al acestor cuvinte, numit operator logic, va fi cuvântul “ŞI” când va fi necesară prezenţa simultană a doi termeni.

- Acest operator va fi cuvântul “SAU” dacă această prezenţă va fi alternativă.

- Vom folosi cuvântul “FĂRĂ” pentru a exclude un termen.

Vom fi mai clari dacă vom transpune aceste funcţii de relaţii cu ajutorul desenelor:

1) “ŞI”: să presupunem că vom efectua o cercetare într-o bază de date jurisprudenţială, asupra consecinţelor furtului unei cărţi albastre.

Ansamblul documentelor care conţin cel puţin o dată cuvântul FURT va fi reprezentat de un cerc “V” şi ansamblul celor care conţin cuvântul “CARTE ALBASTRĂ” printr-un alt cerc “CB”.

Dacă un document conţine, cel puţin o dată, cuvintele FURT şi CARTE ALBASTRĂ, el va figura în intersecţia haşurată a celor două ansamble.

2) “SAU”: Abandonând prin ipoteză problema furtului, vom efectua o cercetare asupra ansamblului documentelor privind cărţile de plată: vom folosi şi termenul de “Carte de credit”.

În acest caz, maşina va selecţiona:

- documentele care conţin “Carte albastră”;

- cele care conţin cuvântul “Carte de credit”;

- cele care conţin ambele expresii.

Vom menţiona că “SAU” logic este mai restrâns ca înţeles decât “SAU” folosit în limbajul curent: el acoperă relaţia alternativă care corespunde propoziţiei:

“Petru SAU Paul, veniţi să mă vedeţi”.

Dar el nu acoperă caracterul exclusiv al unei afirmaţii de tipul:

“Mă voi duce în această seară la cinema SAU la teatru”.

3) “FĂRĂ”: Continuând exemplul cu “Cartea albastră”, să presupunem că vrem să excludem din investigaţiile noastre aspectele penale. Formularea acestei probleme va fi enunţată şi reprezentată astfel:

Cartea albastră “FĂRĂ” excrocherie

Folosirea lui “FĂRĂ” este foarte eficace într-o cercetare. El permite, în general, să facem legătura rapid între cercetare şi obiectul său exact, excluzând domeniile dreptului care îl interferează inutil.

- Parantezarea

Combinarea a două criterii de selecţie cu ajutorul unui operator logic ca în exemplele arătate nu pune prea multe probleme. Dar este frecvent ca o asemenea formulare să nu fie suficientă şi operatorul să fie obligat să multiplice argumentele de triere şi să combine mai mulţi operatori logici în aceeaşi formulă.

Reluând cercetarea asupra “cărţii albastre”, putem observa că consecinţele unei utilizări frauduloase vor fi luate în considerare în funcţie de cum titlul de plată a fost pierdut sau furat.

Anumite sisteme cer prezenţa mai multor operatori logici diferiţi în aceeaşi frază. Nici unul nu va rezolva ambiguitatea unei formulări care ar avea un răspuns constituit din ansamblul documentelor ce conţin cuvântul “pierdere” şi din ansamblul documentelor ce conţin cuvintele “furt” şi “carte albastră” în acelaşi timp.

Ecuaţia cercetării va trebui să cuprindă deci un factor comun al termenilor utilizaţi şi va fi operată astfel:

(Pierdere sau furt) şi carte albastră,

ceea ce va permite maşinii să traducă aceasta sub forma:

(Pierdere şi carte albastră) sau (furt şi carte albastră).

Este de menţionat că punerea în paranteze, când aceasta este admisă de sistem, poate teoretic să suporte mai multe nivele care sunt câteodată necesare pentru a formula cercetarea.

Exemplu:

Să presupunem că avem de tratat cercetarea jurisprudenţială următoare:

“Refuzul soţiei de a avea copii este o cauză de divorţ?”

Pentru a fi completă această cercetare, va trebui să fie formulată cu ajutorul tuturor conceptelor care conţin refuzul de a avea copii:

- refuzul maternităţii,

- refuzul de a se îngrăşa,

- refuzul de a rămâne gravidă,

- refuzul de a avea copii,

- avortul.

Aceşti termeni vor fi încrucişaţi alternativ cu cuvântul divorţ. Va trebui să stabilim deci diagrama ecuaţiei cercetării noastre sub forma:

“Divorţ şi (refuz şi (maternitate sau (a avea şi copii) sau a se îngrăşa sau a rămâne gravidă) sau avort)”.

Cele mai sofisticate sisteme vor înlătura parantezele, readucându-le în funcţie de ierarhia dintre operatori şi în funcţie de prioritatea dată anumitor cuvinte.

Sistemele mai vechi nu permit folosirea parantezelor intermediare şi vor înlocui acest mod de lucru printr-o succesiune de formulări primare, lucrându-se pe etape succesive pentru a ajunge la nivelul întrebării alese.

Exemplele precedente se referă la un anumit număr de expresii pe care le-am considerat în mod deliberat nişte cuvinte documentare, fie că este vorba de “uni-termene” sau expresii compuse. Calculatorul nu este capabil, acest lucru fiind chiar extraordinar, decât să se asigure asupra identităţii stricte între lanţul de caractere ce compune mesajul utilizatorului şi lanţul ce figurează în documentul respectiv. Problema principală pe care trebuie s-o rezolve utilizatorul unei baze de date juridice este formularea întrebărilor şi transpunerea acestora în instrucţiuni de interogare SQL.

No comments: