INTRODUZIONE A INTERNET
per studenti universitari


Dr. Giorgio F. Signorini
Dipartimento di Chimica
Università di Firenze
$\triangleright$signo@chim.unifi.it

$\triangleright$http://www.chim.unifi.it/ signo


October 28, 2004


MATERIALE CHE SI TROVA SU WWW

WWW può essere visto ``come'' una grande biblioteca, analizzabile con strumenti di ricerca automatici


INDICI GLOBALI


INDICI

Raccolta di documenti da inserire nell'indice:


INDICI O CATALOGHI PER SOGGETTO

C'è sempre una qualche scelta di chi compila il catalogo:

Queste scelte possono essere affidate anche ad un software specializzato

Classificazione è generalmente gerarchica.
Es: computer > software > games


INDICI PER PAROLA

Indici per parola sarebbero troppo grandi da consultare direttamente.

La pagina di un indice contiene una casella dove inserire le parole da cercare. Avviando la ricerca, un programma sul sito remoto ricerca le parole nell'indice.

Come risultato, si ottiene un elenco di pagine che contengono le parole cercate.


Ricerca ``avanzata'':


MOTORI DI RICERCA

Motore di ricerca (``search engine''): un programma che visita periodicamente (quasi) tutto il WWW e registra il contenuto delle pagine (più altre informazioni) in un indice.

Normalmente si intende: motore di ricerca = la sua sede (home-page) su WWW, che permette l'accesso all'indice

Se una pagina viene aggiornata, entro un certo tempo il motore di ricerca aggiorna corrispondentemente l'indice


Alcuni motori di ricerca:

Lista di motori di ricerca:
http://www.searchenginewatch.com/links/major.html


Motori di ricerca ``intelligenti''

Forniscono le risposte in ordine di rilevanza, valutando, ad es:

Altre forme di intelligenza:


Google! (http://www.google.com) è un motore di ricerca intelligente

  1. ricerca base:

    • tutte le parole (ordine è irrilevante)
    • risposte in ordine di importanza
    • si può accedere alla copia della pagina visitata da google
  2. ricerca avanzata permette di specificare meglio
  3. ha anche un catalogo per soggetto


IL CATALOGO PER SOGGETTO (DIRECTORY) DI GOOGLE

http://dir.google.com


STRATEGIE DI RICERCA

  1. Ricerca per soggetto:

    è sconsigliata perché

    • cataloghi sono incompleti e poco aggiornati

    • difficile trovare categoria giusta


  2. Ricerca per parola:


    • Scopo ideale:

      • SOLO risposte rilevanti

      • TUTTE le risposte rilevanti (non sempre)


    • Ragionevole approssimazione:

      • 10-100 risposte

      • le più rilevanti tra le prime


OBIETTIVI E STRUMENTI

possibili obiettivi di una ricerca su WWW (in ordine di precisione decrescente)

  • pagine che contengano un testo preciso [es. legge, letterario]

  • pagine che contengano un oggetto non-testuale preciso [es. programma, riproduzione di un quadro]

  • pagine che si riferiscano ad un oggetto preciso [es. homepage ditta, orario FS]

  • un'informazione precisa nel contenuto ma non nella forma [un dato storico o scientifico, un'informazione tecnica o commerciale]

  • una ``bibliografia'' generale su un argomento


possibili strumenti

  • ricerca per parola, diretta:

    • con motore di ricerca intelligente (che ordini le risposte per rilevanza e importanza)

    • per frase, per parole molto inconsuete, per host/URI

    • per parole con operatori logici e di posizione

  • ricerca per parola, indiretta:

    • ricerca di pagine di accesso a database off-line [es. dizionari], poi ricerca su quelle

    • ricerca di cataloghi specifici o ``nodi di scambio'', poi uso di quelli

    • ricerca di pagine simili a quelle cercate per trovare nuove parole chiave

  • ricerca per soggetto:

    • su cataloghi settoriali

    • su cataloghi generali ma selettivi (es. Britannica)

    • facendo anche ricerca per parola all'interno di un soggetto (es. Google Directory)


COME VALUTARE L'ATTENDIBILITÀ DELL'INFORMAZIONE

Se l'informazione non può essere valutata da voi stessi (opinioni, ragionamenti), occorre sapere se ci si può fidare

Non c'è un modo universale.

Attendibilità è basata su reputazione (``Chi è che l'ha detto?'') più che sul numero di conferme (a volte, informazioni sbagliate sono ripetute molte volte)

Questo è ad esempio il motivo per cui google considera una pagina ``importante'' non solo se essa è citata da molte altre pagine, ma anche se queste pagine a loro volta sono molto citate (cioè godono di buona reputazione)


INFORMAZIONE CONTENUTA NELL'URI

Il nome a domini che appare nell'URI a volte dà indicazione sulla fonte.


Es: una pagina su un presunto virus (GoodTimes):

http://www.hr.doe.gov/goodtime.html
I domini di primo e secondo livello (.doe.gov) dicono che si tratta di


  1. una fonte autorevole dovrebbe contenere:

  2. ci sono anche altri indicatori di qualità


INDICATORI DI QUALITÀ


INDICATORI DI QUALITÀ (2)


INDICATORI DI QUALITÀ (3)


BIBLIOGRAFIA

Ed Krol, The Whole Internet, 2nd Edition

Ed Krol, Internet, Milano, Jackson libri, 1994.

D. J. Barrett¸ NetResearch: Finding Information Online, Songline and O'Reilly & Associates¸ 1997¸ (ISBN 1-56592-245-X)

Riccardo Ridi, Internet in Biblioteca, Bibliografica

F. Metitieri, R. Ridi, Ricerche Bibliografiche in Internet, Apogeo (ISBN 88-7303-431-4)

R. Harris, Evaluating Internet Research Sources, 17/11/1997. http://www.virtualsalt.com/evalu8it.htm


Footnotes

... [*]
Secondo una statistica (fonte non più reperibile), nel 2000 il 68% del WWW era scritto in inglese; solo l'1.6% in Italiano. [http://global-reach.biz/globstats/refs.php3]
... parte[*]
3.800.000(Open Directory)/1.500.000(base google) [10/2002]