IPS è Scopo e funzioni dei sistemi di recupero delle informazioni
IPS è Scopo e funzioni dei sistemi di recupero delle informazioni

Video: IPS è Scopo e funzioni dei sistemi di recupero delle informazioni

Video: IPS è Scopo e funzioni dei sistemi di recupero delle informazioni
Video: RIPARAZIONE E633 TIGRE LIMA MOTORE G 2024, Novembre
Anonim

È difficile per una persona moderna immaginare la vita senza Internet e un accesso quasi istantaneo alle fonti di informazione. L'utente raramente pensa a come viene eseguita la ricerca del contenuto desiderato sulla rete. Ma questo è molto interessante.

Un sistema di recupero delle informazioni (IPS) è un complesso sistema software e hardware che seleziona le informazioni su richiesta dell'utente. Le informazioni sono archiviate su server in forma digitale, come un tempo i libri erano sugli scaffali delle biblioteche. Il sistema è costituito da molti sottosistemi. Ciascuno svolge il proprio compito nel processo di elaborazione della richiesta dell'utente e fornendogli informazioni in forma testuale o sonora. La molteplicità dei compiti da risolvere determina la complessità dell'architettura dei moderni sistemi di recupero delle informazioni (abbreviazione del sistema di recupero delle informazioni). Una specie di "scatola nera": in ingresso - il testo della richiesta, cosa c'è dentro - è sconosciuto, in uscita - informazioni complete.

File di carte nella vita reale
File di carte nella vita reale

Stream di input

Richieste di informazioni che una persona forma in forma di testo sullo schermo del suo gadget,costituiscono una piccola parte delle richieste elaborate dal motore di ricerca. I principali array di query di ricerca sono formati da robot che accettano una richiesta umana ed eseguono una ricerca in più fasi e un feedback con l'utente. I sistemi di recupero delle informazioni includono i noti Google, Yandex e altri, che elaborano milioni di richieste ogni giorno.

Oggetti di ricerca di origine

L'insieme degli oggetti iniziali di interesse per la ricerca sono documenti, registrazioni, video, immagini e altro. Sono creati al di fuori dell'IPS. Il sistema generale di memorizzazione e recupero delle informazioni dovrebbe avere un sistema bibliografico integrato, una sorta di catalogo che ti permetta di cercare qualsiasi tipo di oggetto.

Gli oggetti o le loro trasformazioni digitali diventano una "risorsa di ingresso" nell'IPS. È tra questi che vengono selezionate le informazioni di cui l'utente ha bisogno.

Cerca per informazioni
Cerca per informazioni

Fonti esterne

La visualizzazione di selezione delle informazioni utilizza fonti di conoscenza esterne. Queste sono le informazioni che l'utente sta cercando. Il titolo del film, una citazione dal libro e altro ancora. Per una ricerca su computer, queste informazioni devono essere tradotte in una query in un linguaggio algoritmico. In IPS, questo viene fatto utilizzando il blocco per la creazione, l'indicizzazione e lo sviluppo di query.

Idealmente, questi tre processi (rappresentazione, indicizzazione e sviluppo di query) dovrebbero basarsi su identiche fonti di conoscenza, ma in pratica ciò non è realizzabile.

Le fonti della conoscenza dovrebbero essere costantemente riviste e aggiornate e l'aggiornamento dovrebbe essere identico esincronizzato. E una fonte di conoscenza esterna precede sempre cronologicamente il suo utilizzo nei motori di ricerca per una query, a volte di diversi anni.

Sistema di recupero delle informazioni
Sistema di recupero delle informazioni

Spettacoli

Le rappresentazioni degli oggetti originali sono costituite da dati di input in qualche combinazione o trasformati secondo le regole e gli algoritmi di un particolare sistema di recupero delle informazioni.

Le visualizzazioni sono copie più o meno trasformate dell'oggetto di ricerca originale. Nella raccolta dei testi integrali inediti, ogni testo è la propria rappresentazione. Nella collezione di oggetti di reperti museali e manufatti, la rappresentazione può essere una descrizione trasformata dell'oggetto con la sua immagine. In alcuni casi, la rappresentazione può essere in parte derivata dall'oggetto originale e in parte dalla descrizione: nei motori di ricerca bibliografica, le rappresentazioni sono derivate dall'oggetto - ad esempio, il titolo, il nome dell'autore verranno combinati con l'annotazione dell'opera.

Trovare quello che ti serve
Trovare quello che ti serve

Indice ricercabile

Poiché le informazioni nei sistemi di recupero delle informazioni sono archiviate sotto forma di rappresentazione, è logico presumere che la ricerca venga eseguita in base alla rappresentazione e, dopo la selezione, venga fornita all'utente. In pratica, questo non è il caso. Ad esempio, gli attuali cataloghi delle biblioteche online in genere limitano le ricerche a pochi campi: autore, titolo e sottotitoli all'interno di una vista che contiene altri campi in cui non viene eseguita la ricerca. Questa è una ragione sufficiente per cui è necessario distinguereuna vista e un indice ricercabile, che è la parte di ricerca della vista. Definisce tutto ciò che dovrebbe essere ricercabile. Un indice ricercabile, come la vista e l'oggetto sorgente, può essere suddiviso in sottoindici separati per fornire ricerche più precise e mirate

I motori di ricerca di solito hanno una struttura sintetica internamente per far corrispondere risultati di ricerca validi. Questa struttura è il secondo componente dell'indice ricercabile.

Proceduralmente, il processo di indicizzazione può essere implementato in diversi modi: un indice ricercabile può essere ottenuto tramite:

  • copiare letteralmente una rappresentazione ricercabile;
  • copiando i dettagli della vista. Questo può essere parte o tutte le viste che esistono fisicamente solo come frammenti, distribuiti secondo le regole per la creazione di un indice per la ricerca, che verranno raccolti quando necessario.
Gestione della ricerca
Gestione della ricerca

Regole di progettazione delle richieste e richieste formali

L'ingegneria delle query è una funzione che media tra una query dell'utente e una query formale. Trasforma la query dell'utente, confrontandola con i dizionari dei comandi di recupero, la specifica dell'indice e l'indice prima del recupero. All'alba dello sviluppo di IPS, questo ruolo era tradizionalmente assegnato a specialisti IT qualificati.

Lo sviluppo di query su computer che possono abbinare le query del dizionario in un sistema di indici ricercabili è comunemente indicato come modulo di "input del dizionario". L'automazione di questa funzione è promettente e offre opportunità per metodi di ricerca esperti e probabilistici.

Una richiesta formale diventa una richiesta formale dopo che la richiesta dell'utente è stata convertita. Esempi di tali trasformazioni formali includono troncamento, sostituzione, normalizzazione, vettorizzazione e altre trasformazioni della rappresentazione "esterna" nelle rappresentazioni "interne" dell'IPS del computer (decrittografia - sistema di recupero delle informazioni).

Set di collegamenti documenti estratti

L'insieme risultante di fonti di informazioni è logicamente un sottoinsieme delle viste create dalle regole di corrispondenza applicate alla query formale da un indice ricercabile.

Di solito, ma non necessariamente, esiste un processo di ordinamento separato per il set di informazioni recuperato. I cataloghi delle biblioteche online di solito riordinano i set ricevuti in ordine alfabetico per autore prima della visualizzazione. Nei sistemi di recupero delle informazioni che producono classifiche rigorose, l'ordine di classifica precede qualsiasi riordino.

Analisi dei dati
Analisi dei dati

Stream di output

L'output dei risultati della ricerca viene eseguito tradizionalmente sul display, più spesso sotto forma di un flusso di oggetti da utilizzare altrove o per altri scopi, completa il ciclo di ricerca principale. Tali flussi possono essere inviati a dispositivi di visualizzazione, archiviazione per ulteriore elaborazione o utilizzo come flussi di input per altri servizi di selezione.

I sistemi di recupero delle informazioni consentono il feedback dail risultato di qualsiasi processo di selezione. L'output di qualsiasi processo può essere un feedback ad altri processi. Il feedback può fornire la base per il giudizio di esperti in qualsiasi fase.

Consigliato: