Spis treści Skorowidz Poziom główny Poziom nadrzędny Wstecz Dalej Zadania ©

Protokół http i sieć WWW

Co to jest WWW?
Konwencja adresowa URI
Co przesyłamy protokołem http?
Bezpieczeństwo: https
Wyszukiwarki i ich banki informacji
Portale internetowe
Co dalej?

Co to jest WWW?

Terminem http (HyperText Transfer Protocol) określa się sposób przekazywania między maszynami i użytkownikami (klientami) danych i dokumentów w postaci plików hipertekstowych (głównie HTML). Ogół dokumentów, udostępnianych tym protokołem w Internecie nosi nazwę WWW (Worldwide Web). Do transportu danych przez sieć używany jest mechanizm MIME (przypomnijmy, że obejmuje on rozszerzenie poczty internetowej o przesyłanie wiadomości multimedialnych).

Sieć WWW powstała w latach 1990-tych dla wymiany informacji między ośrodkami naukowymi. Głównym inicjatorem WWW było Europejskie Centrum Badań Jądrowych (CERN) z siedzibą w Genewie. Obecnie zasięg i cele WWW są dużo szersze: jest wykorzystywana do celów informacji publicznej, komercyjnej i prywatnej.

Nad rozwojem sieci i obowiązujących w niej standardów czuwa Konsorcjum WWW, zwane krótko W3C .

Maszynę, na której znajduje się przeznaczony do pobrania plik dokumentu, określamy jako serwer http; ten sam termin stosujemy także dla oprogramowania, które zajmuje się udostępnianiem dokumentów na żądanie użytkowników. Nazwy dokumentów podaje się zgodnie z konwencją URI.

Programy, z których korzystają użytkownicy WWW w celu pobierania i czytania dokumentów, noszą nazwę przeglądarek internetowych. Dobrze zaprojektowany dokument będzie czytelny przy przeglądaniu go dowolną przeglądarką.

Oprócz przeglądarek, które są programami interaktywnymi, nierzadko dysponującymi zaawansowaną techniką graficzną, istnieją również klienty nieinteraktywne. Pobierają one pliki spod wskazanego adresu i zapisują ich kopie w lokalnym systemie plików, nie interpretując w żaden sposób ich zawartości. Przypominają one nieco tekstowe klienty ftp oraz inne narzędzia do kopiowania plików przez sieć.

W osobnej galerii ilustracji przedstawiamy zrzuty ekranowe kilku przykładowych przeglądarek WWW.

Konwencja adresowa URI

Przy odwoływaniu się do plików umieszczonych w sieci korzysta się z adresowania zasobów sieciowych w konwencji URI (Universal Resource Identifier). Adres taki składa się z następujących części:

symbolu protokołu, czyli sposobu udostępniania danych; w przypadku protokołu http jest to http:;
adresu komputera w postaci symbolicznego adresu domenowego lub numerycznego adresu IP, poprzedzonego dwoma ukośnikami (//);
położenia pliku w zasobach tego komputera;
szczegółów dotyczących wskazania fragmentu tego pliku lub sposobu jego użycia.

Pierwsze dwie części adresu URI można pominąć w odsyłaczu do pliku znajdującego się w zasobach tej samej maszyny, na której położony jest plik z odsyłaczem. Taki adres nosi nazwę adresu względnego.

Na przykład adresem URI jest

http://karnet.up.wroc.pl/~jasj/cwiczenia/index.html

lub równoważnie

http://156.17.187.240/~jasj/cwiczenia/index.html

W jego skład wchodzą:

określenie sposobu dostępu do danych, zawierające nazwę protokołu: http:;
dwa ukośniki // mówiące, że następna część adresu zawierać będzie określenie hosta (komputera świadczącego usługę);
określenie nazwy komputera w postaci symbolicznej: karnet.up.wroc.pl lub numerycznej: 156.17.187.240;
wskazanie ścieżki dostępu do zasobu: /~jasj/cwiczenia/index.html.

Mimo, że wiele komputerów udostępniających usługę http ma domenową nazwę symboliczną rozpoczynającą się od www, literki te stanowią jedynie część nazwy maszyny i nie mają innego „magicznego” znaczenia (podobnie jak nie mają go nazwy plików).

Adresy stron i kartotek prywatnych użytkowników serwerów WWW mają postać http://serwer/~uzytkownik.

Prawidłowo zapisany wskaźnik URI powinien składać się wyłącznie ze znaków podstawowych ASCII. Znaki spoza tego zestawu, a także znaki wchodzące w skład nazw, które pełnią funkcje sterujące (np. znaki spacji, dwukropka, średnika, cudzysłowu, &, #), należy kodować, umieszczając ich zapisany znakowo numer szesnastkowy po znaku procenta.

I tak np. zamiast http://aquarius/Adam Kowalski/plik pierwszy należy odpowiedniemu URI nadać zawartość http://aquarius/Adam%20Kowalski/plik%20pierwszy.

Zatwierdzone w 2005 roku rozszerzenie adresowania URI dopuszcza internacjonalizację adresów, czyli mówiąc niezbyt precyzyjnie — umożliwia tworzenie adresów domenowych zawierających znaki UNICODE. Oczywiście znaki takie (np. polskie litery) są niemile widziane w jawnej postaci (dlaczego?); bezpieczniej jest przechowywać adresy w formie kodowanej, podobnie jak w powyższym przykładzie.

Co przesyłamy protokołem http?

Dokumenty hipertekstowe mogą zawierać odsyłacze do innych dokumentów i do innych usług sieciowych. Dokumenty udostępniane w sieci WWW są dziś na ogół tworzone w języku formatowania tekstów HTML. Język ten precyzyjnie definiuje strukturę dokumentu i może służyć jako ogólny sposób zapisywania i wymiany tekstów sformatowanych. Jednak protokołem http można przesyłać pliki o dowolnej nazwie, zawartości i formacie zapisu — byle tylko serwer był w stanie je udostępnić.

Dokumenty przeznaczone do formatowania przez przeglądarki i zaprojektowane pod kątem czytania bezpośrednio z monitora określa się mianem stron WWW. Czasami — niesłusznie — rozciąga się ten termin na wszystkie dokumenty zapisane w formacie HTML. Nie każdy dokument HTML jest stroną WWW, coraz częściej można też spotkać stronę WWW udostępnianą w formacie innym, niż HTML.

Dokumenty takie mogą być pobierane z serwerów, na których są przechowywane. Możliwa jest też inna sytuacja, w której dokument zostanie wygenerowany na żądanie użytkownika. Możliwość ta otwiera szeroki wachlarz zastosowań.

Z oczywistych powodów serwer nie może udostępnić dokumentu, którego nie posiada w swoich zasobach lub nie może wygenerować. Każda próba pobrania takiego dokumentu powoduje odpowiedź serwera ze wskazaniem przyczyny błędu (np. 404: not found), którą następnie wyświetla przeglądarka użytkownika.

Mimo, że tego nie omawialiśmy, język HTML zawiera polecenia obsługi tzw. formularzy. Ich zadaniem jest umożliwienie czytelnikowi strony HTML generowania informacji zwrotnej. Informacja ta może zostać przesłana i zanalizowana przez serwer http. Można ją następnie zapisać w bazie danych lub uruchomić na jej podstawie oprogramowanie wykonujące zleconą usługę.

Projektant serwisu http na konkretnej maszynie może zezwolić użytkownikom na uruchamianie wybranych programów, generujących informację np. w postaci dokumentu HTML. Są to tzw. skrypty CGI (Common Gateway Interface). W odróżnieniu od gotowych dokumentów, magazynowanych w serwerze i czekających na pobranie przez użytkownika, skrypty tworzą dokument dopiero na jego zamówienie. Skrypty takie mogą analizować formularz nadesłany przez użytkownika, wyszukiwać dla niego informacje w sieci lub w lokalnej bazie danych, mogą wreszcie udzielać specjalistycznych usług, związanych z koniecznością uruchamiania dodatkowych programów (np. interface poczty elektronicznej, rozkład jazdy pociągów, usługi bankowe, katalogi sprzedaży, sklepy elektroniczne, zdalne katalogi bibliotek, dostęp do specjalistycznych baz danych i wiele innych).

Bezpieczeństwo: https

Dane przesyłane protokołem http są jawne. Ich odczytanie jest możliwe za pomocą standardowego oprogramowania, co oznacza, że mogą zostać przechwycone na dowolnym etapie transmisji przez osoby do tego nieuprawnione. Jest to niebezpieczne w przypadku, kiedy przesyłane informacje zawierają treści poufne, jak np. hasła dostępu, numery kont, tajemnice służbowe bądź osobiste.

W celu poprawy bezpieczeństwa informacji opracowano szyfrowaną wersję protokołu http. Jest ona znana pod nazwą https (Secure HTTP). Dane przesyłane tym sposobem są możliwe do odczytania jedynie pod warunkiem znajomości tzw. klucza szyfrowania, którym osoba prowadząca podsłuch nie dysponuje. Odgadnięcie klucza jest co prawda możliwe, ale wymaga (średnio) takiej ilości prób, że z praktycznego punktu widzenia nie jest opłacalne.

„Bezpieczna” wersja protokołu http działa w oparciu o system szyfrowania, uwierzytelniania i transmisji zwany SSL (Secure Socket Layer). Został on zaprojektowany w 1996 roku w laboratoriach Netscape.

Przy pierwszej próbie nawiązania bezpiecznego połączenia serwer wysyła do klienta tzw. certyfikat zawierający dane identyfikacyjne i klucz szyfrowania. Po jego zaakceptowaniu możliwa jest dwustronna komunikacja szyfrowana: dane szyfrowane przez serwer są przesyłane siecią i odszyfrowywane po stronie klienta i na odwrót. Certyfikat może mieć ograniczony czas ważności, po którym trzeba go aktualizować.

Protokołu https należy używać we wszystkich przypadkach, w których zachowanie poufności jest priorytetem. Należą do nich np.: usługi finansowe, obsługa poczty na portalach internetowych, przesyłanie formularzy z poufnymi danymi, obsługa baz danych przez sieć WWW. Większość współczesnych przeglądarek WWW rozumie protokół https i jest wyposażona w moduł zarządzania certyfikatami.

Wyszukiwarki i ich banki informacji

Truizmem jest stwierdzenie, że sieć WWW odgrywa ważną rolę w przepływie informacji w społeczności światowej. W uzyskaniu kompetentnej informacji na określony temat pomagają wyszukiwarki, czyli wyspecjalizowane serwery dysponujące narzędziami do przeszukiwania zasobów sieci WWW i bazami danych, zawierającymi spisy tematyczne adresów URI. Wyszukiwarki wykonują skrypty CGI, generowane na podstawie formularza, wypełnionego i nadesłanego przez użytkownika. Pierwszym tego typu węzłem sieciowym na świecie jest (http://www.yahoo.com). Na uwagę zasługuje też węzeł (http://www.google, http://www.google.pl), którego twórcy — w przeciwieństwie do autorów wielu przeładowanych grafiką i reklamami interfejsów — konsekwentnie akcentują podstawową funkcję swojego serwisu, jaką jest wyszukiwanie informacji.

Sposoby gromadzenia informacji o zasobach sieciowych

Skąd wyszukiwarki czerpią materiał do udzielania informacji? Przede wszystkim mają zaplecze w postaci potężnych baz danych, w których znajdują się adresy, przypisane im słowa kluczowe, wreszcie także kopie materiałów źródłowych. Sposoby tworzenia tych baz są rozmaite:

od ręcznego selekcjonowania (tą zasadą kieruje się serwis Yahoo! — któż w końcu lepiej przypisze słowo kluczowe niż lektor, który rozumie dany tekst?),
przez działanie tzw. szperaczy (są to nieinteraktywne programy pracujące na platformie serwera wyszukiwarki, które podążając za odsyłaczami hipertekstowymi w sieci WWW analizują napotkane dokumenty pod względem tytułu, deklarowanych słów kluczowych, tytułów rozdziałów, wreszcie występujących w nich słów),
po świadczenie odpłatnych usług umieszczania w bazie informacji z odsyłaczem do konkretnego adresu.

Nie wyobrażajmy sobie, że wyszukiwarka na nasze żądanie ochoczo zapuszcza szperacza, który zbiera adresy z sieci i wysyła do nas w odpowiedzi. Gromadzenie informacji odbywa się niezależnie od obsługi wyszukiwania, zaś adresy i opisy przysyłane przez wyszukiwarkę pochodzą z już istniejącej bazy bazy danych. Należy jednak przypuszczać, że analiza zapytań nadsyłanych przez użytkowników ma pewien wpływ na ukierunkowanie przyszłych poszukiwań — byłoby to w interesie właścicieli serwisów informacyjnych.

Jak szukać, by znaleźć?

Skuteczność wyszukiwania informacji w serwisach wyszukiwarek zależy od wielu czynników. Przede wszystkim należy zdawać sobie sprawę, że przesłane zapytanie będzie analizowane przez automat, któremu obce są konstrukcje gramatyczne języka naturalnego. Formułowanie pełnych pytań w języku literackim mija się zatem z celem. Warto natomiast wymienić słowa i zwroty, które w jakiś sposób są związane z poszukiwanymi przez nas materiałami.

Wyszukiwarki mają co najmniej dwa sposoby powiązania takich zwrotów z dokumentami. Pierwszy oparty jest o kryterium zawierania: dokument odpowiada zapytaniu, jeżeli znajdują się w nim pożądane frazy (rozumiane jako ciągi znaków, bez analizy znaczeniowej). Drugi polega na przejrzeniu słów kluczowych przypisanych danemu dokumentowi w bazie danych przeglądarki (jak wspomniano wyżej, na przypisanie słów kluczowych ma wpływ autor dokumentu, sposób indeksowania zawartości sieci, wreszcie „poważanie” danego dokumentu mierzone liczbą odsyłaczy).

Każdy serwis wyszukujący operuje własną składnią zapytań. Mają one stosunkowo niewiele elementów wspólnych, na dodatek nie ujętych w żadne normy. Oto najważniejsze z tych zasad:

w treści wyszukiwanych fraz nie bierze się pod uwagę wielkości liter ani znaków przestankowych. Nie są też brane pod uwagę słowa posiłkowe (np. spójniki, przyimki), chyba że wchodzą w skład szerszych fraz.
frazę składającą się z kilku słów należy ująć w cudzysłowy techniczne. W przeciwnym razie zostanie ona potraktowana jako ciąg niezależnych słów.
w zasadzie poszukiwane frazy powinny składać się z pełnych słów, ale w praktyce nie zawsze wyniki wyszukiwania spełniają to wymaganie.
frazy najistotniejsze należy wymienić w pierwszej kolejności.
opisanie frazy czyni ją pożądanym, lecz nie koniecznym składnikiem poszukiwanego dokumentu. Frazy, których wystąpienie w znalezionym dokumencie traktujemy jako obowiązkowe, należy poprzedzić znakiem +. Frazy, które nie mogą wystąpić w znalezionym dokumencie, należy poprzedzić znakiem -.

Dokumenty udostępniane w WWW mogą posiadać bogatą warstwę metainformacyjną. Metainformacją jest np. lista słów kluczowych oraz nazwa języka naturalnego, w którym napisano dokument. Znamiona metainformacji noszą też nazwy plików dokumentów, ich formaty zapisu, daty utworzenia itp. Do takich cech dokumentów da się odwoływać za pomocą rozszerzonych („zaawansowanych”) formularzy wyszukiwania.

Społeczne aspekty funkcjonowania wyszukiwarek

Środki technologiczne same w sobie stoją poza ocenami etycznymi. Jednak społeczny kontekst ich wykorzystania podlega takim ocenom.

Swobodny obieg informacji jest wartością cenioną wysoko w społeczeństwach demokratycznych. Z tego względu m.in. pojawiają się różnego rodzaju rozwiązania prawne zobowiązujące podmioty publiczne do umieszczania raportów ze swojej działalności w formie powszechnie dostępnej. Sieć WWW spełnia wszelkie wymagania powszechnej dostępności informacji.

Narzędzia służące do wyszukiwania i indeksowania, takie jak wyszukiwarki internetowe, są w stanie znakomicie ułatwiać publiczny obieg informacji. Pod warunkiem, że pracę tę wykonują rzetelnie.

Te same środki technologiczne, jeśli znajdą się pod kontrolą jakiejś grupy, mogą działać na jej rzecz, ograniczając lub nawet fałszując obraz posiadanych danych przedstawiany podmiotom spoza grupy. Rysuje się tu kilka zagrożeń, których nie sposób uniknąć bez wprowadzenia odpowiednich regulacji prawnych. Należą do nich m.in.:

ograniczenie dostępu do informacji do kręgu osób i instytucji dysponujących odpowiednimi środkami finansowymi (komercjalizacja usług udzielania informacji),
ograniczenie dostępu do informacji w interesie osób i instytucji sprawujących władzę (totalitaryzm).

Na progu XXI wieku niepokój budzą działania światowych potentatów w zakresie usług wyszukiwania, którzy godzą się na cenzurowanie przez własne serwisy informacji udostępnianych obywatelom państw totalitarnych, a nawet na współpracę z aparatem przymusu politycznego, zgodnie z życzeniami rządów tych państw.

Czy wyniki wyszukiwania są obiektywne?

Działalność wyszukiwarek odbywa się obecnie przede wszystkim na płaszczyźnie komercyjnej, chociaż nie oznacza to automatycznie opłat za usługi wyszukiwania. Koszty ponoszą zazwyczaj reklamodawcy oraz właściciele adresów umieszczanych w bazie danych wyszukiwarki. Jest to jeden z powodów, dla którego wyniki wyszukiwania informacji nie są w pełni obiektywne: na liście wyników czołowe pozycje mogą zajmować adresy klientów, którzy zapłacili więcej. Inne rozwiązanie polega na udostępnieniu adresów spełniających zadane kryteria wyszukiwania i oddzielnym udostępnieniu odsyłaczy sponsorowanych. Te pierwsze zresztą także są „skażone” przez projektantów poszczególnych serwisów, którzy zamieszczają w swoich serwisach nadmierne ilości słów kluczowych wiedząc, jak wpływają one na wyniki pracy wyszukiwarek.

Portale internetowe

W drodze ewolucji z wyszukiwarek wykształciły się tzw. portale internetowe, w których funkcja wyszukiwania informacji jest tylko jedną z wielu proponowanych usług. Oprócz niej portale oferują konta użytkowników poczty elektronicznej, konta witryn WWW, ogólne i specjalistyczne serwisy informacyjne oraz serwisy spersonalizowane, o których kształcie i zawartości decyduje zamawiający użytkownik. Do najbardziej znanych polskich portali należą: (http://www.wp.pl) i (http://www.onet.pl).

Konta poczty elektronicznej

Poczta elektroniczna jest jedną z pierwszych usług oferowanych przez portale internetowe, i do dzisiaj jedną z najważniejszych. Zakres możliwości jest tu bardzo szeroki. Najprostsze konta pocztowe utrzymywane są bezpłatnie, w zamian za co użytkownik godzi się na otrzymywanie listów reklamowych lub na dołączanie reklam do wysyłanej poczty. Należy zaznaczyć, że użytkownik takiego konta nie ma wpływu na treść reklam. Zakres zastosowania takich kont jest więc ograniczony do sfery prywatnej i nieformalnej.

Dodatkowe usługi związane z kontami poczty elektronicznej oferowanymi przez portale obejmują np.: ochronę przed pocztą niechcianą (zwłaszcza tzw. spamem), ochronę przed wirusami i robakami rozpowszechnianymi za pośrednictwem poczty, poufność komunikacji z użytkownikiem (szyfrowanie transmisji), wreszcie rozmiar przestrzeni przeznaczonej na przechowywanie danych. W większości przypadków są to usługi abonamentowe.

Konta WWW

Standardową usługą oferowaną przez portale są też konta WWW, czyli wydzielone miejsce na serwerze http, umożliwiające założenie i prowadzenie własnej strony lub witryny WWW. Zarządzanie prezentowanym w ten sposób materiałem odbywa się za pośrednictwem protokołów komunikacyjnych, np. ftp lub sftp.

Bardziej zaawansowane konta WWW mają dostęp do dodatkowych usług, m.in. mogą korzystać z systemu baz danych oraz języków skryptowych obsługiwanych przez serwer. Zapewnia to możliwość prowadzenia nowoczesnych serwisów WWW, a także zarządzanie nimi przez wielu użytkowników w oparciu o tzw. CMS (Content Management System).

Osobna usługa umożliwia otrzymanie adresu domenowego zaproponowanego przez użytkownika, o ile jego wykorzystanie jest możliwe technicznie i dozwolone. Z praktycznego punktu widzenia jest to równoważne posiadaniu (np. przez firmę) własnego serwera WWW.

Podobnie jak w przypadku kont pocztowych, użytkowanie kont WWW w typowym przypadku wiąże się ze zgodą na dołączanie zawartości reklamowej lub z wykupieniem abonamentu.

„Dyski sieciowe”

Dane przechowywane w ramach kont pocztowych lub WWW nie są zawieszone w jakiejś niezidentyfikowanej „przestrzeni sieciowej”, tylko zajmują fragment przestrzeni pewnego urządzenia (np. dysku) na pewnej maszynie pełniącej funkcję serwera. Jeżeli portal daje użytkownikowi prawo do zarządzania plikami w obrębie jego konta, to mowa jest o „dysku sieciowym”. „Sieciowość” polega tu na możliwości zdalnego dostępu do plików, ich wysyłania i pobierania — oczywiście po autoryzacji. Do transferu zazwyczaj używane są formularze http lub https i obsługujące je skrypty CGI uruchamiane po stronie serwera.

Co dalej?

Komercjalizacja

Obecnie obserwuje się postępującą komercjalizację portali. Oferują one coraz szerszy zakres usług, z których większość jest płatna — podobnie jak w innych sferach życia publicznego.

W tym kontekście ogromnej wagi nabierają zagadnienia ochrony informacji i zapewnienia poufności, np. dla transakcji finansowych. Są one coraz bardziej istotne także dla zwykłych użytkowników, lecz ich wyczerpujące omówienie wykracza poza przedmiot tego opracowania.

Aplikacje sieciowe

Generowanie dokumentów przez serwery http otwiera przed siecią WWW możliwości znacznie bogatsze, niż zwykłe udostępnianie dokumentów. Wiele spośród tych zastosowań można określić terminem aplikacji sieciowych.

Tradycyjnie pojmowane systemy użytkowe są wyposażone w interfejs użytkownika, za pomocą których odbywa się ich obsługa. W systemach sieciowych interfejs taki nie jest bezpośrednio zaprogramowany. Zamiast niego korzystają one z protokołu http, za pomocą którego komunikują się z przeglądarkami WWW obsługiwanymi przez użytkowników. Klasycznym przykładem sieciowych aplikacji są wyszukiwarki internetowe, lecz obecnie zakres zastosowań tej technologii jest szerszy i obejmuje zarządzanie informacją w administracji publicznej, w przedsiębiorstwach, w szkolnictwie, a także administrowanie dużymi systemami komputerowymi.

Powstawanie i rozwój aplikacji sieciowych są korzystne z wielu względów. Producenci oprogramowania mogą się skupić na obsłudze dobrze udokumentowanych protokołów sieciowych i nie przejmować się szczegółami technicznymi interfejsów użytkownika dostarczanych przez systemy operacyjne. Użytkownicy mają swobodę wyboru oprogramowania systemowego i klienckiego na swoich stanowiskach. Wreszcie instytucja korzystająca z aplikacji nie musi troszczyć się o jednolitość sprzętu i oprogramowania zastosowanego w sieci ani o jego zgodność z systemem centralnego serwera. Do pierwszoplanowej rangi urasta za to zapewnienie dostępu do sieci, niezawodności transferu danych, bezpieczeństwa danych i zachowania poufności. I oczywiście przestrzeganie standardów wymiany informacji.

Więcej sensu…

Aby ogarnąć ogrom informacji rozproszony w sieci, trzeba ją filtrować i porządkować. Udostępniane zasoby da się uzupełnić formalnym opisem ich znaczenia, tak by użycie języka naturalnego w dokumentach nie było przeszkodą w automatycznym wyszukiwaniu i przetwarzaniu informacji.

Najprostszym sposobem realizacji tego celu są słowa kluczowe, jednak istnieją też sposoby o wiele bardziej precyzyjne.

Idealna byłaby możliwość wykorzystania znaczników odsyłających od zasobu do innego zasobu, opisujących nie tylko adres docelowy, ale także kontekst znaczeniowy, powód odsyłania itp. Taka sieć powiązań między obiektami byłaby wykorzystywana przez różnego typu aplikacje w sposób niezauważalny dla użytkownika.

Klasyczna sieć WWW jest siecią powiązanych dokumentów; nowe podejście wymagałoby rezygnacji z klasycznie rozumianego hipertekstu na rzecz opisywania zbiorów danych, ich właściwości i zależności między nimi. Trzeba by też zdefiniować mechanizmy umożliwiające definiowanie obiektów i wyrażanie związków. Rolą dokumentów byłoby przechowywanie informacji o obiektach, jednak odnośniki dotyczyłyby obiektów, nie dokumentów.

Na przykład tekst w języku naturalnym, powiedzmy podręcznik, byłby nasycony znacznikami opisującymi sens występowania słów i odsyłającymi do źródeł związanych z odpowiednimi pojęciami, rzeczami czy też czynnościami. Jest to znacznie więcej, niż hipertekst, w którym zakłada się jedynie odsyłanie czytelnika od danego miejsca w dokumencie do innego miejsca lub do innego dokumentu.

Informacja przesyłana między użytkownikami i węzłami takiej sieci, jako że opatrzona znacznikami opisującymi jej „sens”, nie traciłaby na wartości po wyrwaniu z kontekstu. Przetwarzaniem tak przygotowanej informacji mogliby się zajmować nie tylko ludzie, ale także automaty.

Na przykład serwis informacyjny nie musiałby być fizycznie umieszczony na serwerze portalu. Znajdowałby się tam jedynie odsyłacz do typu pożądanej informacji, zaś wyspecjalizowany automat przygotowywałby konkretne zestawienie komunikatów dopiero w razie potrzeby. Przy tym o „aktualności”, „wiarygodności” komunikatów czy też „współzależności” opisywanych treści dałoby się — przynajmniej częściowo — rozstrzygać na podstawie zestawu informacji uzupełniających — podobnie jak dzisiaj robią to doświadczeni czytelnicy na podstawie własnej bazy wiedzy.

Przesłankami tymi kierowali się twórcy projektu Semantic Web, czyli sieć semantyczna, zainicjowanego w roku 2000.

Semantic Web jest w fazie tworzenia, ale podstawowe standardy zostały już wypracowane. Bazują one na formalizmach znakowania dostarczonych przez język XML. Nad ich rozwojem pieczę sprawuje Konsorcjum W3C.

Realizacja praktyczna Semantic Web jest przedsięwzięciem niesłychanie skomplikowanym, obejmującym współpracę oprogramowania różnego typu, w oparciu o wspólne standardy wymiany danych i protokoły komunikacji. Zakres koniecznej unifikacji przekracza wszelkie dotychczasowe doświadczenia komunikacji sieciowej. Początki zostały zrobione; lista narzędzi informatycznych nadających się do wykorzystania w implementacji Semantic Web z roku na rok się wydłuża.

W roku 2008 pojawiły się pierwsze publicznie dostępne serwisy indeksujące i wyszukujące informację w WWW w oparciu o metodologię sieci semantycznej. Był wśród nich m.in. Powerset (http://www.powerset.com), będący obecnie częścią korporacji Microsoft. W roku 2009 podobną usługę zamierza wdrożyć Google.

Więcej aktywności…

Założenia projektu Web2, zapoczątkowanego w roku 2004, są znacznie skromniejsze pod względem teoretycznym, niż Semantic Web. Ma on na celu przede wszystkim aktywizację użytkowników sieci, w toku której przemienią się oni z czytelników we współuczestników i współautorów. Znaczenie projektu (czy raczej tendencji rozwojowej, bo nie ma tu formalnego kierownictwa) wiąże się nie tyle z jego potencjałem teoretycznym, co z rolą społeczną.

Do nurtu związanego z Web2 należałoby zaliczyć m.in. centra informacyjne prowadzone siłami internautów — np. Wikipedia (http://pl.wikipedia.org), węzły pracy grupowej nad dokumentacją — np. WikiBooks (http://pl.wikibooks.org), centra publikacji prywatnych materiałów — tzw. blogów, ale także interaktywne serwisy prowadzone przez instytucje życia publicznego (np. samorządy, prasę) oraz integrację społeczności lokalnych na bazie sieciowych centrów komunikacji.

Narzędziami wykorzystywanymi przez Web2 są wszelkiego rodzaju serwisy do pracy grupowej, systemy zarządzania zawartością oraz systemy wymiany informacji. Dołączają do nich narzędzia przeznaczone do grupowego tworzenia i redagowania informacji, oferowane w formie usług sieciowych..

Ogarnąć chaos?

Liczba i bogactwo serwisów informacyjnych, w połączeniu z ich interaktywnym charakterem sprawiają, że zawartość zasobów zmienia się z dnia na dzień. Śledzenie zmian nawet w pojedynczym portalu jest czynnością uciążliwą. Jeżeli weźmiemy dodatkowo pod uwagę informacje i charakterze reklamowym, poszukiwanie ważnych treści dla danego użytkownika treści w nowym materiale staje się podobne do grzebania na śmietnisku, lub — nieco oględniej — do poszukiwania igły w stogu siana. Z tym, że nie zawsze wiadomo, co konkretnie chcemy znaleźć.

Idea Semantic Web pozwala sprecyzować tematykę poszukiwań, ale wymaga rozbudowanej maszynerii, jak na razie niedostępnej dla powszechnego użycia.

Stosunkowo prostym sposobem na uproszczenie wyszukiwania nowości w określonych serwisach informacyjnych jest mechanizm RSS (Really Simple Syndication), istniejący od roku 1997. Polega on na gromadzeniu specjalnego typu odsyłaczy do wybranych serwisów. Odsyłaczami tymi zarządza się za pomocą specjalnego programu, zwanego czytnikiem RSS, często zintegrowanego z przeglądarką WWW. Technologia RSS jest oparta na języku opisu danych XML.

W witrynach serwisów internetowych fakt oferowania usługi RSS jest zazwyczaj odnotowany za pomocą oznaczenia tekstowego lub graficznego, np. .

Na żądanie czytnika serwis wyposażony w usługę RSS przysyła streszczenia nowości, opatrzone odnośnikami do pełnej wersji materiałów.