Eurostudent

Premiera Słowosieci – pierwszego Wordnetu języka polskiego

5 maja 2009 o godzinie 12:00 w budynku B-4 (sala 4.48) Politechniki Wrocławskiej odbędzie się seminarium poświęcone premierze Słowosieci – pierwszego wordnetu języka polskiego.

Wordnet jest rodzajem elektronicznego słownika synonimów i wyrażeń pokrewnych ukierunkowanym na zastosowania w analizie języka naturalnego przez komputer.
Autorem projektu jest grupa naukowców z Politechniki Wrocławskiej, kierowana przez dr Macieja Piaseckiego z Instytutu Informatyki Wydziału Informatyki i Zarządzania Politechniki Wrocławskiej. Badania zostały sfinansowane przez Ministerstwo Nauki i Szkolnictwa Wyższego.
 
Prace nad stworzeniem Słowosieci trwały równe 3 lata. Powstała jedyna w Polsce sieć zawierająca opis 27 tysięcy jednostek leksykalnych (tj. znaczeń haseł słownikowych), w tym około 8 tysięcy opisanych wyłącznie ręcznie (bez udziału metod automatycznych) przez lingwistów z Instytutu Języka Polskiego Uniwersytetu Warszawskiego.
 
W ramach seminarium zostaną przedstawione wyniki projektu, którego głównym celem było opracowanie zbioru metod automatycznego wydobywania relacji znaczeniowych pomiędzy słowami języka polskiego (tzw. semantycznych relacji leksykalnych) bezpośrednio z dziesiątek tysięcy przykładów ich użycia w bardzo dużych zbiorach tekstów (tzw. korpusów tekstów, które w tym przypadku zawierały teksty o łącznej długości około 570 mln wystąpień różnych słów).
 
Wyjątkowym mechanizmem, w który nie został wyposażony żaden wordnet na świecie, jest tzw. WordNet Weaver – program umożliwiający półautomatyczne rozszerzanie słownika. WordNet Weaver łączy kilka metod wydobywania relacji znaczeniowych z tekstów i dla słów dodawanych do Słowosieci automatycznie generuje propozycje miejsc ich dołączenia do struktury słownika. Wysoka skuteczność programu powoduje, że wspomaga on pracę lingwisty, przyspieszając nawet sześciokrotnie czas jego pracy. Program ten znacznie obniżył koszty konstrukcji Słowosieci. Rozwiązanie takie nie zostało do tej pory zastosowane na skalę praktyczną w przypadku żadnego z istniejących ponad 60 wordnetów dla różnych języków świata.
 
Pierwowzór Słowosieci, amerykański WordNet z Uniwersytetu Princeton, to najczęściej wykorzystywany opis znaczeń słów w przypadku automatycznego przetwarzania tekstu. Lista znanych zastosowań WordNetu obejmuje ponad tysiąc pozycji. Głównym celem budowy Słowosieci było skonstruowanie dla języka polskiego tak cennego źródła wiedzy.
Język polski był jednym z nielicznych języków europejskich dla których nie istniał wordnet.
 
Zastosowanie Słowosieci:
 
  • forma źródła opisującego znaczenia słów w języku polskim na potrzeby automatycznej analizy znaczenia tekstu;
  • pomocna przy inteligentnym wyszukiwaniu dokumentów w Internecie w oparciu
    o analizę znaczenia pytania zadanego przez użytkownika;
  • pomocna przy automatycznej klasyfikacji dokumentów tekstowych na poszczególne dziedziny znaczeniowe czy też filtrowaniu dokumentów pod względem tematyki interesującej użytkownika;
  • z jej zasobów będą korzystać programy prowadzące dialog z użytkownikiem w języku naturalnym;
  • dostarcza lingwistom możliwości spojrzenia na system znaczeń leksykalnych języka polskiego z nowej perspektywy skali makro;
 
Słowosieć jest również innego rodzaju słownikiem języka polskiego publicznie dostępnym przez stronę WWW. Może być również przydatna w szeroko pojętej edukacji w tym w nauczaniu języka polskiego.
 
Jeszcze przed oficjalną premierą wersji 1.0, bezpłatny dostęp do pełnej wersji Słowosieci, na podstawie licencji naukowej, uzyskało 7 polskich jednostek naukowych. Opracowanymi metodami automatycznymi zainteresowane są firmy komercyjne. Strona projektu obsłużyła już ponad 368 000 zapytań o różne słowa z ponad 5000 różnych miejsc w sieci
 

Opis projektu i sam słownik  stronie plwordnet.pwr.wroc.pl