Wykorzystanie tekstu w korpusie

Podstawowym sposobem wykorzystania tekstów w korpusie jest konkordancja, czyli uporządkowany zbiór cytatów z danym słowem czy konstrukcją (termin konkordancja pochodzi z biblistyki). Z danego tekstu użytkownik korpusu może zobaczyć tylko krótkie cytaty z danym słowem. Poniżej konkordancja słowa książka w Narodowym Korpusie Języka Polskiego.


W korpusie wyszukujemy też kolokacji, czyli słów wsytępujących najczęściej w sąsiedztwie danego słowa, odzwierciedlających jego typowe skojarzenia. Poniżej kolokacja słowa książka:


Oprócz kolokakcji i konkordancji korpusy służą do szeroko pojętych badań statystycznych. Chodzi nie tylko o listę częstości słów w polskich tekstach [tu jako odnośnik pierwsza 500 z NKJP], lecz o wybieranie słów kluczowych (częstszych istotnie w jednym tekście w porównaniu z korpusem porównawczym, ekstrakcję inforomacji i automatyczne streszczanie tekstu, ustalanie podobieństwa i autorstwa, przekład automatyczny i inne zastosowania. Dziś, kiedy językoznawcy radzą, jakiego słowa użyć, jakiego nie, ustalamy zakres podobieństwa tekstów lub najważniejsze słowa tematy, opierając się na statystyce. Przegląd rożnych programów technologii językowej opartych na polskich korpusach można znaleźć na stronie europejskiej technologii językowej CLARIN.