Wyzwania przy analizie tekstu w języku polskim


Zastanawiałeś się, dlaczego jest tak wiele usług analizujących strukturę tekstu w języku angielskim, a tak mało robiących to samo dla języka polskiego?

Jedną z głównych przyczyn jest wielkość rynku USA, a tak naprawdę światowego – usługa z interfejsem w języku angielskim, operująca na języku angielskim, jest w stanie dotrzeć do kilku miliardów osób z całego świata, gdy identyczna usługa w innym języku jest efektywnie ograniczona tylko do swojego kraju, oraz niewielkiej liczby emigrantów. A to w oczywisty sposób przekłada się na wyniki finansowe.

Ale jest też drugi powód. Język angielski jest relatywnie łatwy do analizy semantycznej podczas, gdy np. język polski jest jednym z trudniejszych.

Jakie są największe problemy i wyzwania przy analizie języka polskiego? Oto nasz subiektywny ranking.

Odmiana przez przypadki – po raz pierwszy

A właściwie odmiana różnych części zdania przez przypadki, liczby, rodzaje, czasy, formę czynną i bierną – wszystko to wymusza konstruowanie wielu reguł dla dokładnie tego samego obiektu.

Jednak naprawdę trudno robi się wówczas, gdy operujemy na kilku obiektach (np. imionach i nazwiskach, zawodach), które mają inną formę – np.:

  • rzeźnik (męski) i wykładowca (męski)
  • psycholog (tradycyjnie męski lub żeński, w ostatnich latach raczej tylko męski z uwagi na rosnącą popularność formy “psycholożka”) i geodeta (męski)

Powoduje to, że stosowanie prostych trików (np. rozróżnianie płci po końcówce “a”) sprawdza się bardzo słabo – w przeciwieństwie do języka angielskiego, gdzie takimi trikami i stosunkowo niewielką tablicą słów-wyjątków można ogarnąć większość konstrukcji językowych.

Odmiana przez przypadki – po raz drugi

Stosowanie w tekście samych nazwisk utrudnia rozróżnienie znaczenia. Przykładowo:

  • [oni] rozpoczęli współpracę z Anną Lewandowską
  • [oni] sfotografowali Annę Lewandowską

Jak widać, szczególnie w przypadku nazwisk kobiecych, forma jest zawarta w odmianie przede wszystkim imienia. Na podstawie tej odmiany można więc wnioskować o aktywności wspomnianych “onych”. A co się stanie, jeśli usuniemy imię?

  • [oni] rozpoczęli współpracę z Lewandowską
  • [oni] sfotografowali Lewandowską

Tracimy cały kontekst. Oczywiście człowiek nadal bez problemu zrozumie każdy wariant – ale automat będzie musiał “strzelać” i nie zawsze zrobi to prawidłowo.

Jeszcze trudniej robi się, gdy chcemy zamienić jedno nazwisko na drugie, np. Donalda Tuska na Papę Smerfa. Dopóki przepisujemy imię i nazwisko, sprawę załatwiają 4 reguły i 1 wyjątek:

  • Donald Tusk -> Papa Smerf
  • Donalda Tuska -> Papy Smerfa
  • Donaldem Tuskiem -> Papą Smerfem
  • Donaldowi Tuskowi -> Papie Smerfowi

Czego tu brakuje? Oczywiście biernika: kogo zobaczył? Papę Smerfa, a nie Papy Smerfa. Dochodzi więc jeden wyjątek:

  • Donalda Tuska -> Papę Smerfa

Ale prawdziwy problem powstaje, gdy chcemy prawidłowo przepisać samo nazwisko Tusk w odmianie przez przypadki i formy. Wówczas mamy tylko 3 formy podstawowe, ale aż 19 wyjątków, opierających się o to, co jest przed i po nazwisku:

  • Tusk -> Papa
  • Tuskiem -> Papą
  • Tuskowi -> Papie

Jak widać, “Tuska” nawet nie występuje jako reguła podstawowa, gdyż bez dodatkowych informacji jest ona bezużyteczna. Forma podstawowa łącząca dopełniacz i biernik jest użyteczna tylko wtedy, gdy robimy podmianę obiektów odmieniających się w dokładnie ten sam sposób. Przykładowo:

  • Rydzyk -> Imperator
  • Rydzyka -> Imperatora

itd.

Krótkie, jednoczłonowe i mało charakterystyczne nazwy własne

Idealnym przykładem jest znany zespół muzyczny Queen, którego w zasadzie nie ma sensu próbować dopasowywać po samej nazwie. Oczywiście dłuższe teksty zawierają często np. nazwiska członków zespołu, albo tytuły znanych piosenek – wszystko to jednak utrudnia, a czasem wręcz uniemożliwia prawidłowe rozpoznanie kontekstu.

Przykładowo, tekst może wspominać o kontrowersjach wokół teledysku do utworu “The Show Must Go On”, albo o tym że pierwotny wokalista nie żyje, ale tematem przewodnim artykułu może być jak najbardziej pozytywna informacja o zbliżającym się koncercie i dostępności biletów.

Wieloczłonowe nazwy własne, zapisywane z apostrofami, myślnikami lub spacjami

Przykłady:

  • zespół Guns N’ Roses, w Polsce często błędnie zapisywany jako Guns’N’Roses, Guns’n’Roses, lub w jeszcze innej formie
  • nazwiska Jankowska-Cieślak ale już Gąsienica Makowski – jakiej formy się spodziewać? jak obsłużyć formę ze spacją, gdy pomiędzy członami następuje koniec linii?
  • zagraniczne nazwiska z sufiksami pomiędzy imieniem a pierwszym członem nazwiska, np. Ursula von der Leyen (bywają skracane i odmieniane na wiele sposobów) – które człony odmieniają się przez przypadki bądź cokolwiek innego?
  • zagraniczne podwójne imiona typu Jean-Claude – odmiana ma dotyczyć tylko ostatniego członu imienia, czy wszystkich członów? np. Jeana-Claude’a vs Jean-Claude’a)

Nietypowe znaki diakrytyczne i błędy w narzędziach

Przy niektórych znakach rosyjskich i ukraińskich, funkcje języka PHP preg_match i preg_match_all przestają prawidłowo działać – np. jeśli wyrażenie regularne zawierać będzie słowa посольством Росії (Ambasada Rosji), wówczas jego dalsza część (po prawej stronie) nie będzie prawidłowo dopasowywana, jeśli analizowany tekst ma kodowanie UTF-8.

Dlatego też trzeba uważać i ręcznie weryfikować, jakie dane ze słowników zewnętrznych dodaje się do modelu analitycznego, szczególnie w kontekście wojny Rosja-Ukraina i ukraińskich technologii wojskowych.