Zastanawiałeś się, dlaczego jest tak wiele usług analizujących strukturę tekstu w języku angielskim, a tak mało robiących to samo dla języka polskiego?
Jedną z głównych przyczyn jest wielkość rynku USA, a tak naprawdę światowego – usługa z interfejsem w języku angielskim, operująca na języku angielskim, jest w stanie dotrzeć do kilku miliardów osób z całego świata, gdy identyczna usługa w innym języku jest efektywnie ograniczona tylko do swojego kraju, oraz niewielkiej liczby emigrantów. A to w oczywisty sposób przekłada się na wyniki finansowe.
Ale jest też drugi powód. Język angielski jest relatywnie łatwy do analizy semantycznej podczas, gdy np. język polski jest jednym z trudniejszych.
Jakie są największe problemy i wyzwania przy analizie języka polskiego? Oto nasz subiektywny ranking.
Odmiana przez przypadki – po raz pierwszy
A właściwie odmiana różnych części zdania przez przypadki, liczby, rodzaje, czasy, formę czynną i bierną – wszystko to wymusza konstruowanie wielu reguł dla dokładnie tego samego obiektu.
Jednak naprawdę trudno robi się wówczas, gdy operujemy na kilku obiektach (np. imionach i nazwiskach, zawodach), które mają inną formę – np.:
- rzeźnik (męski) i wykładowca (męski)
- psycholog (tradycyjnie męski lub żeński, w ostatnich latach raczej tylko męski z uwagi na rosnącą popularność formy “psycholożka”) i geodeta (męski)
Powoduje to, że stosowanie prostych trików (np. rozróżnianie płci po końcówce “a”) sprawdza się bardzo słabo – w przeciwieństwie do języka angielskiego, gdzie takimi trikami i stosunkowo niewielką tablicą słów-wyjątków można ogarnąć większość konstrukcji językowych.
Odmiana przez przypadki – po raz drugi
Stosowanie w tekście samych nazwisk utrudnia rozróżnienie znaczenia. Przykładowo:
- [oni] rozpoczęli współpracę z Anną Lewandowską
- [oni] sfotografowali Annę Lewandowską
Jak widać, szczególnie w przypadku nazwisk kobiecych, forma jest zawarta w odmianie przede wszystkim imienia. Na podstawie tej odmiany można więc wnioskować o aktywności wspomnianych “onych”. A co się stanie, jeśli usuniemy imię?
- [oni] rozpoczęli współpracę z Lewandowską
- [oni] sfotografowali Lewandowską
Tracimy cały kontekst. Oczywiście człowiek nadal bez problemu zrozumie każdy wariant – ale automat będzie musiał “strzelać” i nie zawsze zrobi to prawidłowo.
Jeszcze trudniej robi się, gdy chcemy zamienić jedno nazwisko na drugie, np. Donalda Tuska na Papę Smerfa. Dopóki przepisujemy imię i nazwisko, sprawę załatwiają 4 reguły i 1 wyjątek:
- Donald Tusk -> Papa Smerf
- Donalda Tuska -> Papy Smerfa
- Donaldem Tuskiem -> Papą Smerfem
- Donaldowi Tuskowi -> Papie Smerfowi
Czego tu brakuje? Oczywiście biernika: kogo zobaczył? Papę Smerfa, a nie Papy Smerfa. Dochodzi więc jeden wyjątek:
- Donalda Tuska -> Papę Smerfa
Ale prawdziwy problem powstaje, gdy chcemy prawidłowo przepisać samo nazwisko Tusk w odmianie przez przypadki i formy. Wówczas mamy tylko 3 formy podstawowe, ale aż 19 wyjątków, opierających się o to, co jest przed i po nazwisku:
- Tusk -> Papa
- Tuskiem -> Papą
- Tuskowi -> Papie
Jak widać, “Tuska” nawet nie występuje jako reguła podstawowa, gdyż bez dodatkowych informacji jest ona bezużyteczna. Forma podstawowa łącząca dopełniacz i biernik jest użyteczna tylko wtedy, gdy robimy podmianę obiektów odmieniających się w dokładnie ten sam sposób. Przykładowo:
- Rydzyk -> Imperator
- Rydzyka -> Imperatora
itd.
Krótkie, jednoczłonowe i mało charakterystyczne nazwy własne
Idealnym przykładem jest znany zespół muzyczny Queen, którego w zasadzie nie ma sensu próbować dopasowywać po samej nazwie. Oczywiście dłuższe teksty zawierają często np. nazwiska członków zespołu, albo tytuły znanych piosenek – wszystko to jednak utrudnia, a czasem wręcz uniemożliwia prawidłowe rozpoznanie kontekstu.
Przykładowo, tekst może wspominać o kontrowersjach wokół teledysku do utworu “The Show Must Go On”, albo o tym że pierwotny wokalista nie żyje, ale tematem przewodnim artykułu może być jak najbardziej pozytywna informacja o zbliżającym się koncercie i dostępności biletów.
Wieloczłonowe nazwy własne, zapisywane z apostrofami, myślnikami lub spacjami
Przykłady:
- zespół Guns N’ Roses, w Polsce często błędnie zapisywany jako Guns’N’Roses, Guns’n’Roses, lub w jeszcze innej formie
- nazwiska Jankowska-Cieślak ale już Gąsienica Makowski – jakiej formy się spodziewać? jak obsłużyć formę ze spacją, gdy pomiędzy członami następuje koniec linii?
- zagraniczne nazwiska z sufiksami pomiędzy imieniem a pierwszym członem nazwiska, np. Ursula von der Leyen (bywają skracane i odmieniane na wiele sposobów) – które człony odmieniają się przez przypadki bądź cokolwiek innego?
- zagraniczne podwójne imiona typu Jean-Claude – odmiana ma dotyczyć tylko ostatniego członu imienia, czy wszystkich członów? np. Jeana-Claude’a vs Jean-Claude’a)
Nietypowe znaki diakrytyczne i błędy w narzędziach
Przy niektórych znakach rosyjskich i ukraińskich, funkcje języka PHP preg_match
i preg_match_all
przestają prawidłowo działać – np. jeśli wyrażenie regularne zawierać będzie słowa посольством Росії (Ambasada Rosji), wówczas jego dalsza część (po prawej stronie) nie będzie prawidłowo dopasowywana, jeśli analizowany tekst ma kodowanie UTF-8.
Dlatego też trzeba uważać i ręcznie weryfikować, jakie dane ze słowników zewnętrznych dodaje się do modelu analitycznego, szczególnie w kontekście wojny Rosja-Ukraina i ukraińskich technologii wojskowych.