Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

Wyzwania przy analizie tekstu w języku polskim


Zastanawiałeś się, dlaczego jest tak wiele usług analizujących strukturę tekstu w języku angielskim, a tak mało robiących to samo dla języka polskiego?

Jedną z głównych przyczyn jest wielkość rynku USA, a tak naprawdę światowego – usługa z interfejsem w języku angielskim, operująca na języku angielskim, jest w stanie dotrzeć do kilku miliardów osób z całego świata, gdy identyczna usługa w innym języku jest efektywnie ograniczona tylko do swojego kraju, oraz niewielkiej liczby emigrantów. A to w oczywisty sposób przekłada się na wyniki finansowe.

Ale jest też drugi powód. Język angielski jest relatywnie łatwy do analizy semantycznej podczas, gdy np. język polski jest jednym z trudniejszych.

Jakie są największe problemy i wyzwania przy analizie języka polskiego? Oto nasz subiektywny ranking.

Odmiana przez przypadki – po raz pierwszy

A właściwie odmiana różnych części zdania przez przypadki, liczby, rodzaje, czasy, formę czynną i bierną – wszystko to wymusza konstruowanie wielu reguł dla dokładnie tego samego obiektu.

Jednak naprawdę trudno robi się wówczas, gdy operujemy na kilku obiektach (np. imionach i nazwiskach, zawodach), które mają inną formę – np.:

  • rzeźnik (męski) i wykładowca (męski)
  • psycholog (tradycyjnie męski lub żeński, w ostatnich latach raczej tylko męski z uwagi na rosnącą popularność formy “psycholożka”) i geodeta (męski)

Powoduje to, że stosowanie prostych trików (np. rozróżnianie płci po końcówce “a”) sprawdza się bardzo słabo – w przeciwieństwie do języka angielskiego, gdzie takimi trikami i stosunkowo niewielką tablicą słów-wyjątków można ogarnąć większość konstrukcji językowych.

Odmiana przez przypadki – po raz drugi

Stosowanie w tekście samych nazwisk utrudnia rozróżnienie znaczenia. Przykładowo:

  • [oni] rozpoczęli współpracę z Anną Lewandowską
  • [oni] sfotografowali Annę Lewandowską

Jak widać, szczególnie w przypadku nazwisk kobiecych, forma jest zawarta w odmianie przede wszystkim imienia. Na podstawie tej odmiany można więc wnioskować o aktywności wspomnianych “onych”. A co się stanie, jeśli usuniemy imię?

  • [oni] rozpoczęli współpracę z Lewandowską
  • [oni] sfotografowali Lewandowską

Tracimy cały kontekst. Oczywiście człowiek nadal bez problemu zrozumie każdy wariant – ale automat będzie musiał “strzelać” i nie zawsze zrobi to prawidłowo.

Jeszcze trudniej robi się, gdy chcemy zamienić jedno nazwisko na drugie, np. Donalda Tuska na Papę Smerfa. Dopóki przepisujemy imię i nazwisko, sprawę załatwiają 4 reguły i 1 wyjątek:

  • Donald Tusk -> Papa Smerf
  • Donalda Tuska -> Papy Smerfa
  • Donaldem Tuskiem -> Papą Smerfem
  • Donaldowi Tuskowi -> Papie Smerfowi

Czego tu brakuje? Oczywiście biernika: kogo zobaczył? Papę Smerfa, a nie Papy Smerfa. Dochodzi więc jeden wyjątek:

  • Donalda Tuska -> Papę Smerfa

Ale prawdziwy problem powstaje, gdy chcemy prawidłowo przepisać samo nazwisko Tusk w odmianie przez przypadki i formy. Wówczas mamy tylko 3 formy podstawowe, ale aż 19 wyjątków, opierających się o to, co jest przed i po nazwisku:

  • Tusk -> Papa
  • Tuskiem -> Papą
  • Tuskowi -> Papie

Jak widać, “Tuska” nawet nie występuje jako reguła podstawowa, gdyż bez dodatkowych informacji jest ona bezużyteczna. Forma podstawowa łącząca dopełniacz i biernik jest użyteczna tylko wtedy, gdy robimy podmianę obiektów odmieniających się w dokładnie ten sam sposób. Przykładowo:

  • Rydzyk -> Imperator
  • Rydzyka -> Imperatora

itd.

Krótkie, jednoczłonowe i mało charakterystyczne nazwy własne

Idealnym przykładem jest znany zespół muzyczny Queen, którego w zasadzie nie ma sensu próbować dopasowywać po samej nazwie. Oczywiście dłuższe teksty zawierają często np. nazwiska członków zespołu, albo tytuły znanych piosenek – wszystko to jednak utrudnia, a czasem wręcz uniemożliwia prawidłowe rozpoznanie kontekstu.

Przykładowo, tekst może wspominać o kontrowersjach wokół teledysku do utworu “The Show Must Go On”, albo o tym że pierwotny wokalista nie żyje, ale tematem przewodnim artykułu może być jak najbardziej pozytywna informacja o zbliżającym się koncercie i dostępności biletów.

Wieloczłonowe nazwy własne, zapisywane z apostrofami, myślnikami lub spacjami

Przykłady:

  • zespół Guns N’ Roses, w Polsce często błędnie zapisywany jako Guns’N’Roses, Guns’n’Roses, lub w jeszcze innej formie
  • nazwiska Jankowska-Cieślak ale już Gąsienica Makowski – jakiej formy się spodziewać? jak obsłużyć formę ze spacją, gdy pomiędzy członami następuje koniec linii?
  • zagraniczne nazwiska z sufiksami pomiędzy imieniem a pierwszym członem nazwiska, np. Ursula von der Leyen (bywają skracane i odmieniane na wiele sposobów) – które człony odmieniają się przez przypadki bądź cokolwiek innego?
  • zagraniczne podwójne imiona typu Jean-Claude – odmiana ma dotyczyć tylko ostatniego członu imienia, czy wszystkich członów? np. Jeana-Claude’a vs Jean-Claude’a)

Nietypowe znaki diakrytyczne i błędy w narzędziach

Przy niektórych znakach rosyjskich i ukraińskich, funkcje języka PHP preg_match i preg_match_all przestają prawidłowo działać – np. jeśli wyrażenie regularne zawierać będzie słowa посольством Росії (Ambasada Rosji), wówczas jego dalsza część (po prawej stronie) nie będzie prawidłowo dopasowywana, jeśli analizowany tekst ma kodowanie UTF-8.

Dlatego też trzeba uważać i ręcznie weryfikować, jakie dane ze słowników zewnętrznych dodaje się do modelu analitycznego, szczególnie w kontekście wojny Rosja-Ukraina i ukraińskich technologii wojskowych.