Jak w Polskie.AI konstruujemy modele analityczne?


Podstawą zakwalifikowania analizowanego tekstu do takiej lub innej kategorii jest występowanie w nim określonych fraz, sformułowań, nazw własnych i innych konstrukcji językowych. Na podstawie natężenia takich elementów określamy dziedzinę artykułu (np. motoryzacja, gry komputerowe, przestępstwa z użyciem noża itd.) i jego wymowę (np. rozstania celebrytów).

Z jakich elementów składa się model analityczny

Ogólnie rzecz biorąc, nasze modele analityczne składają się z części twardej, obejmującej dane słownikowe, oraz miękkiej, czyli fraz i sformułowań typowych dla samego języka polskiego.

dane słownikowe

nazwiska

W większości modeli mamy podział na Polaków i obcokrajowców. Przykładowe słowniki:

  • politycy
  • sportowcy (z podziałem na dyscypliny)
  • dziennikarze (z podziałem na tematykę, np. polityczni, technologiczni, pogodynki itd.)
  • muzycy
  • kabareciarze i standuperzy
  • aktorzy i inne osoby związane z przemysłem filmowym
  • zawodowi influencerzy
  • osoby znane z bycia znaną (byłe i obecne partnerki celebrytów, półprofesjonalne modelki itd.)
  • znani specjaliści w różnych dziedzinach (np. lekarze wypowiadający się w mediach)
  • osoby zajmujące wysokie stanowiska w różnych branżach (np. kierownictwo policji)
  • rodziny królewskie i osoby mocno związane z monarchią w różnych krajach (z naciskiem na UK)
  • znani mordercy z całego świata (również ich pseudonimy, obcokrajowcy z podziałem na kontynenty, a w Europie na kraje)
  • osoby związane z konfliktem Rosji z Ukrainą (z podziałem na kraje i rodzaj – znane ofiary, decydenci, inne osoby znane z nazwiska lub pseudonimu, uzupełniane na bieżąco)
nazwy własne
  • nazwy firm
  • nazwy klubów sportowych
  • nazwy leków (z podziałem na typy dolegliwości, np. osobno Remeron i Molnupiravir)
  • tytuły filmów i seriali z podziałem na gatunki (np. filmy z Jamesem Bondem)
  • nazwy znanych zespołów muzycznych
  • nazwy imprez regionalnych z powiatów w całej Polsce
  • nazwy broni i technologii wojskowych (z podziałem na wykorzystujące je państwa)
  • modele dronów (z podziałem na klasy zastosowań i kraje)
  • marki i modele samochodów
  • nazwy gier komputerowych i innych (np. planszowych), ich wydawców, nazwiska ważnych osób, nazwy postaci z gier itd.
słownictwo branżowe

Dla wielu branż w wersji formalnej i potocznej. Przykładowe słowniki:

  • pojęcia z Kodeksu karnego (np. klasyfikacja przestępstw)
  • pojęcia z Kodeksu postępowania karnego (np. związane ze składaniem i wiarygodnością zeznań)
  • pojęcia związane ze służbą w formacjach mundurowych, kryminalistyką i szczegółami dot. różnego rodzaju przestępstw, w tym gwara policyjna i adwokacka (np. spławik, znęty, sufentanyl, Kidflix, triada Macdonalda itd.)
  • pojęcia związane z giełdą, obrotem aktywami finansowymi i analizą techniczną
  • pojęcia związane ze świadomym rozwojem kariery, budową własnej firmy, zarządzaniem (w tym tematy specyficzne dla kilkunastu branż, np. logistyki czy HoReCa), prawem pracy, mobbingiem, związkami zawodowymi itp.
  • pojęcia związane z opieką i wychowaniem dzieci (z podziałem na wiek)
  • pojęcia związane z motoryzacją (w tym tematyka samochodów elektrycznych, sportów wyścigowych w różnych klasach, wypadków samochodowych, prawa drogowego, polskich sieci dealerskich i standardów testowania nowych aut)
  • pojęcia związane z różnymi aspektami bezpieczeństwa IT (technicznymi, formalno-prawnymi i karierą w tej branży)

słownictwo i frazy stosowane w artykułach z różnych dziedzin

O ile dane słownikowe pozwalają wychwycić z tekstu, jakich osób, firm, narzędzi itp. on dotyczy, o tyle bardziej ogólne sformułowania (np. “pod wpływem”) pozwalają “skleić” pojedyncze zidentyfikowane obiekty w większą całość o zrozumieć sens artykułu. Składają się na nie:

  • frazy ogólne, wskazujące na czynności opisywane w artykule
  • frazy wskazujące na przekaz emocjonalny (np. makabryczny [wypadek], tuż za [podium])

Przykładowo, zupełnie innego języka używa się w artykułach: