Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

Jak w Polskie.AI konstruujemy modele analityczne?


Podstawą zakwalifikowania analizowanego tekstu do takiej lub innej kategorii jest występowanie w nim określonych fraz, sformułowań, nazw własnych i innych konstrukcji językowych. Na podstawie natężenia takich elementów określamy dziedzinę artykułu (np. motoryzacja, gry komputerowe, przestępstwa z użyciem noża itd.) i jego wymowę (np. rozstania celebrytów).

Z jakich elementów składa się model analityczny

Ogólnie rzecz biorąc, nasze modele analityczne składają się z części twardej, obejmującej dane słownikowe, oraz miękkiej, czyli fraz i sformułowań typowych dla samego języka polskiego.

dane słownikowe

nazwiska

W większości modeli mamy podział na Polaków i obcokrajowców. Przykładowe słowniki:

  • politycy
  • sportowcy (z podziałem na dyscypliny)
  • dziennikarze (z podziałem na tematykę, np. polityczni, technologiczni, pogodynki itd.)
  • muzycy
  • kabareciarze i standuperzy
  • aktorzy i inne osoby związane z przemysłem filmowym
  • zawodowi influencerzy
  • osoby znane z bycia znaną (byłe i obecne partnerki celebrytów, półprofesjonalne modelki itd.)
  • znani specjaliści w różnych dziedzinach (np. lekarze wypowiadający się w mediach)
  • osoby zajmujące wysokie stanowiska w różnych branżach (np. kierownictwo policji)
  • rodziny królewskie i osoby mocno związane z monarchią w różnych krajach (z naciskiem na UK)
  • znani mordercy z całego świata (również ich pseudonimy, obcokrajowcy z podziałem na kontynenty, a w Europie na kraje)
  • osoby związane z konfliktem Rosji z Ukrainą (z podziałem na kraje i rodzaj – znane ofiary, decydenci, inne osoby znane z nazwiska lub pseudonimu, uzupełniane na bieżąco)
nazwy własne
  • nazwy firm
  • nazwy klubów sportowych
  • nazwy leków (z podziałem na typy dolegliwości, np. osobno Remeron i Molnupiravir)
  • tytuły filmów i seriali z podziałem na gatunki (np. filmy z Jamesem Bondem)
  • nazwy znanych zespołów muzycznych
  • nazwy imprez regionalnych z powiatów w całej Polsce
  • nazwy broni i technologii wojskowych (z podziałem na wykorzystujące je państwa)
  • modele dronów (z podziałem na klasy zastosowań i kraje)
  • marki i modele samochodów
  • nazwy gier komputerowych i innych (np. planszowych), ich wydawców, nazwiska ważnych osób, nazwy postaci z gier itd.
słownictwo branżowe

Dla wielu branż w wersji formalnej i potocznej. Przykładowe słowniki:

  • pojęcia z Kodeksu karnego (np. klasyfikacja przestępstw)
  • pojęcia z Kodeksu postępowania karnego (np. związane ze składaniem i wiarygodnością zeznań)
  • pojęcia związane ze służbą w formacjach mundurowych, kryminalistyką i szczegółami dot. różnego rodzaju przestępstw, w tym gwara policyjna i adwokacka (np. spławik, znęty, sufentanyl, Kidflix, triada Macdonalda itd.)
  • pojęcia związane z giełdą, obrotem aktywami finansowymi i analizą techniczną
  • pojęcia związane ze świadomym rozwojem kariery, budową własnej firmy, zarządzaniem (w tym tematy specyficzne dla kilkunastu branż, np. logistyki czy HoReCa), prawem pracy, mobbingiem, związkami zawodowymi itp.
  • pojęcia związane z opieką i wychowaniem dzieci (z podziałem na wiek)
  • pojęcia związane z motoryzacją (w tym tematyka samochodów elektrycznych, sportów wyścigowych w różnych klasach, wypadków samochodowych, prawa drogowego, polskich sieci dealerskich i standardów testowania nowych aut)
  • pojęcia związane z różnymi aspektami bezpieczeństwa IT (technicznymi, formalno-prawnymi i karierą w tej branży)

słownictwo i frazy stosowane w artykułach z różnych dziedzin

O ile dane słownikowe pozwalają wychwycić z tekstu, jakich osób, firm, narzędzi itp. on dotyczy, o tyle bardziej ogólne sformułowania (np. “pod wpływem”) pozwalają “skleić” pojedyncze zidentyfikowane obiekty w większą całość o zrozumieć sens artykułu. Składają się na nie:

  • frazy ogólne, wskazujące na czynności opisywane w artykule
  • frazy wskazujące na przekaz emocjonalny (np. makabryczny [wypadek], tuż za [podium])

Przykładowo, zupełnie innego języka używa się w artykułach: