Szanse i zagrożenia dla rozwoju biznesu AI w Polsce


O rozwoju systemów AI, jak i biznesów opartych o AI, mówi się na całym świecie od lat. Jednak przez ostatnie pół roku, tj. od momentu uruchomienia ChatGPT, dyskusje te się bardzo wzmogły – o ile wcześniej była to bardzo obiecująca ciekawostka, to teraz w końcu zaczęło to być postrzegane jako konieczność. Do tego dziejąca się tu i teraz. Zastanówmy się więc, jak wyglądają perspektywy rozwoju takiego biznesu w Polsce.

modele biznesu opartego na AI

Przede wszystkim wprowadźmy 2 podstawowe rozróżnienia:

  1. Czy przez “AI” mamy na myśli ChatGPT i uzależnienie od usług OpenAI? Czy też budowę własnych mechanizmów (niekoniecznie modeli LLM) od podstaw?
  2. Czy mówimy o biznesie typu AI software house, czyli pisaniu aplikacji opartych o AI, albo dostarczaniu innych usług specjalistycznych opartych o AI na zamówienie? Czy raczej o biznesie, który sam posiada jakieś wartościowe dane (np. zbierane z “realnego” biznesu, np. retailu) i chce na nich zarabiać z użyciem technologii AI?

Zacznijmy od pierwszego rozróżnienia. Nie jest to nic nowego – podobne rozróżnienia istnieją też w innych branżach, np. można być dostawcą właściwych usług hostingowych, który skupia się głównie na serwerach, łączach i technologiach, będąc właścicielem tych technologii – albo można być resellerem usług hostingowych, który jest po prostu pośrednikiem, dostarczającym głównie przekaz marketingowy i (z reguły relatywnie płytkie) usługi eksperckie.

Oczywiście jedno i drugie ma na rynku rację bytu. Własne mechanizmy AI to dużo wyższy próg wejścia, za to dużo większe zyski. Reselling czyichś usług to biznes możliwy do wejścia nawet przez indywidualnych ekspertów, którzy mają dość pracy na etacie – za to tylko ułamek zysków dostawcy i ciągła konieczność podążania za trendami i zmianami, zamiast ich wyznaczania.

Drugie porównanie wydaje się trywialne w zrozumieniu, ale nie do końca takie jest. Otóż w przypadku biznesów typu AI software house, niezależnie od szczegółów typu kto jest czyim klientem lub właścicielem, docelowym beneficjentem tego AI są najczęściej firmy zagraniczne (a dlaczego, to powiemy sobie niżej).

sprzedaż usług opartych o ChatGPT

Reselling i pokrewne modele biznesowe mają bardzo niski próg wejścia – główną trudnością jest dostęp do wiedzy eksperckiej. Ale jeśli ktoś sam tą wiedzę posiada, może bardzo łatwo np.:

Wszystko to są jednak usługi tworzone przez osoby indywidualne lub niewielkie firmy, głównie dla klientów indywidualnych. Nie jest to “prawdziwy biznes AI” w rozumieniu np. istotnego znaczenia dla gospodarki kraju, a po prostu działalność wydawnicza lub usługowa – tyle że prowadzona wokół branży AI. Dlaczego w dalszej części artykułu skupiamy się już tylko na tym “prawdziwym” AI, czyli na budowie własnej technologii.

co hamuje rozwój biznesu AI w Polsce?

TL;DR: prawo i pieniądze.

A wgłębiając się nieco bardziej, naszym zdaniem warto wyróżnić 4 główne problemy:

1. dostęp do danych

Brak dostępu do wartościowych biznesowo danych wejściowych – a więc takich, na których można zbudować jakieś usługi, albo oprzeć jakąś wiedzę, która następnie posłuży do budowania przewagi konkurencyjnej. Np. danych o zachowaniu użytkowników, o wynikach sprzedaży, o wynikach testów jakichś nowych produktów itp.

Dlaczego?

  1. W przypadku biznesów typu AI software house, które nie posiadają żadnych własnych danych:
    • RODO i inne regulacje prawne blokują swobodne pozyskiwanie z Internetu i późniejsze przetwarzanie czegokolwiek, co wiąże się z danymi osobowymi
    • a nawet jeśli uda się mniej oficjalnie pozyskać jakieś “ciekawe” dane, oraz wyuczyć na nich modele, to nadal będzie problem ze sprzedażą usług – wcześniej czy później ktoś zapyta, skąd pochodzi wiedza np. o zarobkach czy zdrowiu konkretnych osób
  2. W przypadku drugiej strony, czyli biznesów mających własne dane (najczęściej pozyskiwane z klasycznego biznesu, np. producenci czegoś, sieci sprzedażowe itp.) – wynagrodzenia w branży data science/data engineering są tak wysokie, że niemal wszystkie naprawdę zaawansowane projekty związane z AI realizowane są dla klientów zagranicznych.
    To, czy taki klient kupuje gotowe usługi software house’u, wynajmuje zespół w formie body leasingu, czy tworzy/kupuje cały software house jako swoją spółkę-córkę, jest już drugorzędne, ponieważ we wszystkich tych przypadkach zarówno dane, jak i wytworzone algorytmy/technologie pozostają wyłączną własnością klienta.
    Jedyne, co zostaje w Polsce, to indywidualne doświadczenie nabywane przez pracowników – ale ono w większości również zostanie spożytkowane na rzecz kolejnych projektów i klientów zagranicznych.
2. koszty infrastruktury IT

To co dzisiaj określamy “AI”, to tak naprawdę przynajmniej kilkanaście całkiem różnych klas algorytmów – od znanych już od lat algorytmów genetycznych czy machine learningu, poprzez robiące w ostatnich latach sieci GAN (Generative Adversarial Network), odpowiedzialne za treści deepfake, aż po najnowszą i najgłośniejszą odsłonę, czyli tzw. wielkie modele językowe (LLM, Large Language Model), na bazie których zbudowany jest np. ChatGPT.

Większość klas algorytmów – wszystkie te, które mają coś generować, a nie tylko analizować i “rozumieć” – mają jednak jedną cechę wspólną: aby osiągnąć sensowny poziom jakości, model musi być bardzo duży. I drogi w przygotowaniu. Tak drogi, że już sam koszt infrastruktury IT potrzebnej do trenowania takich modeli wielokrotnie przekracza możliwości finansowe polskich firm.

Jest jeszcze druga droga: ścisła specjalizacja modelu. Np. model wyłącznie do celów medycznych, który może być dużo mniejszy i wymagać dużo mniej mocy obliczeniowej do treningu, aby osiągnąć porównywalną efektywność w swojej dziedzinie. Tego typu nisze wydają się być jedynym sensownym rozwiązaniem dla polskich firm, które nie chcą być jedynie podwykonawcami dla klientów zagranicznych, ale rozwijać i samodzielnie zarabiać na własnych produktach.

3. koszty pracy

Przygotowanie genetycznych (niespecjalizowanych) modeli LLM to praca dla osób z wielu dziedzin – w szczególności:

  • data science – czyli praca naukowa nad rozwojem algorytmów i zbiorów danych
  • data engineering – czyli programowanie zorientowane na implementację algorytmów wymyślonych przez data science, optymalizacje wydajnościowe itp.
  • klasycznych programistów aplikacji frontendowych
  • devopsów (modele LLM mają pod spodem klaster Kubernetes złożony z ponad 7500 serwerów)
  • pracowników “wykonawczych” zajmujących się rozwojem zbiorów danych wg wytycznych od data science – głównie tzw. labellingiem, czyli ręcznym opisywaniem tekstów i fraz różnymi etykietami i liczbami, podpowiadającymi algorytmom znaczenie treści (np. tego, że dana fraza w konkretnym kontekście oznacza coś pozytywnego, a w innym negatywnego, czy wręcz niebezpiecznego)
  • moderatorów zajmujących się weryfikacją na bieżąco treści generowanych przez ChatGPT, które zostały wstępnie oznaczone przez sam algorytm jako “podejrzane” (gdzie sam algorytm nie zdołał jednak podjąć decyzji)

Niestety tutaj, dla odmiany, im bardziej specjalizowany model, tym więcej pracy wymaga nad przygotowaniem zbiorów danych dobrej jakości. A jeśli model ma operować na języku polskim, to tym bardziej pracownicy wykonawczy muszą być Polakami i “czuć” język polski, a nie tylko znać go jako język obcy.

To zaś oznacza, że im bardziej będą w Polsce rosnąć płace (minimalna i nie tylko), tym trudniej – przy założeniu tych samych budżetów – będzie polskim firmom zapewnić właściwą jakość modeli – a tym samym skutecznie konkurować jakościowo z usługami firm zagranicznych.

4. otoczenie prawne

Polskie prawo w zasadzie uniemożliwia skuteczną konkurencję cenową z firmami zagranicznymi:

  • sprzęt IT firm amerykańskich, nawet jeśli produkowany lokalnie albo w Chinach/Malezji, jest efektywnie droższy niż w USA
  • do tego dochodzi podatek VAT
  • praca jest generalnie droższa (zarówno w sektorze data science/data engineering, jak i pracownicy wykonawczy za sprawą płacy minimalnej)
  • państwo niezwykle ostrożnie inwestuje w przyszłościowe branże takie jak AI – kryteria programów organizowanych przez NCBR (do 50% wydatków kwalifikowalnych, zwracane po dłuższym czasie) właściwie eliminują małe firmy tworzone przez specjalistów, które mają doświadczenie technologiczne, pomysł i dostęp do wartościowych danych, ale nie dysponują kapitałem
  • wiele różnych przepisów branżowych jest generalnie ostrzejszych, niż ich odpowiedniki w USA czy Chinach – przez co w tych krajach jest po prostu łatwiej wpleść usługi AI w tą czy inną branżę

co powinno się zmienić w polskim prawie, aby Polska mogła zostać znaczącym graczem na rynku AI?

Tak naprawdę zmienić trzeba bardzo niewiele – przynajmniej z punktu widzenia ilości przepisów do zmiany. Mamy jednak wątpliwości, czy obecny rząd byłby tym zainteresowany…

1. RODO

Ochrona danych jest potrzebna, ale RODO jest naszym zdaniem mocno nadmiarowe. Dużo przyjaźniejszym dla biznesu podejściem do ochrony danych jest system amerykański, w którym:

  • podstawowe dane osobowe i adresowe, oraz te, które można samodzielnie wywnioskować nt. użytkownika na podstawie danych ogólnie dostępnych – nie są w żaden sposób chronione
  • metadane związane z ruchem internetowym (np. to w jaki sposób ktoś przegląda podstrony sklepu internetowego) też nie są chronione – można więc swobodnie targetować użytkowników i korelować wiedzę pozyskaną z różnych źródeł
  • chronione są dopiero dane, które RODO nazywa “wrażliwymi” – np. dane medyczne są chronione przez przepisy HIPAA (Health Insurance Portability and Accountability Act)

Dzięki takiemu podejściu przeciętny obywatel USA nie jest po kilka-kilkanaście razy dziennie zasypywany przez różne firmy pytaniami o zgodę na przetwarzanie danych adresowych (np. przy okazji zwykłych zakupów). Co za tym idzie, nie przyzwyczaja się do takich pytań i nie traktuje ich jako nużącego obowiązku.

Natomiast z punktu widzenia firm – i to nie tylko zajmujących się AI – uwolnienie “zwykłych” danych bardzo ułatwiłoby zbieranie wszelkiego rodzaju danych i szukanie własnego modelu biznesowego.

2. dofinansowanie infrastruktury IT

Zamiast obecnych form dofinansowania przez Fundusze Europejskie, dużo lepszym pomysłem byłoby po prostu oferowanie firmom z branż uznanych za przyszłościowe i warte inwestycji, usług cloudowych z dofinansowaniem rzędu 95-99%. Czyli:

  • zakwalifikowana firma nie musi posiadać i blokować własnego kapitału – a przede wszystkim nie ma ryzyka, że jakiemuś urzędnikowi coś się nie spodoba i zablokuje lub wydłuży zwrot środków
  • infrastruktura cloudowa nie należy do firmy, firma dostaje jedynie moc obliczeniową
  • wkład własny 1-5% nadal motywuje do tego, aby jednak kontrolować wykorzystanie zasobów
  • dodatkowym warunkiem może być konkretny cel, związany z rozwojem AI jako takim – np. tylko trenowanie modeli LLM (lub podobnie sformułowany), ale hosting strony www i poczty już nie

Dofinansowanie takie można łatwo zrealizować zarówno na bazie chmury krajowej, jak i dowolnego dostawcy usług cloudowych (Amazon Web Services, Microsoft Azure, Google Cloud), na zasadzie kodów jednorazowych do wpisania w panelu billingowym – dla większego bezpieczeństwa mogłyby być przekazywane np. co miesiąc albo co kwartał.

3. prawo autorskie i różne przepisy branżowe (opcjonalnie)

Analogicznie jak w przypadku RODO, warto zastanowić się nad poluzowaniem przepisów o prawie autorskim tak, aby:

  • materiały objęte prawem autorskim (lub dowolnymi innymi regulacjami branżowymi, na mocy dowolnej ustawy, ew. z wyjątkiem państwowych informacji niejawnych) mogły być używane bez niczyjej zgody w procesie trenowania modeli – np. do nauki rozpoznawania konkretnych fraz i sformułowań w tekście
  • ograniczeniami takimi jak dotychczas, było objęte jedynie dalsze udostępnianie konkretnej wiedzy (czyli oryginalnych materiałów w całości, albo ich istotnych fragmentów)

Przykładowo jeśli stworzymy model piszący nowe teksty piosenek w stylu danego zespołu (np. Queen), to:

  • wyuczenie go kompletem tekstów piosenek Queen, oraz dla porównania w ogóle całą muzyką świata, powinno być możliwe bez niczyjej zgody, ani kosztów
  • piosenki generowane przez taki model, aby być wolne od praw autorskich, nie powinny mieć fragmentów tekstu pokrywających się z realnymi tekstami Queen, dłuższych od np. 3 do 5 słów
  • model, który nie pisze nowych tekstów, ale jedynie rozpoznaje potencjalnych autorów na podstawie podanych fragmentów tekstu (gdzie zwykłe dopasowanie 1:1 nie wystarcza), powinien być całkowicie wolny od praw autorskich
4. partnerstwo publiczno-prywatne (opcjonalne)

Podmioty państwowe (w tym też np. samorządowe i podobne) posiadają całą masę różnych wartościowych danych, które można by wykorzystać również na inne sposoby.

Przykładowo, dane o “klientach” MOPS (Miejskich Ośrodków Pomocy Społecznej) można by wykorzystać do stworzenia dużo szczelniejszego scoringu finansowego osób wnioskujących o różnego rodzaju kredyty, zakupy ratalne, ubezpieczenia itp.

Oczywiście aby było to możliwe, konieczna jest zgoda państwa. Można jednak pomyśleć o takim modelu współpracy państwa z firmą pragnącą rozwijać jakąś konkretną usługę, który zapewni obopólne korzyści – co więcej, podejścia do takiej współpracy miały już miejsce i modele współpracy jako takiej zostały już wypracowane. Pozostaje więc tylko kwestia właściwej zgody na wykorzystanie konkretnych danych.

czy są jakieś inne możliwości?

Będąc realistami obawiamy się, że rozwój AI nie jest dla polskiego rządu priorytetem i ani zmiany takie, jak zaproponowaliśmy wyżej, ani żadne inne obliczone stricte na rozwój branży AI, nie będą wprowadzane. Wręcz można się spodziewać kierunku przeciwnego, tj. działań nakierowanych na ochronę rynku pracy za cenę utrudnień w rozwoju AI. Już teraz coś takiego dzieje się we Włoszech, tyle że pod pozorem troski o ochronę danych osobowych.

Dlatego też naszym zdaniem, polski biznes powinien (co do zasady) odpuścić sobie rozwój własnych modeli LLM, a skupić się na tych klasach algorytmów, które związane są z analizą i rozumieniem treści (zwłaszcza w językach innych niż angielski), zamiast ich generowania.

Tylko w ten sposób, zamiast ciągle gonić USA i Chiny, będąc o kilka kroków do tyłu i konkurując niższymi cenami, mamy realne szanse zbudować równorzędną konkurencję…