To, da se da s ChatGPT ustvarjat precej kakovostne in zanimive vsebine je verjetno že precej old news. Le par mesecev po izidu gpt orodja za širšo javnost je ogromno procesov, vsebin, študij in stotine drugih formatov že sestavljeno s pomočjo, ali pa izključno s tem orodjem.
Kot posledica, so se seveda pojavila tudi orodja za detekcijo vsebin ustvarjenih z AI orodji. Pa me je zanimalo, kako dobra tudi dejansko so.
In sem dal dva na preizkus.
Prvi, katerega delovanje sem stestiral, je AI classifier, dejansko orodje, ki ga je naredilo podjetje OpenAI. In ZeroGPT, ki se med Google zadetki za “gpt detection tool” organsko pojavi na prvem mestu, in je eno redkih orodij, ki nima omejitve znakov na neke res noro nizke številke.
Testiral sem dva strokovna teksta. Blog zapisa o igrifikaciji.
Enega sem pred skoraj štirimi leti napisal sam na “klasičen” način. Research, prebiranje gradiv, priprava strukture, priprava related vsebine in outbound linkov, pisanje, revidiranje, prevod, objava. Naslov zapisa je “Igrifikacija: ultimativni vodič“. Izbral sem ga zato, ker sem takrat pisal še precej slabše kot danes in ker je zelo dolg, da je input v gpt čim bolj bogat.
Drugega sem prejšnji teden za potrebe testa ustvaril z orodjem GPT-4. Naslov zapisa je “How to use Gamification as Engagement & Retention Tool in a mobile application“. Gre za še precej daljši zapis kot je vodič po igrifikaciji.
Kako točno sem se lotil pisanja?
Najprej sem gptju dodelil vlogo, da ve, kaj naj sploh dela.
You're a researcher and an editor. You are helping me write a thesis. Your job is to provide me with clear and structured data, content, and examples on a given topic.
Nato sem mu povedal kaj točno delam oz pišem.
I'm writing a thesis on gamification as a layer inside of a health monitoring app. It's a mobile app targeting users who want to improve their emotional health. The gamification layer inside the app will serve as an engagement glue to retain more users, make app more enjoyable and pleasant. Write all the possible gamification ideas, mechanics and tactics you can come up with to lay out a plan for gamification inside a health monitoring app. I know a lot on gamification so you can be specific, try to avoid generic and trivial ideas or examples. Are there any other info I did not present and would make your output even better?
Ko je vrnil prvo obliko besedila, sem ga usmeril naprej.
Now I would like you to really elaborate and explain in detail the first point Personalized Avatar. What to do, how to do it, and include some real-life examples so I can understand this in detail.
Pristop sem nato ponovil za vse glavne naslove teme (6x), ki jih v prvem tekstu samo navedel in kratko opisal. Za vsako tamatiko sem nato prejel veliko bolj bogat odgovor.
Outpute sem ročno preoblikoval do te mere, da sem spremenil določena ponavljanja, ki se jih je občasno poslužil. Večkrat sem ga prosil za dodatne primere iz prakse in drugačno predstavitev teh primerov. Določene odseke sem kopiral in gpt prosil naj jih preoblikuje.
Can you rephrase this paragraph. This category overview will serve as a base for a further deeper understanding of what each gamification category can achieve. In the second chapter, each of the categories is presented in greater specifics and includes real life examples.
Na koncu sem ga prosil naj napiše še uvod v zapis in obogati uvode določenih poglavij.
Can you write a short intro into this main article. Start with "In this document, I will present ..."
Na koncu je bilo dejanske spisane vsebine manj kot četrtina vsega teksta. Vse ostalo je napisal gpt. Določeni odstavki so bili precej preoblikovani, nekateri čisto nič.
Verjetno je fino izpostavit oz imet v mislih tri stvari pri tem, kako sem se lotil priprave vsebine:
- da je to tema s katero se profesionalno ukvarjam več kot pet let in jo relativno dobro poznam,
- zato recimo da zaznam nejasnosti, nelogičnosti in vsebinske nesmisle, ki jih seveda naredi v določenih kontekstih. Vse outpute preberem, revidiram in gptju povem, katera vsebina ni ustrezna, oz premalo strokovna, ali pa kaj od napisano enostavno ni logično in vsebnsko smiselno. Včasih določeno iterriranje odstavkov ali poglavij traja tudi po tri, štiri, pet izmenjav, preden je output zadovoljiv,
- in še, da sem se zadnjih par mesecev v službi precej intenzivno ukvarjal z razvojem promptanja in načinom dela z gptjem. Z ekipo smo namreč razvili in lansirali dva nišna orodja ravno na chatGPT-ju. (sicer 3.5 turbo, ker api dostop za 4 še čakamo), Birthdai Cards in soon to be know generator.
❗️ DISCLAMIER: Niti približno mi še ni jasno kako točno vse skupaj v ozadju gptja deluje in kakšna je moč, ki se jo da stistnit oz dobit iz znanja, ki ga poseduje. Ampak se učim. Nekaj stvari sem ob delu na Birthdai Cards orodju in še enem, ki še ni public, pa vendarle naučil in jih uporabil tudi v tem eksperimentu.
Ena večjih ugotovitev, ki sem jo dojel v zadnjih mesecih, in ki bi po mojem, še precej izboljšala outuput, ki ga vrne gpt je ta, da bi bilo pametno zgradit oz imet svoj micro-languge model. “Personalised LLM”, ki bi seveda slonel na gpt-ju, ampak bil “omejen in dodatno podučen” o vsemu contentu neke industrije. Da bi to industrijo še bolj v detajle razumel in poznal žargon, uzance, logične povezave, primere, ljudi, trende … you name it.
Na ta način bi bil še bolj uporaben pomočnik pri pripravi vsebin za različne namene.
Če imaš tudi ti kak trik ali tip kako prompte še izboljšat bom vesel namigov v komentarjih.
Rezultati testiranja AI orodij za prepoznavanje besedil AI classifier in ZeroGPT
Torej, AI classifier je orodje, ki ga je zgradila ista ekipa kot GP. To bi v osnovi moralo pomenit, da bi classifier moraj precej uspešno prepoznati vzorce in elemente, ki jih ustvarja. Ampak je v praksi vse prej kot tako.
Obe besedili (napisan in gpt zgeneriran) sta poskušali odkljukati čim več točk, da bi orodje lahko čim bolj jasno naredilo oceno:
- Besedili sta daljši, preceeeej daljši, od 1000 znakov, kar je minimalen pogoj za ugotavljanje,
- sta v angleškem jeziku, v katerem klasifikator deluje najbolje, in
- nista sestavljeni iz števil, ampak iz jasnih misli in s ciljem predstavitve tematike.
Torej, kot sem omenil sem testiral dve besedili.
Eno, napisano pred skoraj štirimi leti “Igrifikacija: ultimativni vodič“, ko še nismo imeli pojma o tem, kako bomo 2023 pisali content 🙂 in
eno, ki je bilo ustvarjeno pred tedom, skoraj v celoti z orodjem GPT-4. Na roke napisanega besedila je, čez prst, manj kot četrtina. Vse ostalo je malo ali nič oblikovan tekst, ki ga je spisal gpt.
Pri ročnem besedilu se obe orodji še kar odrežeta. AI classifier na prvi pogled bolje od ZeroGPTja, ampak je njuno oceno težko primerjati, saj jo classifier izrazi z besedo “Very Unlikely”, ni pa podatka koliko stopenj oz s kolikor opisnimi ocenami lahko classifier postreže/razpolaga. ZeroGPT pa oceno prikaže v odstotkih.
V mojem primeru se je torej ZeroGPT zmotil, saj je za besedilo, ki je nastalo brez uporabe ai orodij ocenil, da je del ustvarjen z njimi. Če je npr classifierjeva ocena very unlikely enaka “to ni ai besedilo” potem je z oceno zadel, če pa obstaja še kakšna verzija npr “def not ai generated” potem, pa bi rezultat lahko enačili z rezultatom ZeroGPTja.
PS: Kdo ve, ali obstaja kakšna razlaga, lestvica teh ocen?
In pa še test besedila, ki ga je v večini ustvaril GPT4 z nekaj manjšimi popravki, ki sem jih naredil na nekaterih delih.
Pri dejanskem AI generiranem tekstu pa pogrneta obe orodji. Če ZeroGPT prepozna vsaj nekaj elementov ai besedila, tega ne moremo reči za AI classifier. Kar je zanimivo, če vemo, da gre za orodje ekipa OpenAI, ki je ustvarila GPT-4, ki je v celoti ustvarilo to besedilo.
Varovalke za prepoznavanje AI besedil so torej še precej slabe. Bo pa zanimivo spremljati ali bo hitrejši razvoj detekorjev ali ai logike kot take, ki se bo znala izogniti samonadzoru.
Al pa se že zna. Kar bi lahko bil eden izmed zaključkov eksperimenta.
Who knows 🤷♂️