Wat is KI-voorverwerking?

Kort antwoord: KI-voorverwerking is 'n stel herhaalbare stappe wat rou, hoë-variansie data omskakel in konsekwente modelinsette, insluitend skoonmaak, kodering, skalering, tokenisering en beeldtransformasies. Dit maak saak, want as opleidingsinsette en produksieinsette verskil, kan modelle stilweg faal. As 'n stap parameters "leer", pas dit slegs op opleidingsdata om lekkasie te vermy.

KI-voorverwerking is alles wat jy aan rou data doen voor (en soms tydens) opleiding of afleiding sodat 'n model eintlik daaruit kan leer. Nie net "skoonmaak" nie. Dit is die skoonmaak, vorming, skalering, kodering, uitbreiding en verpakking van data in 'n konsekwente voorstelling wat jou model later nie stilweg sal laat struikel nie. [1]

Belangrike wegneemetes:

Definisie : Voorverwerking skakel rou tabelle, teks, beelde en logs om na modelgereed funksies.

Konsekwentheid : Pas dieselfde transformasies toe tydens opleiding en inferensie om wanpassingsfoute te voorkom.

Lekkasie : Pas skaleerders, enkodeerders en tokeniseerders slegs op opleidingsdata.

Reproduceerbaarheid : Bou pyplyne met inspekteerbare statistieke, nie ad-hoc notaboekselreekse nie.

Produksiemonitering : Spoor skeefheid en drywing op sodat insette nie geleidelik prestasie ondermyn nie.

Artikels wat jy dalk na hierdie een wil lees:

🔗 Hoe om KI-modelle vir werklike prestasie te toets
Praktiese metodes om akkuraatheid, robuustheid en vooroordeel vinnig te evalueer.

🔗 Is teks-na-spraak KI en hoe werk dit?
Verduidelik die basiese beginsels van TTS, die belangrikste gebruike en algemene beperkings vandag.

🔗 Kan KI vandag lopende handskrif akkuraat lees
Dek herkenningsuitdagings, beste gereedskap en akkuraatheidswenke.

🔗 Hoe akkuraat is KI oor algemene take
Breek akkuraatheidsfaktore, maatstawwe en werklike betroubaarheid af.

KI-voorverwerking in gewone taal (en wat dit nie is nie) 🤝

KI-voorverwerking is die transformasie van rou insette (tabelle, teks, beelde, logs) in modelgereed funksies. As rou data 'n deurmekaar motorhuis is, is voorverwerking dat jy die bokse etiketteer, stukkende rommel weggooi en goed stapel sodat jy eintlik sonder beserings daardeur kan loop.

Dis nie die model self nie. Dis die goed wat die model moontlik maak:

omskakeling van kategorieë in getalle (een-hot, ordinaal, ens.) [1]
skaal van groot numeriese reekse na gesonde reekse (standaardisering, min-maks, ens.) [1]
tokenisering van teks in invoer-ID's (en gewoonlik 'n aandagmasker) [3]
die grootte/sny van beelde en die toepas van deterministiese teenoor ewekansige transformasies [4]
bou herhaalbare pyplyne sodat opleiding en "regte lewe" insette nie op subtiele maniere verskil nie [2]

Een klein praktiese noot: "voorverwerking" sluit in wat ook al konsekwent gebeur voordat die model die invoer sien . Sommige spanne verdeel dit in "funksie-ingenieurswese" teenoor "data-skoonmaak", maar in die werklike lewe vervaag daardie lyne.

Waarom KI-voorverwerking meer saak maak as wat mense erken 😬

'n Model is 'n patroonooreenstemmingsmeganisme, nie 'n gedagteleser nie. As jou insette teenstrydig is, leer die model teenstrydige reëls. Dis nie filosofies nie, dis pynlik letterlik.

Voorverwerking help jou:

Verbeter leerstabiliteit deur kenmerke in voorstellings te plaas wat beramers betroubaar kan gebruik (veral wanneer skalering/kodering betrokke is). [1]
Verminder geraas deur die morsige werklikheid te laat lyk soos iets waaruit 'n model kan veralgemeen (in plaas daarvan om vreemde artefakte te memoriseer).
Voorkom stille mislukkingsmodusse soos lekkasies en trein/bedien-wanpassings (die soort wat "verstommend" lyk in validering en dan in produksie voorkom). [2]
Versnel iterasie want herhaalbare transformasies klop notaboek-spaghetti elke dag van die week.

Ook, dis waar baie van "modelprestasie" eintlik vandaan kom. Soos ... verbasend baie. Soms voel dit onregverdig, maar dis die werklikheid 🙃

Wat maak 'n goeie KI-voorverwerkingspyplyn ✅

'n "Goeie weergawe" van voorverwerking het gewoonlik hierdie eienskappe:

Reproduceerbaar : dieselfde invoer → dieselfde uitvoer (geen geheimsinnige willekeurigheid tensy dit opsetlike vergroting is).
Treinbedieningskonsekwentheid : wat jy ook al doen tydens opleidingstyd word op dieselfde manier toegepas tydens inferensietyd (dieselfde gepaste parameters, dieselfde kategoriekaarte, dieselfde tokeniseerderkonfigurasie, ens.). [2]
Lekkasie-veilig : niks in evaluering/toetsing beïnvloed enige passtap nie. (Meer oor hierdie lokval later.) [2]
Waarneembaar : jy kan inspekteer wat verander het (funksiestatistieke, ontbrekendes, kategorietellings) sodat ontfouting nie vibrasie-gebaseerde ingenieurswese is nie.

As jou voorverwerking 'n stapel notaboekselle genaamd final_v7_really_final_ok … weet jy hoe dit is. Dit werk totdat dit nie meer werk nie 😬

Kernboustene van KI-voorverwerking 🧱

Dink aan voorverwerking as 'n stel boustene wat jy in 'n pyplyn kombineer.

1) Skoonmaak en validering 🧼

Tipiese take:

verwyder duplikate
hanteer ontbrekende waardes (laat vaar, toereken of verteenwoordig ontbrekende waardes eksplisiet)
dwing tipes, eenhede en reekse af
opspoor wanvormde invoere
standaardiseer teksformate (witspasies, hoofletters, Unicode-eienaardighede)

Hierdie deel is nie glansryk nie, maar dit voorkom uiters dom foute. Ek sê dit met liefde.

2) Enkodering van kategoriese data 🔤

Die meeste modelle kan nie direk rou stringe soos "rooi" of "premium_gebruiker" .

Algemene benaderings:

Een-warm kodering (kategorie → binêre kolomme) [1]
Ordinale kodering (kategorie → heelgetal-ID) [1]

Die belangrikste ding is nie watter kodeerder jy kies nie – dit is dat die kartering konsekwent bly en nie "van vorm verander" tussen opleiding en inferensie nie. Dit is hoe jy uiteindelik 'n model kry wat goed lyk vanlyn en aanlyn spookagtig optree. [2]

3) Funksieskalering en normalisering 📏

Skalering maak saak wanneer kenmerke op heeltemal verskillende reekse voorkom.

Twee klassieke:

Standaardisering : verwyder gemiddelde en skaal na eenheidsvariansie [1]
Min-maks skalering : skaal elke kenmerk in 'n gespesifiseerde reeks [1]

Selfs wanneer jy modelle gebruik wat "meestal hanteer", maak skalering dit dikwels makliker om oor pyplyne te redeneer - en moeiliker om per ongeluk te breek.

4) Funksie-ingenieurswese (ook bekend as nuttige bedrog) 🧪

Dit is waar jy die model se werk makliker maak deur beter seine te skep:

verhoudings (klikke / vertonings)
rolvensters (afgelope N dae)
tellings (gebeurtenisse per gebruiker)
logtransformasies vir swaarstertverdelings

Daar is 'n kuns hier. Soms skep jy 'n artikel, voel trots ... en dit doen niks. Of erger, dit maak seer. Dis normaal. Moenie emosioneel geheg raak aan artikels nie - hulle is nie terug lief vir jou nie 😅

5) Data op die regte manier verdeel ✂️

Dit klink voor die hand liggend totdat dit nie is nie:

ewekansige splitsings vir iid-data
tydgebaseerde splitsings vir tydreekse
gegroepeerde splitsings wanneer entiteite herhaal (gebruikers, toestelle, pasiënte)

En van kardinale belang: verdeel voor pasmaak van voorverwerking wat uit data leer . As jou voorverwerkingstap parameters "leer" (soos middele, woordeskat, kategoriekaarte), moet dit dit slegs uit opleiding leer. [2]

KI-voorverwerking volgens datatipe: tabelvorm, teks, beelde 🎛️

Voorverwerking verander vorm afhangende van wat jy die model voer.

Tabeldata (sigblaaie, logboeke, databasisse) 📊

Algemene stappe:

strategie vir ontbrekende waarde
kategoriese kodering [1]
skalering van numeriese kolomme [1]
uitskieterhantering (domeinreëls klop "willekeurige knip" meestal)
afgeleide kenmerke (aggregasies, vertragings, rollende statistieke)

Praktiese raad: definieer kolomgroepe eksplisiet (numeries vs. kategories vs. identifiseerders). Jou toekomstige self sal jou bedank.

Teksdata (NLP) 📝

Teksvoorverwerking sluit dikwels die volgende in:

tokenisering in tokens/subwoorde
omskakeling na invoer-ID's
opvulling/afkorting
bou aandagmaskers vir groepering [3]

Klein reëltjie wat pyn bespaar: vir transformator-gebaseerde opstellings, volg die model se verwagte tokeniseerder-instellings en moenie vrystyl nie, tensy jy 'n rede het. Vrystyl is hoe jy eindig met "dit oefen, maar dis vreemd"

Beelde (rekenaarvisie) 🖼️

Tipiese voorverwerking:

verander grootte / sny na konsekwente vorms
deterministiese transformasies vir evaluering
ewekansige transformasies vir opleidingsvergroting (bv. ewekansige snywerk) [4]

Een detail wat mense mis: "ewekansige transformasies" is nie net 'n vibrasie nie - hulle neem letterlik parameters elke keer as hulle geroep word. Uitstekend vir die opleiding van diversiteit, verskriklik vir evaluering as jy vergeet om die ewekansigheid af te skakel. [4]

Die lokval waarin almal trap: data-lekkasie 🕳️🐍

Lekkasie is wanneer inligting van evalueringsdata in opleiding insluip – dikwels deur voorverwerking. Dit kan jou model magies laat lyk tydens validering, en jou dan in die werklike wêreld teleurstel.

Algemene lekkasiepatrone:

skalering met behulp van volledige datastelstatistieke (in plaas van slegs opleiding) [2]
bou kategoriekaarte deur saam trein+toets te gebruik [2]
enige fit() of fit_transform() stap wat die toetsstel “sien” [2]

Duimreël (eenvoudig, brutaal, effektief):

Enigiets met 'n fiks stap behoort slegs fiks te wees tydens oefening.
Dan transformeer validering/toetsing met behulp van daardie gepaste transformator. [2]

En as jy 'n "hoe erg kan dit wees?"-gedagte wil hê: scikit-learn se eie dokumente wys 'n voorbeeld van 'n lekkasie waar 'n verkeerde voorverwerkingsvolgorde 'n akkuraatheid van ongeveer 0.76 op ewekansige teikens lewer - dan daal dit terug na ~ 0.5 sodra die lekkasie reggestel is. Dit is hoe oortuigend verkeerde lekkasie kan lyk. [2]

Kry voorverwerking in produksie sonder chaos 🏗️

Baie modelle misluk in produksie nie omdat die model "sleg" is nie, maar omdat die insetrealiteit verander - of jou pyplyn verander.

Produksiegerigte voorverwerking sluit gewoonlik in:

Gestoorde artefakte (enkodeerder-kartering, skaalparameters, tokeniseerder-konfigurasie) sodat inferensie presies dieselfde aangeleerde transformasies gebruik [2]
Streng invoerkontrakte (verwagte kolomme/tipes/reekse)
Monitering vir skeefheid en drywing , want produksiedata sal afdwaal [5]

As jy konkrete definisies wil hê: Google se Vertex KI Model Monitoring onderskei opleidings-bedieningsskeefheid (produksieverspreiding wyk af van opleiding) en inferensie-drywing (produksieverspreiding verander oor tyd), en ondersteun monitering vir beide kategoriese en numeriese kenmerke. [5]

Want verrassings is duur. En nie die prettige soort nie.

Vergelykingstabel: algemene voorverwerkings- + moniteringsinstrumente (en vir wie hulle is) 🧰

Gereedskap / biblioteek	Beste vir	Prys	Hoekom dit werk (en 'n bietjie eerlikheid)
scikit-leer voorverwerking	Tabulêre ML-pyplyne	Gratis	Vaste kodeerders + skaleerders (OneHotEncoder, StandardScaler, ens.) en voorspelbare gedrag [1]
Drukkende Gesig-tokeniseerders	NLP-invoervoorbereiding	Gratis	Produseer invoer-ID's + aandagmaskers konsekwent oor lopies/modelle heen [3]
fakkelvisie transformeer	Visie transformeer + versterk	Gratis	Skoon manier om deterministiese en ewekansige transformasies in een pyplyn te meng [4]
Vertex KI-modelmonitering	Drift-/skeefopsporing in produk	Betaal (wolk)	Monitore beskik oor skeefheid/drywing en waarskuwings wanneer drempels oorskry word [5]

(Ja, die tabel het steeds menings. Maar ten minste is dit eerlike menings 😅)

'n Praktiese voorverwerkingskontrolelys wat jy eintlik kan gebruik 📌

Voor opleiding

Definieer 'n invoerskema (tipes, eenhede, toegelate reekse)
Oudit ontbrekende waardes en duplikate
Verdeel data op die regte manier (lukraak / tydgebaseerd / gegroepeer)
Pas voorverwerking slegs tydens opleiding ( fit / fit_transform bly op trein) [2]
Stoor voorverwerkingsartefakte sodat inferensie dit kan hergebruik [2]

Tydens opleiding

Pas slegs ewekansige vergroting toe waar toepaslik (gewoonlik slegs opleidingsverdeling) [4]
Hou evalueringvoorverwerking deterministies [4]
Spoor voorverwerkingsveranderinge op soos modelveranderinge (omdat hulle is)

Voor ontplooiing

Verseker dat inferensie dieselfde voorverwerkingspad en artefakte gebruik [2]
Stel drywings-/skeefheidsmonitering op (selfs basiese kenmerkverspreidingskontroles doen 'n lang pad) [5]

Diepgaande ondersoek: algemene voorverwerkingsfoute (en hoe om dit te vermy) 🧯

Fout 1: “Ek sal net vinnig alles normaliseer” 😵

As jy skaalparameters op die volledige datastel bereken, lek jy evalueringsinligting. Pas op trein, transformeer die res. [2]

Fout 2: kategorieë dryf in chaos 🧩

As jou kategorie-kartering tussen opleiding en inferensie verskuif, kan jou model die wêreld stilweg verkeerd lees. Hou karterings reggestel via gestoorde artefakte. [2]

Fout 3: ewekansige vergroting sluip in evaluering in 🎲

Willekeurige transformasies is wonderlik in opleiding, maar hulle moet nie "in die geheim aan" wees wanneer jy prestasie probeer meet nie. (Willekeurig beteken lukraak.) [4]

Laaste opmerkings 🧠✨

KI-voorverwerking is die gedissiplineerde kuns om morsige werklikheid in konsekwente modelinsette te omskep. Dit dek skoonmaak, kodering, skalering, tokenisering, beeldtransformasies en – bowenal – herhaalbare pyplyne en artefakte.

Doen voorverwerking doelbewus, nie terloops nie. [2]
Split eers, pas transformasies slegs tydens opleiding, vermy lekkasie. [2]
Gebruik modaliteit-gepaste voorverwerking (tokeniseerders vir teks, transformasies vir beelde). [3][4]
Monitor produksieskeefheid/-drywing sodat jou model nie stadig in onsin verval nie. [5]

En as jy ooit vashaak, vra jouself af:
“Sou hierdie voorverwerkingsstap steeds sin maak as ek dit môre op splinternuwe data uitvoer?”
As die antwoord “uhh… miskien?” is, is dit jou leidraad 😬

Gereelde vrae

Wat is KI-voorverwerking, in eenvoudige terme?

KI-voorverwerking is 'n herhaalbare stel stappe wat raserige, hoë-variansie rou data omskep in konsekwente insette waaruit 'n model kan leer. Dit kan skoonmaak, validering, kodering van kategorieë, skalering van numeriese waardes, tokenisering van teks en die toepassing van beeldtransformasies insluit. Die doel is om te verseker dat opleiding en produksie-inferensie dieselfde soort insette sien, sodat die model nie later in onvoorspelbare gedrag verval nie.

Waarom is KI-voorverwerking so belangrik in produksie?

Voorverwerking is belangrik omdat modelle sensitief is vir invoervoorstelling. As opleidingsdata anders as produksiedata geskaal, geënkodeer, getokeniseer of getransformeer word, kan jy trein/bedien-wanpassingsfoute kry wat vanlyn goed lyk, maar aanlyn stilweg faal. Sterk voorverwerkingspyplyne verminder ook geraas, verbeter leerstabiliteit en versnel iterasie omdat jy nie notaboek-spaghetti ontrafel nie.

Hoe vermy ek datalekkasie tydens voorverwerking?

'n Eenvoudige reël werk: enigiets met 'n passtap moet slegs op opleidingsdata gepas word. Dit sluit in skaleerders, enkodeerders en tokeniseerders wat parameters soos gemiddeldes, kategoriekaarte of woordeskat leer. Jy verdeel eers, pas op die opleidingsverdeling, en transformeer dan validering/toetsing met behulp van die gepaste transformator. Lekkasie kan validering "magies" goed laat lyk en dan in produksiegebruik ineenstort.

Wat is die mees algemene voorverwerkingstappe vir tabelvormige data?

Vir tabeldata sluit die gewone pyplyn skoonmaak en validering (tipes, reekse, ontbrekende waardes), kategoriese kodering (een-warm of ordinaal), en numeriese skalering (standaardisering of min-maks) in. Baie pyplyne voeg domeingedrewe kenmerkingenieurswese by soos verhoudings, rollende vensters of tellings. 'n Praktiese gewoonte is om kolomgroepe eksplisiet te definieer (numeries teenoor kategories teenoor identifiseerders) sodat jou transformasies konsekwent bly.

Hoe werk voorverwerking vir teksmodelle?

Teksvoorverwerking beteken tipies tokenisering in tokens/subwoorde, die omskakeling daarvan na invoer-ID's, en die hantering van opvulling/afkorting vir bondelvorming. Baie transformatorwerkvloeie skep ook 'n aandagmasker langs die ID's. 'n Algemene benadering is om die model se verwagte tokeniseerderkonfigurasie te gebruik eerder as om te improviseer, want klein verskille in tokeniseerderinstellings kan lei tot "dit oefen maar dit tree onvoorspelbaar op"-uitkomste.

Wat is anders omtrent die voorverwerking van beelde vir masjienleer?

Beeldvoorverwerking verseker gewoonlik konsekwente vorms en pixelhantering: verandering van grootte/sny, normalisering en 'n duidelike verdeling tussen deterministiese en ewekansige transformasies. Vir evaluering moet transformasies deterministies wees sodat metrieke vergelykbaar is. Vir opleiding kan ewekansige vergroting (soos ewekansige snye) robuustheid verbeter, maar ewekansigheid moet doelbewus na die opleidingsverdeling geskaal word, nie per ongeluk tydens evaluering aangeskakel gelaat word nie.

Wat maak 'n voorverwerkingspyplyn "goed" in plaas van broos?

'n Goeie KI-voorverwerkingspyplyn is reproduceerbaar, lekkasieveilig en waarneembaar. Reproduceerbaar beteken dat dieselfde invoer dieselfde uitvoer lewer, tensy willekeurigheid doelbewuste vergroting is. Lekkasieveilig beteken dat passtappe nooit aan validering/toetsing raak nie. Waarneembaar beteken dat jy statistieke soos ontbreking, kategorietellings en kenmerkverspreidings kan inspekteer, sodat ontfouting gebaseer is op bewyse, nie ingewing nie. Pyplyne klop elke keer ad-hoc notaboekreekse.

Hoe hou ek opleiding en inferensie-voorverwerking konsekwent?

Die sleutel is om presies dieselfde geleerde artefakte tydens inferensie te hergebruik: skaalparameters, enkodeerder-karterings en tokeniseerder-konfigurasies. Jy wil ook 'n invoerkontrak hê (verwagte kolomme, tipes en reekse) sodat produksiedata nie stilweg na ongeldige vorms kan dryf nie. Konsekwentheid is nie net "doen dieselfde stappe" nie - dit is "doen dieselfde stappe met dieselfde gepaste parameters en karterings"

Hoe kan ek voorverwerkingsprobleme soos drywing en skeefheid oor tyd monitor?

Selfs met 'n soliede pyplyn verander produksiedata. 'n Algemene benadering is om veranderinge in kenmerkverspreiding te monitor en waarskuwings te gee oor opleidingsvoorsieningsskeefheid (produksie wyk af van opleiding) en afleidingsdrywing (produksie verander oor tyd). Monitering kan liggewig wees (basiese verspreidingskontroles) of bestuur word (soos Vertex KI Modelmonitering). Die doel is om insetverskuiwings vroegtydig vas te stel - voordat hulle die modelprestasie stadig ondermyn.

Verwysings

[1] scikit-learn API:
sklearn.preprocessing (enkodeerders, skaleerders, normalisering) [2] scikit-learn: Algemene slaggate - Data-lekkasie en hoe om dit te vermy
[3] Hugging Face Transformers-dokumente: Tokeniseerders (invoer-ID's, aandagmaskers)
[4] PyTorch Torchvision-dokumente: Transformasies (Verander grootte/Normaliseer + ewekansige transformasies)
[5] Google Cloud Vertex KI-dokumente: Oorsig van modelmonitering (funksie-skeefheid en drywing)

Vind die nuutste KI by die amptelike KI-assistentwinkel

Oor Ons

Terug na blog

Land/streek