Hoe om KI-modelle te optimaliseer

Hoe om KI-modelle te optimaliseer

Kort antwoord: Om KI-modelle te optimaliseer, kies een primêre beperking (latensie, koste, geheue, kwaliteit, stabiliteit of deurset), en leg dan 'n betroubare basislyn vas voordat enigiets verander word. Verwyder eers pyplynbottelnekke, pas dan lae-risiko voordele soos gemengde presisie en bondelvorming toe; indien kwaliteit hou, beweeg aan na samesteller-/looptyd-gereedskap en verminder dan eers die modelgrootte via kwantisering of distillasie wanneer nodig.

Belangrike wegneemetes:

Beperking : Kies een of twee teikenmaatstawwe; optimalisering is 'n landskap van kompromieë, nie gratis oorwinnings nie.

Meting : Profieleer werklike werkladings met p50/p95/p99, deurset, benutting en geheuepieke.

Pyplyn : Herstel tokenisering, datalaaiers, voorverwerking en bondelvorming voordat die model aangeraak word.

Bediening : Gebruik kasgeheue, doelbewuste bondelvorming, gelyktydige afstemming, en hou stertvertraging fyn dop.

Skerprelings : Voer goue aanwysings, taakmetrieke en steekproefkontroles uit na elke prestasieverandering.

Hoe om KI-modelle te optimaliseer Infografika

🔗 Hoe om KI-modelle effektief te evalueer
Sleutelkriteria en stappe om modelle billik en betroubaar te beoordeel.

🔗 Hoe om KI-prestasie met werklike statistieke te meet.
Gebruik maatstawwe, latensie, koste en kwaliteitseine om te vergelyk.

🔗 Hoe om KI-modelle voor produksie te toets
Praktiese toetswerkvloei: dataverdelings, stresgevalle en monitering.

🔗 Hoe om KI vir inhoudskepping te gebruik
Verander idees vinniger in konsepte met gestruktureerde aanwysings en iterasie.


1) Wat “Optimaliseer” in die praktyk beteken (omdat almal dit anders gebruik) 🧠

Wanneer mense sê "optimaliseer 'n KI-model", kan hulle bedoel:

  • Maak dit vinniger (laer latensie)

  • Maak dit goedkoper (minder GPU-ure, laer wolkbesteding)

  • Maak dit kleiner (geheue-voetspoor, randontplooiing)

  • Maak dit meer akkuraat (kwaliteitverbeterings, minder hallusinasies)

  • Maak dit meer stabiel (minder variansie, minder mislukkings in produksie)

  • Maak dit makliker om te bedien (deurset, bondelverwerking, voorspelbare werkverrigting)

Hier is die effens irriterende waarheid: jy kan nie al hierdie dinge gelyktydig maksimeer nie. Optimalisering is soos om 'n ballon te druk - druk een kant in en die ander kant spring uit. Nie altyd nie, maar gereeld genoeg dat jy vir afwegings moet beplan.

So voordat jy enigiets aanraak, kies jou primêre beperking :


2) Hoe 'n goeie weergawe van KI-modeloptimalisering lyk ✅

'n Goeie weergawe van optimalisering is nie net "pas kwantisering toe en bid" nie. Dis 'n stelsel. Die beste opstellings het gewoonlik:

  • ’n Basislyn waarop jy vertrou
    As jy nie jou huidige resultate kan reproduseer nie, kan jy nie weet dat jy enigiets verbeter het nie. Eenvoudig… maar mense slaan dit oor. Dan spiraal hulle.

  • 'n Duidelike teikenmaatstaf
    "Vinniger" is vaag. "Verminder p95-latensie van 900 ms na 300 ms teen dieselfde kwaliteittelling" is 'n werklike teiken.

  • Skermrelings vir kwaliteit
    Elke prestasie-oorwinning loop die risiko van 'n stille kwaliteitsregressie. Jy benodig toetse, evaluasies of ten minste 'n gesonde verstand-suite.

  • Hardeware-bewustheid
    ’n “Vinnige” model op een GPU kan op ’n ander kruip. SVE’s is hul eie spesiale soort chaos.

  • Iteratiewe veranderinge, nie 'n oorweldigende herskrywing nie.
    Wanneer jy vyf dinge gelyktydig verander en prestasie verbeter, weet jy nie hoekom nie. Wat ... ontstellend is.

Optimalisering behoort te voel soos om 'n kitaar te stem - klein aanpassings, luister aandagtig, herhaal 🎸. As dit voel soos om met messe te jongleer, is iets verkeerd.


3) Vergelykingstabel: Gewilde opsies om KI-modelle te optimaliseer 📊

Hieronder is 'n vinnige en effens deurmekaar vergelykingstabel van algemene optimaliseringsinstrumente/benaderings. Nee, dit is nie heeltemal "billik" nie - die werklike lewe is ook nie.

Gereedskap / Opsie Gehoor Prys Hoekom dit werk
PyTorch torch.compile ( PyTorch-dokumentasie ) PyTorch mense Gratis Grafiekvaslegging + samestellertruuks kan oorhoofse koste besnoei ... soms is dit magies ✨
ONNX Runtime ( ONNX Runtime-dokumentasie ) Ontplooiingspanne Vry-agtig Sterk inferensie-optimalisering, breë ondersteuning, goed vir gestandaardiseerde bediening
TensorRT ( NVIDIA TensorRT-dokumentasie ) NVIDIA-implementering Betaalde vibrasies (dikwels saamgevoeg) Aggressiewe kernfusie + presisiehantering, baie vinnig wanneer dit klik
DeepSpeed ​​( ZeRO-dokumente ) Opleidingspanne Gratis Geheue + deursetoptimalisering (ZeRO ens.). Kan soos 'n straalmotor voel
FSDP (PyTorch) ( PyTorch FSDP-dokumentasie ) Opleidingspanne Gratis Skerwe parameters/gradiënte, maak groot modelle minder eng
bitsandbytes kwantisering ( bitsandbytes ) LLM-knoeiery Gratis Lae-bis gewigte, groot geheuebesparing - kwaliteit hang af, maar sjoe 😬
Distillasie ( Hinton et al., 2015 ) Produkspanne "Tydkoste" Kleiner studentemodel erf gedrag, gewoonlik die beste opbrengs op belegging op die lang termyn
Snoei ( PyTorch snoei tutoriaal ) Navorsing + produk Gratis Verwyder dooie gewig. Werk beter wanneer dit met heropleiding gepaardgaan
Flash Attention / saamgesmelte pitte ( FlashAttention-papier ) Prestasie-nerds Gratis Vinniger aandag, beter geheuegedrag. Ware oorwinning vir transformators
Triton Inferensiebediener ( Dinamiese bondelvorming ) Bedrywighede/infrastruktuur Gratis Produksiebediening, bondelbewerking, multi-model pyplyne - voel ondernemingsagtig

Formateringskennis: "Prys" is onnet, want oopbron kan jou steeds 'n naweek van ontfouting kos, wat ... 'n prys is. 😵💫


4) Begin met meting: Profiel soos jy dit bedoel 🔍

As jy net een ding uit hierdie hele gids doen, doen dit: meet behoorlik.

In my eie toetsing het die grootste "optimaliseringsdeurbrake" gekom van die ontdekking van iets verleentheidsgewys eenvoudig soos:

  • datalaaier wat die GPU uithonger

  • SVE-voorverwerkingsbottelnek

  • klein bondelgroottes wat kern-lanseringsoorhoofse koste veroorsaak

  • stadige tokenisering (tokeniseerders kan stil skurke wees)

  • geheuefragmentasie ( PyTorch CUDA geheuetoewyser notas )

  • 'n enkele laag wat berekening oorheers

Wat om te meet (minimum stel)

  • Latensie (p50, p95, p99) ( SRE op latensiepersentiele )

  • Deurvoer (tokens/sek, versoeke/sek)

  • GPU-benutting (berekening + geheue)

  • VRAM / RAM-pieke

  • Koste per 1k tokens (of per afleiding)

Praktiese profileringsdenkwyse

  • Profiel een scenario waaroor jy omgee (nie 'n speelgoedprompt nie).

  • Teken alles aan in 'n klein "perfeksiejoernaal."
    Ja, dis vervelig ... maar dit spaar jou daarvan om jouself later te "gaslight".

(As jy 'n konkrete hulpmiddel wil hê om mee te begin: PyTorch Profiler ( torch.profiler docs ) en Nsight Systems ( NVIDIA Nsight Systems ) is die gewone verdagtes.)


5) Data + Opleidingsoptimalisering: Die Stil Superkrag 📦🚀

Mense is obsessief oor modelargitektuur en vergeet die pyplyn. Intussen verbrand die pyplyn stilweg die helfte van die GPU.

Maklike oorwinnings wat vinnig opduik

  • Gebruik gemengde presisie (FP16/BF16 waar stabiel) ( PyTorch AMP / torch.amp )
    Gewoonlik vinniger, dikwels goed - maar let op vir numeriese eienaardighede.

  • Gradiëntophoping wanneer bondelgrootte beperk is ( 🤗 Versnellingsgids )
    Hou optimalisering stabiel sonder om geheue te ontplof.

  • Gradiënt-kontrolepunt ( torch.utils.checkpoint )
    Ruil berekening vir geheue - maak groter kontekste moontlik.

  • Doeltreffende tokenisering ( 🤗 Tokeniseerders )
    Tokenisering kan die knelpunt op skaal word. Dis nie glansryk nie; dis saak maak.

  • Datalaaier-afstemming
    Meer werkers, vasgespelde geheue, voorafhaal - onopvallend maar effektief 😴➡️💪 ( PyTorch-prestasie-afstemmingsgids )

Parameter-doeltreffende fyn afstemming

As jy groot modelle fyn afstem, kan PEFT-metodes (soos LoRA-styl adapters) opleidingskoste massief verminder terwyl dit verbasend sterk bly ( 🤗 Transformers PEFT-gids , LoRA-artikel ). Dit is een van daardie "hoekom het ons dit nie vroeër gedoen nie?"-oomblikke.


6) Argitektuurvlak-Optimalisering: Die regte grootte van die model 🧩

Soms is die beste manier om te optimaliseer ... om op te hou om 'n model te gebruik wat te groot is vir die werk. Ek weet, heiligskennis 😄.

Maak 'n oproep oor 'n paar basiese beginsels:

  • Besluit of jy volle algemene intelligensie-vibes of 'n spesialis nodig het.

  • Hou die konteksvenster so groot as wat dit moet wees, nie groter nie.

  • Gebruik 'n model wat opgelei is vir die taak wat voorlê (klassifikasiemodelle vir klassifikasiewerk, ensovoorts).

Praktiese strategieë vir die regte grootte

  • Skakel oor na 'n kleiner ruggraat vir die meeste versoeke.
    Roeteer dan "moeilike navrae" na 'n groter model.

  • Gebruik 'n twee-fase opstelling.
    Vinnige modelkonsepte, sterker modelverifikasies of -redigerings.
    Dis soos om saam met 'n vriend te skryf wat kieskeurig is – irriterend, maar effektief.

  • Verminder uitvoerlengte.
    Uitvoertokens kos geld en tyd. As jou model dwaal, betaal jy vir die dwaal.

Ek het al gesien hoe spanne koste dramaties besnoei deur korter uitsette af te dwing. Dit voel kleinlik. Dit werk.


7) Kompileerder + Grafiekoptimalisering: Waar Spoed Vandaan Kom 🏎️

Dit is die "laat die rekenaar slimmer rekenaarwerk doen"-laag.

Algemene tegnieke:

Eenvoudig gestel: jou model mag dalk wiskundig vinnig wees, maar operasioneel stadig. Samestellers maak sommige daarvan reg.

Praktiese notas (ook bekend as littekens)

  • Hierdie optimaliserings kan sensitief wees vir veranderinge in die modelvorm.

  • Sommige modelle versnel baie, ander beweeg skaars.

  • Soms kry jy 'n versnelling en 'n raaiselagtige gogga - soos 'n gremlin wat ingetrek het 🧌

Tog, wanneer dit werk, is dit een van die skoonste oorwinnings.


8) Kwantisering, Snoei, Distillasie: Kleiner Sonder Huil (Te Veel) 🪓📉

Dit is die afdeling wat mense wil hê ... want dit klink soos gratis opvoering. Dit kan wees, maar jy moet dit soos chirurgie behandel.

Kwantisering (laer presisiegewigte/aktiverings)

  • Uitstekend vir inferensiespoed en geheue

  • Risiko: kwaliteit daal, veral op randgevalle

  • Beste praktyk: evalueer op 'n werklike toetsstel, nie vibrasies nie

Algemene geure waarvan jy sal hoor:

Snoei (verwyder parameters)

  • Verwyder "onbelangrike" gewigte of strukture ( PyTorch snoei-tutoriaal )

  • Benodig gewoonlik heropleiding om kwaliteit te herstel

  • Werk beter as wat mense dink ... wanneer dit versigtig gedoen word

Distillasie (student leer van onderwyser)

Dit is my persoonlike gunsteling langtermynhefboom. Distillasie kan 'n kleiner model produseer wat soortgelyk optree, en dit is dikwels meer stabiel as ekstreme kwantisering ( Distillasie van die Kennis in 'n Neurale Netwerk ).

'n Onvolmaakte metafoor: distillasie is soos om 'n ingewikkelde sop deur 'n filter te gooi en ... 'n kleiner sop te kry. Dis nie hoe sop werk nie, maar jy kry die idee 🍲.


9) Bediening en Inferensie: Die Ware Slaggebied 🧯

Jy kan 'n model "optimaliseer" en dit steeds swak bedien. Bediening is waar latensie en koste werklik raak.

Opslaan wen wat saak maak

  • Bondelvorming
    verbeter deurset. Maar verhoog latensie as jy dit oordoen. Balanseer dit. ( Triton dinamiese bondelvorming )

  • Kasberging
    Vinnige kasberging en hergebruik van KV-kas kan massief wees vir herhaalde kontekste. ( KV-kasverduideliking )

  • Stroomuitvoer
    Gebruikers voel dit is vinniger selfs al is die totale tyd soortgelyk. Persepsie maak saak 🙂.

  • Vermindering van oorhoofse koste per teken
    Sommige stapels doen ekstra werk per teken. Verminder daardie oorhoofse koste en jy wen groot.

Pasop vir stertvertraging

Jou gemiddelde lyk dalk fantasties terwyl jou p99 'n ramp is. Gebruikers leef ongelukkig in die stert. ( "Stertlatensie" en hoekom gemiddeldes lieg )


10) Hardeware-bewuste optimalisering: Pas die model by die masjien 🧰🖥️

Optimalisering sonder hardeware-bewustheid is soos om 'n renmotor te verstel sonder om die bande na te gaan. Sekerlik, jy kan dit doen, maar dis 'n bietjie simpel.

GPU-oorwegings

  • Geheuebandwydte is dikwels die beperkende faktor, nie rou berekening nie

  • Groter groepgroottes kan help, totdat hulle nie meer

  • Kernfusie en aandagoptimalisering is enorm vir transformators ( FlashAttention: IO-bewuste presiese aandag )

SVE-oorwegings

  • Threading, vektorisering en geheuelokaliteit maak baie saak

  • Tokeniseringsoorhoofse koste kan oorheers ( 🤗 “Vinnige” tokeniseerders )

  • Jy mag dalk verskillende kwantiseringstrategieë benodig as op GPU

Rand-/mobiele oorwegings

  • Geheue-voetspoor word prioriteit nommer een

  • Latensie-variansie maak saak omdat toestelle ... humeurig is

  • Kleiner, gespesialiseerde modelle klop dikwels groot algemene modelle


11) Gehalte-relings: Moenie jouself in 'n gogga "optimaliseer" nie 🧪

Elke spoedoorwinning moet met 'n kwaliteitstoets gepaardgaan. Andersins gaan jy vier, stuur, en dan 'n boodskap kry soos "hoekom praat die assistent skielik soos 'n seerower?" 🏴☠️

Pragmatiese relings:

  • Goue aanwysings (vaste stel aanwysings wat jy altyd toets)

  • Taakmetrieke (akkuraatheid, F1, BLEU, wat ook al pas)

  • Menslike steekproefkontroles (ja, ernstig)

  • Regressiedrempels (“nie meer as X% daling toegelaat nie”)

Volg ook mislukkingsmodusse:

  • formateringsdrif

  • veranderinge in weieringsgedrag

  • hallusinasiefrekwensie

  • reaksielengte-inflasie

Optimalisering kan gedrag op verrassende maniere verander. Eienaardig. Irriterend. Voorspelbaar, agterna beskou.


12) Kontrolelys: Hoe om KI-modelle stap vir stap te optimaliseer ✅🤖

As jy 'n duidelike volgorde van bewerkings wil hê vir Hoe om KI-modelle te optimaliseer , is hier die werkvloei wat mense gesond hou:

  1. Definieer sukses.
    Kies 1-2 primêre metrieke (latensie, koste, deurset, kwaliteit).

  2. Meet
    die werklike werklading van die basislynprofiel, teken p50/p95, geheue, koste aan. ( PyTorch Profiler )

  3. Herstel pyplyn-knelpunte.
    Data laai, tokenisering, voorverwerking, bondelvorming.

  4. Pas lae-risiko berekeningsoorwinnings toe.
    Gemengde presisie, kernoptimalisering, beter bondelvorming.

  5. Probeer kompileerder/looptyd-optimaliserings.
    Grafiekvaslegging, inferensie-looptye, operatorfusie. ( torch.compile- tutoriaal , ONNX Runtime-dokumentasie )

  6. Verminder modelkoste.
    Kwantiseer versigtig, distilleer indien moontlik, snoei indien toepaslik.

  7. Regstellings vir afstembediening
    -kasgeheue, gelyktydigheid, laaitoetsing, stertvertraging.

  8. Valideer kwaliteit.
    Voer regressietoetse uit en vergelyk uitsette langs mekaar.

  9. Herhaal
    Klein veranderinge, duidelike notas, herhaal. Onopvallend - effektief.

En ja, dit is steeds Hoe om KI-modelle te optimaliseer, selfs al voel dit meer soos "Hoe om op te hou om op harke te trap." Dieselfde ding.


13) Algemene foute (sodat jy hulle nie soos die res van ons herhaal nie) 🙃

  • Optimalisering voor meting
    Jy sal tyd mors. En dan sal jy die verkeerde ding met selfvertroue optimaliseer…

  • Om 'n enkele maatstaf na te jaag.
    Maatstawwe lieg deur weglating. Jou werklas is die waarheid.

  • Ignorering van geheue
    Geheueprobleme veroorsaak verlangsaming, ineenstortings en trillings. ( Verstaan ​​CUDA-geheuegebruik in PyTorch )

  • Te vroeg oorkwantiseer.
    Lae-bit kwantiteit kan wonderlik wees, maar begin eers met veiliger stappe.

  • Geen terugrolplan nie.
    As jy nie vinnig kan terugkeer nie, word elke ontplooiing stresvol. Stres veroorsaak foute.


Slotnotas: Die menslike manier om te optimaliseer 😌⚡

Hoe om KI-modelle te optimaliseer is nie 'n enkele truuk nie. Dis 'n gelaagde proses: meet, herstel pyplyn, gebruik samestellers en looptye, stem bediening af, en verklein dan die model met kwantisering of distillasie indien nodig. Doen dit stap vir stap, handhaaf kwaliteit relings, en moenie "dit voel vinniger" as 'n maatstaf vertrou nie (jou gevoelens is pragtig, jou gevoelens is nie 'n profielmaker nie).

As jy die kortste wegneemete wil hê:

  • Meet eers 🔍

  • Optimaliseer die pyplyn volgende 🧵

  • Optimaliseer dan die model 🧠

  • Optimaliseer dan bediening 🏗️

  • Hou altyd kwaliteitskontroles ✅

En as dit help, herinner jouself: die doelwit is nie 'n "perfekte model" nie. Die doelwit is 'n model wat vinnig, bekostigbaar en betroubaar genoeg is sodat jy snags kan slaap ... meeste nagte 😴.

Gereelde vrae

Wat die optimalisering van 'n KI-model in die praktyk beteken

“Optimaliseer” beteken gewoonlik die verbetering van een primêre beperking: latensie, koste, geheuevoetspoor, akkuraatheid, stabiliteit of bedieningsdeurset. Die moeilike deel is afwegings – om een ​​area te bevorder, kan 'n ander benadeel. 'n Praktiese benadering is om 'n duidelike teiken te kies (soos p95-latensie of tyd-tot-kwaliteit) en daarna te optimaliseer. Sonder 'n teiken is dit maklik om te “verbeter” en steeds te verloor.

Hoe om KI-modelle te optimaliseer sonder om stilweg kwaliteit te benadeel

Beskou elke spoed- of kosteverandering as 'n potensiële stille regressie. Gebruik beskermings soos goue aanwysings, taakmetrieke en vinnige menslike steekproefkontroles. Stel 'n duidelike drempel vir aanvaarbare kwaliteitsverskuiwing en vergelyk uitsette langs mekaar. Dit verhoed dat "dis vinniger" in "hoekom het dit skielik vreemd geword in produksie?" verander nadat jy dit gestuur het.

Wat om te meet voordat jy begin optimaliseer

Begin met latensiepersentiele (p50, p95, p99), deurset (tokens/sek of versoeke/sek), GPU-benutting en piek VRAM/RAM. Volg koste per afleiding of per 1k tokens as koste 'n beperking is. Profileer 'n werklike scenario wat jy bedien, nie 'n speelgoedprompt nie. Deur 'n klein "prestasiejoernaal" te hou, kan jy raaiwerk en herhaling van foute vermy.

Vinnige, lae-risiko oorwinnings vir oefenprestasie

Gemengde presisie (FP16/BF16) is dikwels die vinnigste eerste hefboom, maar let op numeriese eienaardighede. As die bondelgrootte beperk is, kan gradiëntakkumulasie optimalisering stabiliseer sonder om geheue te oorskry. Gradiëntkontrolepunte verruil ekstra berekening vir laer geheue, wat groter kontekste moontlik maak. Moenie tokenisering en datalaaier-afstemming ignoreer nie - hulle kan die GPU stilweg uithonger.

Wanneer om torch.compile, ONNX Runtime of TensorRT te gebruik

Hierdie gereedskap teiken operasionele oorhoofse koste: grafiekopname, kernfusie en looptydgrafiekoptimalisering. Hulle kan skoon inferensieversnellings lewer, maar resultate wissel volgens modelvorm en hardeware. Sommige opstellings voel soos towerkrag; ander beweeg skaars. Verwag sensitiwiteit vir vormveranderinge en af ​​en toe "gremlin"-foute - meet voor en na op jou werklike werklas.

Of kwantisering die moeite werd is, en hoe om te verhoed dat dit te ver gaan

Kwantisering kan geheue verminder en inferensie versnel, veral met INT8, maar kwaliteit kan in randgevalle afneem. Laer-bis opsies (soos INT4/k-bis) bring groter besparings met hoër risiko. Die veiligste gewoonte is om op 'n werklike toetsstel te evalueer en uitsette te vergelyk, nie ingewing nie. Begin eers met veiliger stappe, en gaan dan slegs na laer presisie indien nodig.

Die verskil tussen snoei en distillasie vir modelgrootteverkleining

Snoei verwyder "dooie gewig"-parameters en benodig dikwels heropleiding om kwaliteit te herstel, veral wanneer dit aggressief gedoen word. Distillasie lei 'n kleiner studentemodel op om 'n groter onderwyser se gedrag na te boots, en dit kan 'n sterker langtermyn-ROI wees as ekstreme kwantisering. As jy 'n kleiner model wil hê wat soortgelyk optree en stabiel bly, is distillasie dikwels die skoner pad.

Hoe om inferensiekoste en latensie te verminder deur middel van bedieningsverbeterings

Bediening is waar optimalisering tasbaar word: bondelvorming verhoog deurset, maar kan latensie benadeel as dit oordoen word, so stel dit versigtig in. Kasberging (vinnige kasberging en KV-kas hergebruik) kan massief wees wanneer kontekste herhaal. Stroomuitvoer verbeter waargenome spoed selfs al is die totale tyd soortgelyk. Soek ook vir token-vir-token oorhoofse koste in jou stapel - klein per-token werk tel vinnig op.

Waarom stertvertraging so belangrik is wanneer KI-modelle geoptimaliseer word

Gemiddeldes kan fantasties lyk terwyl p99 'n ramp is, en gebruikers is geneig om in die stert te leef. Stertvertraging kom dikwels van bewegingswisseling: geheuefragmentasie, SVE-voorverwerkingspieke, tokeniseringsvertragings of swak bondelgedrag. Daarom beklemtoon die gids persentiele en werklike werkladings. As jy slegs p50 optimaliseer, kan jy steeds 'n ervaring skep wat "lukraak stadig voel"

Verwysings

  1. Amazon Web Services (AWS) - AWS CloudWatch persentiele (statistieke definisies) - docs.aws.amazon.com

  2. Google - Die Stert op Skaal (beste praktyk vir stertvertraging) - sre.google

  3. Google - Diensvlakdoelwitte (SRE-boek) - latensiepersentiele - sre.google

  4. PyTorch - torch.compile - docs.pytorch.org

  5. PyTorch - Volledig Gesharde DataParallel (FSDP) - docs.pytorch.org

  6. PyTorch - PyTorch Profiler - docs.pytorch.org

  7. PyTorch - CUDA semantiek: geheuebestuur (CUDA geheuetoewyser notas) - docs.pytorch.org

  8. PyTorch - Outomatiese Gemengde Presisie (torch.amp / AMP) - docs.pytorch.org

  9. PyTorch - torch.utils.kontrolepunt - docs.pytorch.org

  10. PyTorch - Prestasie-afstemmingsgids - docs.pytorch.org

  11. PyTorch - Snoei-tutoriaal - docs.pytorch.org

  12. PyTorch - Verstaan ​​CUDA-geheuegebruik in PyTorch - docs.pytorch.org

  13. PyTorch - torch.compile tutoriaal / oorsig - docs.pytorch.org

  14. ONNX-looptyd - ONNX-looptyddokumentasie - onnxruntime.ai

  15. NVIDIA - TensorRT Dokumentasie - docs.nvidia.com

  16. NVIDIA - TensorRT gekwantiseerde tipes - docs.nvidia.com

  17. NVIDIA - Nsight Systems - ontwikkelaar.nvidia.com

  18. NVIDIA - Triton Inference Server - dinamiese bondelvorming - docs.nvidia.com

  19. DeepSpeed ​​- ZeRO Fase 3 dokumentasie - deepspeed.readthedocs.io

  20. bitsandbytes (bitsandbytes-stigting) - bitsandbytes - github.com

  21. Drukkende Gesig - Versnel: Gradiënt Akkumulasie Gids - huggingface.co

  22. Drukkende Gesig - Tokenizers dokumentasie - huggingface.co

  23. Drukkende Gesig - Transformers: PEFT-gids - huggingface.co

  24. Drukkende Gesig - Transformers: KV kas verduideliking - huggingface.co

  25. Drukkende Gesig - Transformers: “Vinnige” tokeniseerders (tokeniseerderklasse) - huggingface.co

  26. arXiv - Die distillasie van die kennis in 'n neurale netwerk (Hinton et al., 2015) - arxiv.org

  27. arXiv - LoRA: Lae-rang aanpassing van groot taalmodelle - arxiv.org

  28. arXiv - FlashAttention: Vinnige en geheue-effektiewe presiese aandag met IO-bewustheid - arxiv.org

Vind die nuutste KI by die amptelike KI-assistentwinkel

Oor Ons

Terug na blog