Zappa zonder higgsfield?...

AI & Innovatie · 4 min leestijd
Zappa zonder higgsfield?...

Nano Banana. Dit keer wél? Ja bijna!!

Een jaar lang was het antwoord nee.
Vandaag was het ja.
We bouwen al jaren aan beeld, e-com beeld voor webshops en sfeer dus DMM beeld..
Eerst met de hand/PSD veel beeld verwerken in onze E-com tijd. Daarna met TEUN — ons eigen systeem dat sinds 2018 productbeelden verwerkt. Uitsnijden, corrigeren, opbouwen volgens vaste PB-regels. TEUN deed het zware werk op echte foto's.
Eind 2025 zetten ik de volgende stap. Zappa. Onze prompt engine. Het begin van álles bij PB met AI maken.
En toen kwam steeds dezelfde vraag terug.
Kan het al rechtstreeks?

Het probleem dat bleef

We wilden Nano Banana Pro direct aanroepen. Zonder tussenlaag en zonder Higsfield, maar Higgsfield was magisch en werkte gewoon al maanden goed.

Elke keer dat we het probeerden te onzijlen, was de kwaliteit te laag. Gezichten klopten niet. Detail verdween. Niet bruikbaar. Dus zetten we Higgsfield er weer tussen. Maandenlang. Higgsfield levert wat wij zelf niet voor elkaar kregen: scherpe gezichten, nette pose-following, een eigen pipeline. Echt blij mee, heel wat worksshops gegeven richting hun. Het werkte. Maar het betekende kopiëren en plakken. Een handmatige stap, elke keer.
En ondertussen bleven we prikken.
Kon het al? Lukte het al met software? Had iemand het al ontdekt?
Speldenprikjes. Steeds weer even kijken of de techniek ons inmiddels was bijgebeend.

Vanmiddag 3 juni.....

Ikm en claude probeerden het opnieuw. En dit keer hield het stand.
Het pad ernaartoe liep via drie tools.
Higgsfield eerst. We testten hun API-koppeling. Logisch, daar zaten we al. Maar Higgsfield biedt Nano Banana (nog) niet aan via de API. Dus die viel af.
Replicate daarna. Daar werkten we al mee, voor wat postproductie. We kregen Nano Banana aan de praat, na wat gepuzzel met de parameters — de referentiebeelden moesten als image_input array mee, niet als losse velden. Eerste resultaten. Maar de kwaliteit bleef achter.
Toen toch weer rechtstreeks. Net als begin dit jaar. We schakelden over naar de Google Generative AI SDK, model gemini-3-pro-image. Meer controle, snellere iteratie.
En toen ging het werken.

De afslagen onderweg

Niet in één rechte lijn, natuurlijk.
413: te groot. Vercel gaf een Request Entity Too Large. De base64-beelden waren te zwaar. Opgelost met een client-side resize naar maximaal 1024px voordat ze de deur uit gingen.
De jacht op kwaliteit. We dachten dat we de output moesten oppoetsen. Dus we testten vier upscalers. Allemaal afgewezen:

  • CodeFormer — maakte gezichten te glad

  • Real-ESRGAN — voegde artefacten toe

  • Recraft Crisp Upscale — comprimeerde het beeld juist

  • Topaz HiFi V2 — geen zichtbaar verschil

De conclusie was ongemakkelijk en bevrijdend tegelijk: de rauwe output was al goed genoeg. Die upscalers zijn gebouwd voor slechte input. Niet voor beeld dat al klopt.
Dit is precies waar Higgsfield het verschil maakt. Hun pipeline doet iets met pose en gezicht dat wij met standaardtools niet namaken.
Aanname die fout was. We dachten dat Google AI geen resolutie-instelling had. Fout. De SDK had gewoon imageConfig.imageSize — 1K, 2K, 4K. Stond er al. Les: eerst de types lezen, dan pas aannemen.
Te veel ruis in de prompt. De gezichten gingen achteruit. We hadden rolbeschrijvingen, resolutie-hints en aspect ratio allemaal in de prompt staan — dubbelop met wat de parameters al deden. Strippen tot de kale system prompt. Beter.
Van tekst naar regels. Laatste stap. De system prompt herschreven van beschrijvend Nederlands naar 18 genummerde Engelse RULES. Want het model gokte er soms iets bij. Een beige waas in de achtergrond. Slippers. Een kettinkje dat niemand had gevraagd.
De regels zijn nu hard:

  • RULE 12: zuiver wit. RGB(255,255,255). Geen kleurzweem.

  • RULE 16: geen accessoires, schoenen of sieraden toevoegen. Verzin niets.

Elke referentie-afbeelding heeft één geïsoleerde rol. Gezicht is gezicht. Kleding is kleding. Niet mengen.

Wat er nu staat

Een werkende demo in Zappa. /cms/nano-banana-demo.

  • Vijf upload-slots: gezicht, kleding 1, kleding 2, styling, pose

  • Extra kledingslots bij te prikken — broek, top, jas, rok

  • Gezicht onthouden via localStorage, zodat het er bij een volgende keer al staat

  • Postproductie-prompt, standaard aan, bewerkbaar door de klant

  • Resolutie 1K/2K/4K, alle aspect ratios, 1 tot 4 beelden tegelijk

  • Texture- en sharpness-sliders uit onze bestaande pipeline

  • Lightbox op ware pixelgrootte

  • Pose-picker uit de CMS-database

  • Detectie van geblokkeerde content, met een "blijf proberen" die automatisch nieuwe pogingen doet tot er een beeld doorkomt

  • Elke generatie apart gelogd in api_costs, voor een toekomstig credit-systeem per klant

We hebben vandaag veel meer functies getest dan we hier opschrijven. Maar dit is de kern.

Eerlijk zijn

Dit is MVP. Heel erg Minimum Viable Product.
De output haalt het (nog niet helemaal) bij Higgsfield. Hun gezichten zijn beter. Hun pose-following is preciezer. Die secret sauce hebben wij niet.
Dit gaat dus niet morgen naar klanten. Het staat nog echt in de kinderschoenen.
Maar Claude en ik hebben vandaag wel iets bewezen. De hele keten — van referentie-upload tot fashion-foto — draait nu zonder Higgsfield ertussen. We hebben controle over elke stap. We loggen elke cent. En de interface is te volgen voor een klant.

In januari begonnen we met Zappa als prompt engine.
Vandaag stuurt het rechtstreeks AI-modellen aan.
Een jaar lang was het antwoord nee.
Vandaag was het ja.

Claude & Peet