Michalina Graczyk

Michalina Graczyk - BlogArtykuły o LLM Evaluation, AI Testing, Mobile QA i quality engineering. Praktyczne porady i przemyślenia lidera QA.https://michalinqa.dev/LLM-as-a-Judge: Kto ocenia sztuczną inteligencję?https://michalinqa.dev/blog/llm-as-a-judge-w-praktyce/https://michalinqa.dev/blog/llm-as-a-judge-w-praktyce/Mamy już Golden Set i wiemy, co chcemy mierzyć. Pozostaje tylko jedno pytanie: kto ma to wszystko oceniać? Dlaczego manualne testowanie LLM-ów nie ma szans na przetrwanie i jak wdrożyć zautomatyzowanego sędziego.Sat, 30 May 2026 00:00:00 GMTCo opowiedziałam w Testing Station: human-in-the-loop, golden set i numer telefonu zaufaniahttps://michalinqa.dev/blog/testing-station-llm-qa-w-praktyce/https://michalinqa.dev/blog/testing-station-llm-qa-w-praktyce/Rozszerzona notatka z mojego występu w podcaście Testing Station. O tym, dlaczego LLM bez człowieka się nie obejdzie, czym naprawdę są guardrails i co zmienia się w roli QA.Thu, 28 May 2026 00:00:00 GMTTestowanie odporności AI: Jak uchronić LLM przed nieprzewidywalnym użytkownikiem albo testerem?https://michalinqa.dev/blog/robustness-odpornosc-modelu/https://michalinqa.dev/blog/robustness-odpornosc-modelu/W idealnym środowisku testowym model odpowiada perfekcyjnie. Na produkcji użytkownicy robią literówki, wklejają dziwne formaty i piszą bez ładu i składu. Dowiedz się, czym jest robustness i jak testować AI w takich wypadkach.Tue, 07 Apr 2026 00:00:00 GMTGuardrails i Safety: Kto wyznacza granice moralne Twojemu LLM-owi?https://michalinqa.dev/blog/guardrails-safety-granice-llm/https://michalinqa.dev/blog/guardrails-safety-granice-llm/Twój model AI nie ma kręgosłupa moralnego. Dowiedz się, czym są guardrails, jak testować safety i dlaczego to człowiek musi chronić aplikację przed generowaniem niebezpiecznych treści.Mon, 09 Mar 2026 00:00:00 GMTGolden set + evals: Fundament wiarygodnych testów LLMhttps://michalinqa.dev/blog/golden-set/https://michalinqa.dev/blog/golden-set/Pora połączyć niedeterministyczność i oceny w proces, który ma sens. Dowiedz się, jak zbudować i wykorzystać Golden Set w testowaniu AI.Sun, 22 Feb 2026 00:00:00 GMTKategorie evals: co właściwie oceniamy?https://michalinqa.dev/blog/evals-co-wlasciwie-oceniamy/https://michalinqa.dev/blog/evals-co-wlasciwie-oceniamy/Jak zdefiniować kategorie oceny (fidelity, relevance, safety, tone, context), by testować LLM-y wielowymiarowo i skalowalnie.Mon, 09 Feb 2026 00:00:00 GMTJak testować LLM-y: Ach, ta niedeterministycznośćhttps://michalinqa.dev/blog/ach-ta-niedeterministycznosc/https://michalinqa.dev/blog/ach-ta-niedeterministycznosc/Modele językowe są niedeterministyczne - nawet przy identycznym promptcie mogą generować różne odpowiedzi. Jak to zmienia podejście QA do testowania?Tue, 27 Jan 2026 00:00:00 GMTShift Left Done Right: QA in the Modern SDLChttps://michalinqa.dev/blog/shift-left-done-right/https://michalinqa.dev/blog/shift-left-done-right/Shifting left is about building quality from the ground up - during planning, design, and development phases. Learn how to introduce it in your organization.Fri, 11 Apr 2025 00:00:00 GMTFrom Cypress to Playwright - Saleor's Voyagehttps://michalinqa.dev/blog/from-cypress-to-playwright/https://michalinqa.dev/blog/from-cypress-to-playwright/This is the story of Saleor's path from our early days of automated testing, to adapting to new tools, and finally to where we stand today with a more robust and efficient testing framework.Fri, 29 Nov 2024 00:00:00 GMT