<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"><channel><title>Michalina Graczyk - Blog</title><description>Artykuły o LLM Evaluation, AI Testing, Mobile QA i quality engineering. Praktyczne porady i przemyślenia lidera QA.</description><link>https://michalinqa.dev/</link><item><title>LLM-as-a-Judge: Kto ocenia sztuczną inteligencję?</title><link>https://michalinqa.dev/blog/llm-as-a-judge-w-praktyce/</link><guid isPermaLink="true">https://michalinqa.dev/blog/llm-as-a-judge-w-praktyce/</guid><description>Mamy już Golden Set i wiemy, co chcemy mierzyć. Pozostaje tylko jedno pytanie: kto ma to wszystko oceniać? Dlaczego manualne testowanie LLM-ów nie ma szans na przetrwanie i jak wdrożyć zautomatyzowanego sędziego.</description><pubDate>Sat, 30 May 2026 00:00:00 GMT</pubDate></item><item><title>Co opowiedziałam w Testing Station: human-in-the-loop, golden set i numer telefonu zaufania</title><link>https://michalinqa.dev/blog/testing-station-llm-qa-w-praktyce/</link><guid isPermaLink="true">https://michalinqa.dev/blog/testing-station-llm-qa-w-praktyce/</guid><description>Rozszerzona notatka z mojego występu w podcaście Testing Station. O tym, dlaczego LLM bez człowieka się nie obejdzie, czym naprawdę są guardrails i co zmienia się w roli QA.</description><pubDate>Thu, 28 May 2026 00:00:00 GMT</pubDate></item><item><title>Testowanie odporności AI: Jak uchronić LLM przed nieprzewidywalnym użytkownikiem albo testerem?</title><link>https://michalinqa.dev/blog/robustness-odpornosc-modelu/</link><guid isPermaLink="true">https://michalinqa.dev/blog/robustness-odpornosc-modelu/</guid><description>W idealnym środowisku testowym model odpowiada perfekcyjnie. Na produkcji użytkownicy robią literówki, wklejają dziwne formaty i piszą bez ładu i składu. Dowiedz się, czym jest robustness i jak testować AI w takich wypadkach.</description><pubDate>Tue, 07 Apr 2026 00:00:00 GMT</pubDate></item><item><title>Guardrails i Safety: Kto wyznacza granice moralne Twojemu LLM-owi?</title><link>https://michalinqa.dev/blog/guardrails-safety-granice-llm/</link><guid isPermaLink="true">https://michalinqa.dev/blog/guardrails-safety-granice-llm/</guid><description>Twój model AI nie ma kręgosłupa moralnego. Dowiedz się, czym są guardrails, jak testować safety i dlaczego to człowiek musi chronić aplikację przed generowaniem niebezpiecznych treści.</description><pubDate>Mon, 09 Mar 2026 00:00:00 GMT</pubDate></item><item><title>Golden set + evals: Fundament wiarygodnych testów LLM</title><link>https://michalinqa.dev/blog/golden-set/</link><guid isPermaLink="true">https://michalinqa.dev/blog/golden-set/</guid><description>Pora połączyć niedeterministyczność i oceny w proces, który ma sens. Dowiedz się, jak zbudować i wykorzystać Golden Set w testowaniu AI.</description><pubDate>Sun, 22 Feb 2026 00:00:00 GMT</pubDate></item><item><title>Kategorie evals: co właściwie oceniamy?</title><link>https://michalinqa.dev/blog/evals-co-wlasciwie-oceniamy/</link><guid isPermaLink="true">https://michalinqa.dev/blog/evals-co-wlasciwie-oceniamy/</guid><description>Jak zdefiniować kategorie oceny (fidelity, relevance, safety, tone, context), by testować LLM-y wielowymiarowo i skalowalnie.</description><pubDate>Mon, 09 Feb 2026 00:00:00 GMT</pubDate></item><item><title>Jak testować LLM-y: Ach, ta niedeterministyczność</title><link>https://michalinqa.dev/blog/ach-ta-niedeterministycznosc/</link><guid isPermaLink="true">https://michalinqa.dev/blog/ach-ta-niedeterministycznosc/</guid><description>Modele językowe są niedeterministyczne - nawet przy identycznym promptcie mogą generować różne odpowiedzi. Jak to zmienia podejście QA do testowania?</description><pubDate>Tue, 27 Jan 2026 00:00:00 GMT</pubDate></item><item><title>Shift Left Done Right: QA in the Modern SDLC</title><link>https://michalinqa.dev/blog/shift-left-done-right/</link><guid isPermaLink="true">https://michalinqa.dev/blog/shift-left-done-right/</guid><description>Shifting left is about building quality from the ground up - during planning, design, and development phases. Learn how to introduce it in your organization.</description><pubDate>Fri, 11 Apr 2025 00:00:00 GMT</pubDate></item><item><title>From Cypress to Playwright - Saleor&apos;s Voyage</title><link>https://michalinqa.dev/blog/from-cypress-to-playwright/</link><guid isPermaLink="true">https://michalinqa.dev/blog/from-cypress-to-playwright/</guid><description>This is the story of Saleor&apos;s path from our early days of automated testing, to adapting to new tools, and finally to where we stand today with a more robust and efficient testing framework.</description><pubDate>Fri, 29 Nov 2024 00:00:00 GMT</pubDate></item></channel></rss>