Jaká data nikdy nevkládat do ChatGPT a dalších veřejných AI nástrojů?

Modely umělé inteligence, jako je ChatGPT a mnoho dalších, přinášejí obrovské možnosti, ale zároveň otevírají nová bezpečnostní rizika. Zatímco vedení firem často jen diskutuje o možnostech strategického využití umělé inteligence, zaměstnanci už tuto technologii masivně používají při své každodenní práci – z velké části bez jakékoliv kontroly.
Podle výzkumu Cyberhaven Labs z roku 2024 plných 38 % zaměstnanců přiznává, že bez vědomí zaměstnavatele sdílí s AI nástroji i citlivé firemní informace. Navíc dramaticky roste podíl firemních dat vkládaných do modelů AI, která lze považovat přinejmenším za důvěrná – může jít až o třetinu všech dat, která zaměstnanci s umělou inteligencí sdílejí. Klíčové je přitom pochopit, že veřejné AI nástroje nejsou soukromé. To znamená, že cokoliv, co do nich zadáte, může být použito pro trénink modelu a potenciálně se objevit ve výstupech pro jiné uživatele.
AI jako hrozba pro podniková data
Mezi nejzávažnější rizika používání umělé inteligence ve firmách patří možnost kompromitování citlivých podnikových dat.
Do kategorie vysoce ohrožených dat spadají především obchodní informace. Tyto citlivé údaje mohou být do AI nástrojů vloženy třeba při přípravě prezentací, analýz nebo strategických dokumentů, aniž by si uživatelé uvědomovali závažnost takového jednání. Mezi nejkritičtější data patří:
- dlouhodobé obchodní plány,
- informace o strategických partnerstvích,
- cenové strategie,
- informace o akvizicích nebo fúzích,
- analýzy konkurence,
- inovativní přístupy k řešení problémů a další důvěrná data.
Bohužel stačí jedna neobezřetnost při zpracování strategického dokumentu v ChatGPT a vaše konkurenční výhoda může skončit ve znalostní bázi veřejně dostupného modelu.
Osobní údaje a riziko porušení GDPR
Další kritickou kategorii představují osobní údaje zákazníků či zaměstnanců. Typicky jde o kontaktní informace, finanční údaje, zdravotní záznamy, biometrické údaje, záznamy o výkonu zaměstnanců a mnoho dalších citlivých údajů.
Zpracování těchto dat prostřednictvím AI nástrojů může vést i k porušení GDPR a dalších regulací spojených s ochranou soukromí, zvláště pokud jsou tato data přenášena do systémů třetích stran. Problém nastává zejména při používání bezplatně dostupných nástrojů, které často nemají robustní mechanismy na izolaci dat.
Citlivé finanční informace
Důvěru investorů a pozici na trhu může ohrozit také kompromitování finančních informací, jako jsou rozpočty, finanční výsledky, investiční plány, údaje o cash flow, bankovní informace, daňové dokumenty nebo modely oceňování. Zaměstnanci je přitom často neváhají svěřit aplikacím AI, když potřebují pomoci s vytvořením přehledů, rozpočtů a různých analýz.
Mezi další data, která by rozhodně neměla být vkládána do nástrojů AI používaných na základě osobních uživatelských účtů, patří například i technická dokumentace a zdrojové kódy, unikátní algoritmy, návody k výrobě nebo technické specifikace.
Nenechte ChatGPT číst vaši poštu
Mezi užitečnými funkcemi AI nástrojů bývá často zmiňována, a v praktických ukázkách prezentována, také možnost nechat ChatGPT či jiný model analyzovat obsah poštovní schránky. AI vám může následně vyfiltrovat důležité zprávy vyžadující vaši reakci a/nebo rovnou sestavit relevantní odpověď. To vše na základě informací, které se dozví z vašich e-mailových konverzací. No nezní to lákavě?
Určitě ano, ale má to jeden háček. Také v tomto případě musíme myslet na zachování důvěrnosti citlivých dat. Rozhodně se nesmí stát, že se součástí znalostní báze veřejných modelů stane obsah pracovních e-mailů s kolegy nebo se zákazníky a obchodními partnery.
Za účelem analýzy e-mailových konverzací je nutné nasadit speciální podnikové modely, které zajistí, že obsah zpráv neopustí izolované prostředí modelu a nestane se součástí trénovacích dat veřejných modelů.
Proč dochází ke kompromitaci dat?
Veřejně dostupné AI systémy generují nové výstupy na základě své znalostní báze. Ta je neustále rozšiřována, mimo jiné i na základě dat, která do modelů vkládají sami uživatelé. To ovšem znamená, že jednou vložená citlivá data se mohou nevratně stát součástí znalostní báze modelu. Tento proces se označuje jako trénování modelů a představuje zásadní riziko, protože většina komerčních AI služeb využívá uživatelská data k dalšímu zdokonalování svých modelů – pokud tedy uživatelé explicitně nevyužijí možnosti jejich data k dalšímu tréninku nepoužívat, respektive pokud jim příslušný nástroj takovou možnost vůbec nabídne.
Kompromitace citlivých dat představuje zcela reálné riziko. Už bylo zaznamenáno mnoho konkrétních případů neautorizovaného sdílení citlivých informací, které zaměstnanci vložili do ChatGPT nebo jiné AI služby.
Velmi důležitá je také skutečnost, kdo za vývojem a provozováním konkrétního modelu stojí. Například vláda ČR zakázala státním organizacím používat čínskou AI službu DeepSeek z důvodu nejasností kolem využití dat, která uživatelé do modelu vkládají. Varování před službou DeepSeek vydal také Národní úřad pro kybernetickou a informační bezpečnost (NÚKIB) a později se přidalo i Velitelství informačních a kybernetických sil Armády ČR. Armáda přitom varuje také před dalšími čínskými modely AI, jako je například Qwen společnosti Alibaba.
Další bezpečnostní rizika modelů umělé inteligence
Kromě nechtěného sdílení citlivých dat čelí uživatelé AI také dalším formám hrozeb. K zásadním rizikům modelů patří jejich „otrávení“ (tzv. data poisoning). Jde o úmyslnou škodlivou kontaminaci dat pro trénování modelů za účelem kompromitace systému. Útočníci přitom poskytují modelu zavádějící, falešná nebo modifikovaná data, případně odstraňují vybraná data z trénovacího datasetu.
Cílem otrávení modelu je manipulace s výstupy, které bude následně uživatelům poskytovat. Může to sloužit k degradování výkonu modelu, šíření dezinformací a předpojatých výstupů (rasismus, sexismus, předsudky) nebo celkovému narušení důvěry k umělé inteligenci. Používání otráveného modelu AI představuje značné riziko, protože může poskytovat zcela nesprávné a zmanipulované výstupy.
Zásadním problémem je také prompt injection, tedy technika, kdy útočník manipuluje výzvu pro model (tzv. prompt) tak, aby přiměl AI systém k chování, které původně nebylo zamýšleno. Prompt injection zneužívá způsob, jakým modely zpracovávají text. Tyto systémy totiž nedokážou vždy spolehlivě rozlišit mezi instrukcemi (co má model udělat) a daty (s čím má při tom pracovat). Útočník pak může do své výzvy vložit skryté instrukce, které naruší běžné chování modelu.
Cílem útočníka je přimět model, aby například odhalil citlivé informace, provedl neautorizované akce, obešel bezpečnostní omezení (tzv. jailbreaking) nebo generoval nevhodný či škodlivý obsah. Typicky může jít například o návody na vytvoření škodlivého kódu, výrobu výbušnin či zbraní a podobné aktivity, které by modely umělé inteligence standardně měly odmítnout vykonat.
Ochrana citlivých dat při práci s AI
Od všeobecného rozšíření modelů umělé inteligence, především v podobě webových aplikací využívajících LLM, došlo již k celé řadě případů úniku citlivých firemních dat. Neexistuje přitom univerzální způsob, jak ochránit firemní data při používání ChatGPT a dalších modelů AI. Riziko úniku dat je ale možné zmírnit kombinací technických a organizačních opatření.
Technická opatření jsou především následující:
· Anonymizace dat: Před odesláním dat do modelu AI je zbavte citlivých informací. Například místo jmen a adres použijte anonymizované identifikátory. Existují i nástroje, které anonymizaci dat automatizují.
· Používání podnikových verzí: Mnoho poskytovatelů, včetně OpenAI nebo Microsoftu, nabízí i speciální podnikové verze svých modelů, které zaručují, že vaše data nebudou použita k tréninku modelu a zůstanou v rámci bezpečně izolovaného prostředí. Tyto podnikové verze poskytují často také pokročilé funkce pro správu a zabezpečení včetně řízení přístupu k podnikovým datům. Je totiž velmi důležité nejen to, aby se citlivá data nedostala mimo firmu, ale také aby k nim v rámci firmy měli přístup pouze zaměstnanci, kterým to umožňuje jejich role.
· Využití lokálně provozovaných modelů: Zvažte použití AI modelů, které běží lokálně na vašich serverech. To znamená, že vaše data nikdy neopustí vaši síť. Je to sice nákladnější a technicky náročnější, ale poskytuje to nejvyšší úroveň kontroly.
· Tokenizace: Citlivá data nahraďte unikátními bezvýznamnými tokeny. Tento proces je často používán při zpracování platebních karet, ale lze ho aplikovat i na jiné typy dat.
· Omezení přístupu: Využívejte API klíče a systémy oprávnění, abyste měli pod kontrolou, kdo a jaké modely může používat.
Mezi organizační opatření patří:
· Vytvoření firemních pravidel: Jasně definujte, jaká data mohou a nemohou být zadávána do modelů AI. Nastavte pravidla pro používání veřejných a podnikových verzí nástrojů.
· Školení zaměstnanců: Provádějte pravidelná školení, která zaměstnancům vysvětlí rizika spojená s modely umělé inteligence a naučí je s nimi bezpečně pracovat. Měli by vědět, že do veřejně dostupných nástrojů nesmí zadávat žádné osobní údaje ani firemní tajemství.
· Sledování a auditování: Zaveďte systémy, které budou sledovat, co a jak se do modelů odesílá. Pravidelné audity vám pomohou identifikovat potenciální úniky dat.
· Plán reakce na incidenty: Připravte si plán, jak postupovat v případě, že dojde ke kompromitaci dat. Tento plán by měl zahrnovat komunikační strategii, technické kroky k omezení škod a postup pro nahlášení incidentu.
Současně je nutné pamatovat na skutečnost, že nejslabším článkem v řetězci zabezpečení systémů a dat jsou vždy zaměstnanci. Proto je zásadní, aby si uvědomili svou odpovědnost. Klíčové je, aby rozuměli, že:
· ChatGPT a podobné modely nejsou privátní. Cokoliv, co do nich zadáte, může být v budoucnu použito pro trénink, analýzu nebo se to může objevit ve výstupech pro jiné uživatele.
· Je nezbytné používat pouze schválené podnikové nástroje. Poskytněte zaměstnancům odpovídající nástroje AI, které jim pomohou s každodenní prací, a naučte je s nimi bezpečně pracovat. V opačném případě riskujete, že si je zaměstnanci opatří sami, zcela mimo kontrolu podnikového IT a příslušných opatření (shadow AI).
Kombinací těchto opatření výrazně snížíte riziko úniku dat při využívání ChatGPT a dalších modelů či nástrojů umělé inteligence. Je ale důležité si uvědomit, že zabezpečení je nikdy nekončící proces, nikoliv jednorázový úkon.
Co si z článku odnést?
· Nikdy nezadávejte do veřejných nástrojů, jako je ChatGPT, osobní, finanční nebo jiná citlivá data.
· Zvažte nasazení podnikových verzí nástrojů AI od prověřených poskytovatelů (např. OpenAI, Microsoft), které garantují, že vaše data nebudou použita k tréninku veřejně dostupných modelů.
· Uvědomte si, že AI modely mají své slabiny a rizika. Mezi nejčastější hrozby patří trénování modelů na základě vašich dat, data poisoning a prompt injection.
· Poskytněte zaměstnancům bezpečné firemní nástroje AI, aby nemuseli hledat alternativy mimo vaši kontrolu, a průběžně je vzdělávejte ohledně jejich používání.
Další články a podcasty ze světa kybernetické bezpečnosti najdete zde: https://o2cybernews.cz/