Rozpoznávání obličeje Amazonu falešně odpovídá 105 americkým a britským politikům s policejními snímky, ale můžete věřit tvrzením o přesnosti?
V červenci 2018 provedla American Civil Liberties Union a test pomocí nástroje pro rozpoznávání obličejů Amazonu, „Rekognition“, k porovnání fotografií členů Kongresu USA se záběry lidí zatčených za zločin. ACLU nalezlo 28 falešných shod, zdůrazňujících nedostatky technologie rozpoznávání obličeje, která je distribuována donucovacím orgánům po celé zemi.
Tak co, zlepšilo se to?
Nic moc, podle našeho nejnovějšího experimentu.
Comparitech, zvědavý, zda a jak rychle se zlepšuje rozpoznávání obličejů, se rozhodl provést podobnou studii téměř o dva roky později. Do mixu jsme také přidali politiky Spojeného království, celkem 1 959 zákonodárců.
Výsledek
Výsledky jsme rozdělili mezi politiky USA a Spojeného království. Než však probereme výsledky, podívejme se nejprve na opěrný bod, na kterém se všechny tyto testy točí: prahy spolehlivosti.
Hranice důvěry
Když Amazon’s Rekognition porovná dva obrázky, nevrací jednoduše odpověď ano nebo ne. Místo toho jsou výsledky uvedeny v procentech. Čím vyšší procento, tím jistější je Rozpoznání, že dva obrázky jsou stejné osoby.
ACLU použilo výchozí nastavení Rekognition, které nastavilo práh spolehlivosti na 80 procent.
Amazon pokáral zjištění ACLU s tím, že práh je příliš nízký. Mluvčí Amazonu řekl GCN pro účely vymáhání práva by měla být stanovena alespoň na 95 procent a a blogový příspěvek na webu Amazon Web Services uvedl, že by to mělo být 99 procent. Nicméně, a zpráva Gizmoda zjistili, že nastavení těchto prahových hodnot závisí na uvážení policie a ne vždy používají doporučení Amazonu.
Zvýšení prahu spolehlivosti nevyhnutelně vede k menšímu počtu falešně pozitivních výsledků (nesprávná shoda dvou fotografií různých lidí), ale také více falešně negativních výsledků (selhání dvou fotografií stejné osoby). To druhé bohužel v tomto experimentu nemůžeme změřit. Více o tom později.
Kontaktovali jsme ACLU i Amazon s žádostí o komentář a pokud obdržíme odpověď na záznam, aktualizujeme tento článek.
NÁS
Soubor dat USA se skládal z fotografií 430 zástupců a 100 senátorů.
Na hranici spolehlivosti 80 procentRozpoznání nesprávně odpovídalo průměru 32 členů kongresu USAk mugshotům v databázi zatčení. To je o čtyři více než experiment ACLU před dvěma lety.
Podle těchto standardů se rozpoznávání obličeje Amazonu nezlepšilo a dokonce fungovalo hůře, než to, co ACLU předpokládalo před dvěma lety.
Když však zvýšíme práh na to, co Amazon doporučuje pro vymáhání práva,nenašli jsme žádné nesprávné shody se spolehlivostí 95 procent nebo vyšší.ACLU v roce 2018 neposkytla výsledky na této hranici, takže nemáme žádné předchozí výsledky, se kterými bychom se mohli srovnávat.
Spojené království
Náš soubor dat Spojeného království se skládá z 1 429 politiků: 632 členů parlamentu a 797 členů Sněmovny lordů. Porovnali jsme je se stejnými fotografiemi zatčení jako američtí politici.
Na 80procentní hranici spolehlivosti Rekognition špatně identifikovalo průměrně 73 politiků, kteří byli v databázi zatčení zastřeleni.
Míra falešně pozitivních výsledků byla nižší u britských politiků (5 procent) než u amerických (13 procent), což by mohlo naznačovat, že politici ve Spojeném království vypadají podstatně jinak než jejich američtí protějšky, alespoň podle Rekognition.
Když jsme zvýšili práh spolehlivosti na 95 procent, nebyly žádné nesprávné shody.
Rasová zaujatost
ACLU tvrdila, že při 80procentním prahu spolehlivosti byla technologie Amazon rozpoznávání obličejů rasově zaujatá a nesprávně identifikovala nebělochy častěji než bílé lidi.
Naše výsledky toto zjištění podporují. Z 12 politiků, kteří byli nesprávně identifikováni na hranici spolehlivosti 90 procent nebo vyšší, šest nebylo bílých (jak je znázorněno na obrázku v horní části tohoto článku). To znamená, že polovina chybně identifikovaných lidí byli lidé barvy pleti, i když nebílí tvoří jen asi pětinu amerického Kongresu a desetinu britského parlamentu.
Metodologie
Použili jsme veřejně dostupné fotografie 430 zástupců USA, 100 senátorů USA, 632 členů parlamentu Spojeného království a 797 členů Sněmovny lordů.
Ty byly porovnány se čtyřmi sadami 25 000 náhodně vybraných fotografií zatčení z Jailbase.com pomocí Amazon Rekognition. Experiment byl opakován jednou pro každou sadu a výsledky byly zprůměrovány dohromady. Protože ACLU nezveřejnila svá testovací data, nemohli jsme použít úplně stejnou databázi fotografií zatčení.
V některých případech byl jeden politik nesprávně identifikován více než jednou proti několika výstřelům. To se počítá jako jeden falešně pozitivní.
Tato tabulka obsahuje všechny politiky, kteří dosáhli nebo vyšší než 70 procent důvěry, jejich fotografie a důvěru, se kterou se jim Rekognition vyrovnal.
Proč byste neměli důvěřovat statistikám přesnosti rozpoznávání obličeje
Buďte skeptičtí, kdykoli společnost investující do rozpoznávání obličeje rozšiřuje metriky o tom, jak dobře to funguje. Statistiky jsou často neprůhledné a někdy přímo zavádějící.
Zde je příklad, jak lze překroutit statistiky o přesnosti rozpoznávání obličeje. Ve Spojeném království policie v Met tvrdila, že její technologie rozpoznávání obličeje dělá chybu pouze v jednom z 1000 případů. Tohoto čísla dosáhli vydělením počtu nesprávných shod celkovým počtem lidí, jejichž obličeje byly naskenovány. To zvyšuje hodnocení přesnosti zahrnutím skutečných negativů – velké většiny obrázků, které se vůbec neshodovaly.
Naproti tomu nezávislí vědci z University of Essex zjistili, že technologie ano chybovost 81 procent když vydělili počet nesprávných shod celkovým počtem nahlášených shod. Zpráva univerzity je mnohem více v souladu s tím, jak by většina lidí rozumně posuzovala přesnost, nebere v úvahu skutečná negativa a zaměřuje se na míru, s jakou jsou hlášené shody správné.
A později zpráva zjistili, že metská policie používala v Londýně živé rozpoznávání obličejů k naskenování 8 600 tváří lidí bez souhlasu. Výsledky byly v souladu se zjištěními University of Essex: jedna správná shoda vedla k zatčení a sedm falešně pozitivních výsledků.
Falešné negativy
Ještě vzácněji se uvádí míra falešně negativních výsledků: dva snímky stejné osoby, které měly být shodné, ale nebyly. Hypotetickým příkladem této chyby v praxi je, že kamera vybavená rozpoznáním obličeje na letišti by nedokázala spustit výstrahu, když viděla osobu, kterou by měla rozpoznat. Další formou falešného negativu by bylo nerozpoznání, že obličej na obrázku vůbec existuje.
Abychom změřili míru falešně negativních výsledků, museli bychom naplnit naši databázi výstřelů nějakými skutečnými – ale ne identickými – fotografiemi politiků. Protože naším cílem bylo znovu vytvořit test ACLU, bylo to nad rámec našeho experimentu.
Případy použití v reálném světě
Podívejme se také na to, co porovnáváme: dvě sady headshotů. Jeden obsahuje policejní záběry a druhý upravené portréty, ale oba nabízejí jasný pohled na obličej každého člověka v úrovni očí, čelem k fotoaparátu.
Případy použití v reálném světě jsou velmi odlišné. Vezměme si například CCTV sledování. Policie chce skenovat obličeje na křižovatce a porovnávat je s databází kriminálních výstřelů. Zde je jen několik faktorů, které dále zamlžují tvrzení o tom, jak dobře funguje rozpoznávání obličejů v takovém prostředí reálného světa:
- Jak daleko je fotoaparát od objektu?
- V jakém úhlu je kamera namířena na objekt?
- Jakým směrem je objekt otočen?
- Je předmět zakrytý jinými lidmi, předměty nebo počasím?
- Má subjekt na sobě make-up, klobouk nebo brýle nebo se nedávno oholil?
- Jak dobrý je fotoaparát a objektiv? Je to čisté?
- Jak rychle se objekt pohybuje? Jsou rozmazané?
Všechny tyto a další faktory ovlivňují přesnost a výkon rozpoznávání obličeje. Ani ten nejpokročilejší dostupný software pro rozpoznávání obličeje nedokáže vynahradit nekvalitní nebo zastřené snímky.
Přílišná důvěra v rozpoznání tváří může vést k falešnému zatčení. V dubnu 2019 například student žaloval Apple po společnosti software pro rozpoznávání obličeje ho falešně spojoval s krádežemi v několika obchodech Apple, což vedlo k jeho zatčení.
Použití prahové hodnoty vyšší než 80 % jistě zlepšuje výsledky. Ale ať už s policejním používáním rozpoznávání obličeje souhlasíte nebo ne, jedna věc je jistá: není připraveno k použití k identifikaci bez lidského dohledu. Amazon ve svém blogovém příspěvku uvádí: „Ve skutečných scénářích veřejné bezpečnosti a vymáhání práva se Amazon Rekognition téměř výhradně používá k tomu, aby pomohl zúžit pole a umožnil lidem rychle prozkoumat a zvážit možnosti na základě vlastního úsudku (a nikoli k tomu, aby činili plně autonomní rozhodnutí). ).“