Seeing Ai je v Česku, uživatelé iPhonů mohou používat strojové vidění Microsoftu

Microsoft nadělil velký dárek zrakově postiženým uživatelům iPhonů, když 13. prosince oznámil, že jejich mobilní aplikace Seeing Ai má několik nových funkcí a hlavně je konečně dostupná ve všech zemích Evropské unie tedy i v České republice.

K čemu Seeing Ai slouží? Název aplikace česky znamená „vidící umělá inteligence“. Jde tedy o aplikaci, ve které umělá inteligence Microsoftu vyhodnocuje obraz z kamery iPhonu a podle zvoleného režimu hlásí uživateli různé informace, které z obrazu dokáže zjistit – rozpoznaný text, zboží, osoby, barvy, hodnoty bankovek a další. Ve srovnání s mnoha dalšími aplikacemi, které také poskytují některé z těchto funkcí je Seeing Ai často o dost rychlejší a přesnější. Jde tedy o zcela nový a dle mého velmi užitečný nástroj pro zrakově postižené uživatele iPhonu. V Téčku jsme o funkcích Seeing Ai stručně informovali přibližně před čtvrt rokem. Tehdy však byla aplikace dostupná jen v App Storu pro několik málo anglicky mluvících zemí. Nyní ji už bez problému můžeme instalovat zdarma i z českého App Storu, je tedy ten pravý čas podívat se na tuto aplikaci podrobněji.

Instalace

Aplikaci stáhneme a nainstalujeme z App Storu. To může trvat o něco déle, než jsme běžně zvyklý, protože aplikace je poměrně velká, přibližně 250 MB. Když aplikaci po instalaci poprvé spustíme, otevře nám krátkého průvodce, ve kterém jsou na pěti obrazovkách popsány nejdůležitější funkce Seeing Ai. Poté už jen stačí odsouhlasit aplikaci dotaz na přístup k fotoaparátu a potvrdit souhlas s podmínkami používání aplikace a můžeme začít.

Uživatelské rozhraní

Aplikace zatím nebyla počeštěna, musíme se tedy smířit s anglickým prostředím. Uživatelské rozhraní je ale velmi přehledné a jednoduché, zde by tedy angličtina neměla být velkou překážkou. Absence české lokalizace může více vadit jen u některých funkcí, např. při popisu vyfocené osoby nebo scény, protože i tyto popisy jsou samozřejmě v angličtině.

Seeing Ai detekuje, zda při jejím používání máme zapnutý VoiceOver či nikoli. Pokud je VoiceOver vypnutý, hlásí Seeing Ai výsledky rozpoznávání obrazu svým vlastním hlasem, který je jen v angličtině. Máme-li ale VoiceOver zapnutý, Seeing Ai nemluví a nechává veškerý hlasový výstup na samotném VoiceOveru.

Základní obrazovka aplikace sestává z pouhých čtyř nebo pěti prvků. Možná, že trochu logičtější bude projít si prvky odzadu, vezměme je tedy v pořadí odspodu obrazovky:

  • Channel: Celý spodní řádek obrazovky zabírá tento upravitelný prvek, na kterém si šviháním jedním prstem vzhůru nebo dolů vybíráme, jaké informace nám aplikace z obrazu kamery má zjišťovat. Zde tedy nastavujeme, zda chceme rozpoznávat text, barvy, zboží, osoby atd. Všechny dostupné kanály si podrobně popíšeme níže. Po prvním přepnutí do každého z kanálů aplikace zobrazí nápovědu k danému kanálu. tuto nápovědu musíme zavřít tlačítkem Close. Příště už se nápověda sama otevírat nebude.
  • Pause/Resume announcements: U většiny kanálů jsou některé informace hlášeny průběžně v reálném čase. Máme-li např. nastavený kanál Short text, čte nám aplikace průběžně jakýkoli text, který se objeví v záběru kamery. Tímto tlačítkem můžeme průběžné sdělování informací pozastavit nebo zase obnovit.
  • Take picture: Toto tlačítko je dostupné jen u některých kanálů, u kterých je potřeba obraz vyfotit. Např. při rozpoznávání osob Seeing Ai průběžně hlásí, kolik tváří, v jaké vzdálenosti a směru od kamery je v záběru a jakmile stiskneme tlačítko Take picture, je obraz vyfocen a vyhodnocen a jsou nám sděleny podrobné informace např. „asi desetiletý chlapec s hnědými vlasy a veselým výrazem“.
  • Quick help: Toto tlačítko v pravém horním rohu obrazovky otevírá stručnou nápovědu k právě nastavenému kanálu. Zde se dozvíme, k čemu daný kanál slouží a jak ho co nejlépe používat.
  • Menu: Toto tlačítko v levém horním rohu obrazovky otevře menu aplikace, které si popíšeme později.

Jednotlivé kanály

Jak již bylo zmíněno, stojíme-li na upravitelném prvku Channels ve spodním řádku obrazovky, přepínáme šviháním vzhůru a dolů jednotlivé kanály čili jednotlivé rozpoznávací funkce Seeing Ai. Všechny tyto funkce si nyní popíšeme ve stejném pořadí, v jakém je můžeme procházet šviháním.

Kanál Short text

První kanál slouží k rychlému rozpoznávání jakéhokoli textu v záběru kamery. Jakmile se v záběru objeví nějaký text, je okamžitě rozpoznán a přečten. Tento kanál se tedy už podle svého názvu hodí k rychlému přečtení krátkého textu např. štítku obálky, textu na vizitce, krabici či displeji nějakého přístroje. Stačí jen přejet mobilem nad daným předmětem ve vhodné vzdálenosti a jakmile se pod kamerou objeví text, zastavíme pohyb a posloucháme, než nám jej hlas přečte.

Otázkou samozřejmě je, jaká je vhodná vzdálenost od textu. Čím je vzdálenost větší, tím více textu se vejde do záběru, na druhou stranu je text menší a může se snižovat přesnost rozpoznávání. Zkoušel jsem např. číst text z obalů potravin nebo lahviček šampónů. V takovém případě jsem držel mobil přibližně 15 cm od předmětu. Tento kanál jsem využil např. i při přepínání televize ovladačem. Mobil jsem namířil na obrazovku televize a ovladačem jsem přepínal programy. Seeing Ai mi při každém přepnutí okamžitě ohlásila název aktuálního programu, který se při přepnutí na obrazovce dočasně vypsal. Pomocí tohoto kanálu je také možné číst text z obrazovky počítače nebo z displeje neozvučeného mobilu. Zkoušel jsem to i na displej mikrovlnky, která na něm zobrazuje klasickými hranatými digitálními písmeny nastavený čas, zde jsem ale bohužel neuspěl.

Momentálně je značným omezením kanálu Short text, že si neumí poradit s českými písmeny s diakritikou, které při rozpoznávání vynechává. To může v některých případech značně snížit srozumitelnost rozpoznaného textu.

Kanál Document

Druhý kanál slouží k přesnějšímu rozpoznávání a komfortnějšímu čtení delších textů. Zde jsou už správně rozpoznávány i české znaky. Text není rozpoznáván okamžitě, ale až po vyfocení předlohy.

Asi nejlepší postup pro správné vyfocení předlohy je tento. Předlohu položíme na rovnou podložku, která by měla být ideálně v jednolité tmavé barvě, vůči níž by bílý papír byl kontrastní. Potom umístíme iPhone těsně nad předlohu tak, aby kamera byla přibližně ve středu předlohy. Pak mobil pomalu zvedáme výše a výše, a přitom se ho snažíme držet stále ve vodorovné poloze. Seeing Ai průběžně hlídá, zda je v záběru kamery vidět předloha celá, a jakmile jsme v dostatečné vzdálenosti, aby tomu tak opravdu bylo, aplikace nám řekne „hold steady“. To znamená, že v tu chvíli už s mobilem nemáme hýbat, předloha je automaticky vyfocena a text rozpoznán. Kromě hlášení „hold steady“ se při zaměřování předlohy můžeme setkat ještě s hlášeními typu „left and top edges are not visible“ tedy „levý a horní okraj není viditelný“. Takové hlášení nám také pomůže zaměřit předlohu celou. Okamžik pro vyfocení předlohy nemusíme nutně nechat na automatickém rozhodnutí Seeing Ai, ale máme k dispozici i tlačítko Take picture pro ruční vyfocení.

Na rozdíl od kanálu Short text při rozpoznávání celého dokumentu neprobíhá zpracování vyfoceného obrazu přímo v mobilu, ale odesílá se přes internet na server Microsoftu. Rozpoznání tedy trvá o něco déle než např. u klasické OCR aplikace KNFB Reader, nicméně odezva je v rozumném čase přibližně do deseti sekund. Rozpoznaný text se zobrazí na obrazovce pro čtení textu. Zde je sice tlačítko Play pro spuštění čtení, ale text je potom čten interním anglickým hlasem Seeing Ai. Proto je lepší přečíst si text pomocí VoiceOveru.

Chybovost rozpoznávání je podle zběžného porovnání o něco vyšší než u výše zmíněného KNFB Readeru. Seeing Ai také nenabízí žádné doprovodné funkce pro správné vyfocení, jako je vibrační indikace náklonu mobilu. Chybí též volba, zda se v textu mají rozpoznávat sloupce. Rozpoznaný text nelze ukládat. Nejvíce mi ale asi nejen u rozpoznávání textu, ale i u dalších funkcí vadí nemožnost rychle uživatelsky kontrolovat, zda se pro osvětlení předlohy použije dioda fotoaparátu. Pokud fotíme cokoli lesklého, je totiž třeba blesk vypnout, což lze provést jen poměrně zdlouhavě v nastavení aplikace. I tak je ale rozpoznávání textu použitelnou funkcí na zběžné pročtení obsahu na listu papíru či třeba krabičce od zboží.

Kanál Product

Tento kanál slouží k rozpoznávání zboží podle čárového kódu na jeho obalu. I k této funkci potřebuje Seeing Ai připojení k internetu, protože informace o zboží vyhledává v internetové databázi.

Postup pro rozpoznání je následující. Mobilem přejíždíme nad obalem zboží, dokud nám aplikace pípáním nedá najevo, že je čárový kód v záběru. Je dobré být v dostatečné vzdálenosti od obalu, aby kamera viděla jeho dostatečně velkou plochu. Dobře použitelná vzdálenost mi přišla přibližně 15 až 20 cm. Když začne aplikace pípat, víme, že kamera vidí čárový kód. Čím je pípání rychlejší, tím blíže jsme u čárového kódu. Můžeme tedy zkusit mobilem posunout do stran, zda se pípání zrychlí. Poté už by aplikace měla ohlásit „processing“ a během okamžiku zobrazit název zboží. U některých produktů Seeing Ai ohlásila, že zboží nebylo nalezeno. V takovém případě nám nezbývá než v kanálu Short text rozpoznat text na obalu. Ve většině případů ale aplikace zboží podle čárového kódu opravdu najde.

Když je zobrazen název zboží, je pod ním ještě tlačítko More info. Poklepáním na ně otevřeme obrazovku s dalšími informacemi k produktu, jako je např. návod k přípravě. Tyto informace nejsou ale dostupné zdaleka pro všechny produkty a jsou zobrazovány v angličtině. I samotný název produktu je v angličtině, protože je zřejmě vyhledáván v nějaké anglické databázi. Takže např. při rozpoznání produktu „Milka – čokoláda z alpského mléka“ je zobrazeno „Milka – Alpine Chocolate Bar 100 g“. Nalezení čárového kódu mi se Seeing Ai přijde díky signalizaci pípáním o něco jednodušší než s různými jinými aplikacemi, které tuto funkci nemají uzpůsobenou pro použití zrakově postiženými.

Kanál Person

Další funkce Seeing Ai umí rozpoznávat tváře. Když kamerou míříme do prostoru a do záběru se dostane nějaká osoba, mobil automaticky zahlásí něco jako „one face near center 5 feeds away“ tedy „jedna tvář uprostřed, ve vzdálenosti 5 stop“. V tu chvíli můžeme poklepat na tlačítko Take picture, abychom osobu vyfotili a dozvěděli se více. Podrobnější informace potom vypadá např. takto „4 year old girl with blond hair looking happy“ tedy „čtyřletá blonďatá dívka vypadající vesele“.

Seeing Ai můžeme také naučit rozpoznávat konkrétní osoby. V menu aplikace je možnost přidání známé osoby. S touto osobou se domluvíme, aby se třikrát prostřednictvím Seeing Ai vyfotila a k osobě si zapíšeme její jméno. Bude-li příště aktivní kanál Person a do hledáčku se nám dostane daná osoba, Seeing Ai ji nebude hlásit neurčitým výrazem „face“, ale přímo jejím jménem.

Funkce rozpoznávání osob si to u mě rozházela tím, že mi při odhadu věku přidala 9 let. Takže pozor při focení dam, umělá inteligence Microsoftu není příliš galantní a nerozpakuje se říci, co ji zrovna napadne.

Kanál Currency Preview

V tomto režimu Seeing Ai v reálném čase rozpoznává hodnoty bankovek. Jakmile se v záběru kamery objeví bankovka, je ohlášena její hodnota. Zde ale opět narazíme na to, že aplikace zatím není uzpůsobena českému prostředí. České koruny v současnosti nepodporuje. Aktuálně podporované měny jsou Americký a Kanadský dolar, Britská libra a Euro. Vždy jsou rozpoznávány bankovky jen té měny, která je vybraná v nastavení. Ve výchozím stavu to je Americký dolar. Pokud budete chtít vybrat např. Euro, poklepejte na hlavní obrazovce na tlačítko Recognizing. Otevře se obrazovka pro výběr rozpoznávané měny.

Kanál Scene Preview

Tento kanál slouží k popisu vyfocené scény. Prostor před mobilem vyfotíme poklepáním na tlačítko Take picture, a výsledná fotografie se odešle k analýze na server Microsoftu. Po několika sekundách se zobrazí anglický popisek. Jde o experimentální funkci, proto popisek nemusí být stoprocentně přesný. Např. po vyfocení plyšové opice na opěradle křesla jsem se dozvěděl toto: „probably a cat sleeping on top of a chair“. Jiné popisky byly ve stylu „žena připravující v kuchyni jídlo“, „chlapec sedící u talíře s jídlem“, „dům přikrytý sněhem“ apod. Vedle popisku fotky je tlačítko Save, kterým obrázek uložíme do galerie fotografií v iPhonu. Aplikace si v galerii vytvoří album nazvané Seeing Ai.

Kanál Color Preview

V tomto režimu funguje Seeing Ai jako mnohé jiné aplikace pro rozpoznávání barev. Průběžně v reálném čase hlásí barvu předmětu, na který kamera právě míří. Barvy jsou sdělovány opět v angličtině, vystačíme si ale s názvy základních barev, jako je red, green, blue, yellow apod. Stejně jako u jiných aplikací pro detekci barev je i zde přesnost velmi závislá na okolním osvětlení, takže informace, které se takto dozvíme, musíme brát jen velmi orientačně.

Kanál Handwriting Preview

Tento experimentální kanál se snaží o rozpoznání textu psaného rukou. Předlohu je třeba vyfotit aktivováním tlačítka Take picture, a fotografie se odešle ke zpracování na server Microsoftu. Zkoušel jsem takto rozpoznávat text psaný hůlkovým i psacím písmem a ani jednou jsem neuspěl. Uvidíme, zda se umělá inteligence Microsoftu v této věci časem zlepší a budeme schopni získat nějaké použitelné výsledky, V takovém případě by Seeing Ai byla patrně první aplikace schopná rozpoznávat rukopis. Momentálně ale zřejmě nejde o funkci, která by byla v praxi použitelná.

Kanál Light

Poslední kanál slouží jako klasický detektor světla. Když se do něj přepneme, začne iPhone vydávat zvuk, jehož výška se průběžně mění podle množství světla ve směru, kterým míří kamera. Čím více světla, tím vyšší tón. Funkce funguje velmi intuitivně a spolehlivě. Můžeme tedy snadno zjistit, zda v místnosti svítíme a ve kterém směru se zdroj světla nachází.

Rozpoznávání fotek z iPhonu

Aplikaci Seeing Ai můžeme využít také k rozpoznávání obsahu fotek, které už máme uložené v galerii iPhonu. V aplikaci Fotky jen stačí u otevřené fotografie poklepat na tlačítko Sdílet a v následné nabídce zvolit položku Recognize with Seeing Ai. Otevře se obrazovka, kde bude zobrazena daná fotka a pod ní textový popisek ve stejné podobě jako při rozpoznávání scény. Po přečtení popisku tuto obrazovku zavřeme poklepáním na tlačítko Close a budeme zpět v aplikaci Fotky.

Položka Recognize with Seeing Ai nemusí být v nabídce sdílení zobrazena. Aby se zde objevila, je třeba poklepat na tlačítko Více a v seznamu všech dostupných aplikací, do kterých lze fotku nasdílet, vybrat právě položku Recognize with Seeing Ai.

Menu Seeing Ai

V levém horním rohu hlavní obrazovky Seeing Ai je tlačítko, kterým lze otevřít hlavní menu aplikace. V tomto menu jsou zřejmě nejdůležitější následující položky:

  • Face recognition: Tímto tlačítkem otevřeme obrazovku se seznamem osob, jejichž podobu si Seeing Ai pamatuje, aby nám mohla v kanálu Person hlásit jejich jména, kdykoli se objeví v záběru kamery. Pomocí tlačítka Add zde můžeme přidávat další osoby.
  • Help: tímto tlačítkem otevřeme nápovědu k aplikaci v angličtině. Kromě této celkové nápovědy můžeme, jak už bylo zmíněno, z hlavní obrazovky pomocí tlačítka Quick help otevřít jen tu část nápovědy, která se týká právě vybraného kanálu.
  • Settings: Přes toto tlačítko se dostaneme na obrazovku s nastavením aplikace. Zde můžeme vybrat, jaké bankovky budou rozpoznávány v kanálu Currency, dále můžeme zapnout či vypnout automatické osvětlování bleskem kamery podle detekce okolního světla a také nastavovat interní hlasový výstup aplikace. Ten se ale při zapnutém VoiceOveru stejně nepoužívá.

Závěr

Seeing Ai je jedinečnou aplikací hned z několika důvodů. Prvním důvodem je široká škála funkcí, které nabízí. V rámci jedné aplikace máme to, na co jsme dříve potřebovali aplikací několik – rozpoznávání textu, rozpoznávání předmětů, rozpoznávání barev, detekce světla atd. Vše je přitom dostupné ve velmi jednoduchém a přehledném uživatelském rozhraní. Jediné, co mi v rozhraní aplikace znatelně chybí, je volba pro rychlé zapínání a vypínání blesku fotoaparátu, což je potřeba poměrně často – při každém snímání lesklého předmětu.

Unikátní je funkce okamžitého čtení textu v záběru kamery. Rozpoznávání delších textů je také použitelné, i když je celkově o něco méně přesné a komfortní než u specializované aplikace KNFB Reader. Z hlediska uživatele se zbytky zraku je dobře řešená i funkce rozpoznávání zboží podle čárových kódů, i když si stále nejsem jistý, jak moc to je použitelné pro zcela nevidomé uživatele.

Nevím, jak moc člověk v praxi využije rozpoznávání lidí a scény, ale i zde mi přesnost popisu přijde vyšší než u jiných aplikací s obdobnými funkcemi.

Je škoda, že Seeing Ai zatím není lokalizována a není uzpůsobena pro český text a české bankovky. Uživatel u některých funkcí musí mít alespoň základní znalost angličtiny. Nicméně i tak je skvělé, že se tato aplikace konečně objevila v českém App Storu a určitě ji lze doporučit. Seeing Ai je opravdu dobrý dárek Microsoftu pro české zrakově postižené uživatele iPhonů.

Autor: Jan Šnyrych

Další zdroje informací

Štítky