Vývojáři umělé inteligence na africkém kontinentu čelí zásadní výzvě: jak trénovat modely, aby rozuměly a odpovídaly v místních jazycích, když neexistují téměř žádné psané zdroje k přečtení. Zatímco pro angličtinu existuje přes 7 milionů článků na Wikipedii, u většiny z odhadovaných 1500 až 3000 afrických jazyků je dostupnost dat minimální. Například tigriňa, kterou mluví asi 9 milionů lidí v Etiopii a Eritrei, má pouze 335 článků, a pro akan, nejpoužívanější rodný jazyk v Ghaně, není na Wikipedii žádný.
Z tisíců afrických jazyků je v současné době podporováno jen 42 jazykovými modely. Z 23 písem a abeced jsou k dispozici pouze tři – latinka, arabština a ge'ez (používané v Africkém rohu). Toto nedostatečné zastoupení pramení především z finančních důvodů. I když je mluvčích svahilštiny více než mluvčích finštiny, Finsko představuje lepší trh pro technologické giganty jako Google a Apple.
Chinasa T. Okolo, zakladatelka výzkumného institutu Technēculturǎ, varuje, že nedostatečný rozvoj jazykových modelů může mít pro Afriku katastrofální dopad, kdy budou lidé, kteří nehovoří některým z oněch 42 podporovaných jazyků, nadále vyloučeni z příležitostí. Pro rozvoj vlastní AI infrastruktury je proto nutné přehodnotit způsob vývoje modelů.
Profesor počítačových věd Vukosi Marivate z Pretoriiské univerzity vedl jihoafrickou část projektu African Next Voices. Tři týmy v Jihoafrické republice, Keni a Nigérii shromáždily za dva roky 9000 hodin audio nahrávek v 18 jazycích od mluvčích různého věku a z různých lokalit. Vytvořili tak datovou sadu, kterou mohou vývojáři AI využít k trénování modelů. V některých případech, jako u jazyka isindebele, bylo pro vytvoření podkladů pro nahrávky nutné použít vládní příručku pro pastevce koz, protože psaných zdrojů bylo k dispozici minimum.
Ačkoli African Next Voices neshromáždil dostatek dat pro trénování velkých jazykových modelů typu ChatGPT, zaměřili se na nahrávky týkající se klíčových témat, jako je zdravotnictví a zemědělství. Jak vysvětluje Nyalleng Moorosi, výzkumná pracovnice z institutu DAIR, malé, zaměřené datové sady mohou dosáhnout vysoké přesnosti v rámci specializovaného modelu. Podle ní je klíčové prioritizovat chyby. Zatímco chyby v modelech informujících o dění v centru Nairobi jsou tolerovatelné, chyby v bankovnictví nebo zdravotnictví mohou mít vážné důsledky.
Moorosi zdůrazňuje, že tvůrci AI musí chápat důsledky a kultury, aby pochopili váhu těchto chyb. Slova a symboly mají často mnoho významů; například kříž svatého Jiří je ve Spojeném království spojen s krajně pravicovou politikou, což není zřejmé někomu z Ghany. Nedostatek dokumentace a kontextuálního porozumění u jazyků s omezenými zdroji je velkým problémem. Studie DAIR například ukázala, že sociální média neodstranila nenávistné projevy související s etnickým násilím v Etiopii částečně proto, že systémy nebyly obeznámeny s místními slangovými výrazy.
Kromě nedostatku dat čelí afričtí vývojáři i problému s neukotveností mnoha afrických jazyků, které často postrádají kodifikaci ve formě slovníků nebo gramatik. Například pro jazyk kinyarwanda existují tři běžné způsoby psaní názvu země (uRwanda, Urwanda a u Rwanda), což komplikuje i základní zpracování textu. Další překážkou je nedostatek datových center.
Marivate se obává, že pokud se modely pro menší jazyky nevytvoří, tyto jazyky „zmizí“. Říká, že v případě jazyků, které nemají ani psací systém, se „model bude muset změnit“. Cílem by přitom mělo být zpřístupnění AI ve všech jazycích, a to i pro ty, kterými mluví jen jeden člověk. „Všechny jazyky si zaslouží zastoupení nebo zachování,“ dodává Moorosi.
Policie od pátku vyšetřuje vraždu, ke které došlo na pražském Chodově. Případem se zabývají kriminalisté, zadržena byla jedna osoba. Jde o muže, jenž je podezřelý z vraždy.
Mele jako kolovrátek. Tak by se stručně daly komentovat opakující se reakce britské královské rodiny na nová zjištění, která se týkají bývalého prince Andrewa. Buckinghamský palác si zjevně vystačí s jedním jediným vyjádřením.
Pokud se vám zatím nelíbilo relativně chladné počasí v úvodu meteorologického léta, které začalo prvního červnového dne, bude se vám líbit změna, kterou nabídne příští týden. Meteorologové už mají jasno.
Thajsko v týdnu zasáhla smutná zpráva, na kterou kondolencí reagoval i český prezident Petr Pavel. Ve věku pouhých 47 let zemřela princezna Bajrakitiyabha, která strávila poslední roky života v kómatu kvůli vážným zdravotním problémům.
Americký prezident Donald Trump v uplynulých dnech hrozil dalšími masivními údery na Írán, které však na poslední chvíli odvolal, aby vzápětí oznámil, že se blíží podpis mírové dohody. K obratu měli zásadně přispět zástupci zemí Perského zálivu, odhalil web Politico.
Druhá červnová sobota patřila ve Velké Británii každoroční akci zvané Trooping the Colour, při které se slaví narozeniny monarchy. Králi Karlovi III. ovšem bude 78 let až v listopadu. Tradice se ale musí dodržovat.
Přijetí eura bývá často líčeno jako cesta k levnějším hypotékám. A tedy jako možná úleva pro mladé domácnosti, které dnes jen obtížně dosahují na vlastní bydlení. Jenže právě zde se skrývá podstatné riziko. V českých podmínkách může euro porodnosti nikoli pomoci, ale naopak ji dále srazit.
Po květnové oslavě narozenin nebylo o Jiřině Bohdalové nějaký čas slyšet. Až nyní se zase objevila informace, která se jí týká. Legendární herečka totiž nemohla chybět na zásadní rodinné události na prominentním místě v Praze.
Obchody v Česku upravují otevírací dobu prakticky jen během vybraných státních svátků, kdy je k tomu nutí zákon. V červnu ale nastane jedna speciální situace. Příští týden uzavře jeden z tuzemských řetězců své prodejny předčasně kvůli fotbalu.
Počasí se vám v posledních dnech nemusí líbit, ale vodákům přeje. Situace na tuzemských řekách se totiž během hlavní vodácké sezóny zlepšuje. Podle předpovědi se ale už v příštím týdnu vrátí do Česka tropické teploty.
Slovensko ze všech možných úhlů řeší rozchod bývalé prezidentky Zuzany Čaputové s Jurajem Rizmanem, který byl po jejím boku šest let. Dvojice bude muset vyřešit jednu nepříjemnou záležitost.
Česko v tomto týdnu zasáhla jedna velmi smutná zpráva, když ve věku 92 let zemřela Zdena Mašínová, dcera odbojáře Josefa Mašína a sestra kontroverzně vnímaných bratří Mašínů. Od pátku je známo, kdy a kde se uskuteční poslední rozloučení s vyznamenanou dámou.