Nejtěžší úkol, jakému kdy AI čelila: Dokáže se naučit africké jazyky? Vývojáři stojí před zásadním problémem

Ilustrační foto
Ilustrační foto, foto: Pixabay
Klára Marková 12. prosince 2025 14:34
Sdílej:

Vývojáři umělé inteligence na africkém kontinentu čelí zásadní výzvě: jak trénovat modely, aby rozuměly a odpovídaly v místních jazycích, když neexistují téměř žádné psané zdroje k přečtení. Zatímco pro angličtinu existuje přes 7 milionů článků na Wikipedii, u většiny z odhadovaných 1500 až 3000 afrických jazyků je dostupnost dat minimální. Například tigriňa, kterou mluví asi 9 milionů lidí v Etiopii a Eritrei, má pouze 335 článků, a pro akan, nejpoužívanější rodný jazyk v Ghaně, není na Wikipedii žádný.

Z tisíců afrických jazyků je v současné době podporováno jen 42 jazykovými modely. Z 23 písem a abeced jsou k dispozici pouze tři – latinka, arabština a ge'ez (používané v Africkém rohu). Toto nedostatečné zastoupení pramení především z finančních důvodů. I když je mluvčích svahilštiny více než mluvčích finštiny, Finsko představuje lepší trh pro technologické giganty jako Google a Apple.

Chinasa T. Okolo, zakladatelka výzkumného institutu Technēculturǎ, varuje, že nedostatečný rozvoj jazykových modelů může mít pro Afriku katastrofální dopad, kdy budou lidé, kteří nehovoří některým z oněch 42 podporovaných jazyků, nadále vyloučeni z příležitostí. Pro rozvoj vlastní AI infrastruktury je proto nutné přehodnotit způsob vývoje modelů.

Profesor počítačových věd Vukosi Marivate z Pretoriiské univerzity vedl jihoafrickou část projektu African Next Voices. Tři týmy v Jihoafrické republice, Keni a Nigérii shromáždily za dva roky 9000 hodin audio nahrávek v 18 jazycích od mluvčích různého věku a z různých lokalit. Vytvořili tak datovou sadu, kterou mohou vývojáři AI využít k trénování modelů. V některých případech, jako u jazyka isindebele, bylo pro vytvoření podkladů pro nahrávky nutné použít vládní příručku pro pastevce koz, protože psaných zdrojů bylo k dispozici minimum.

Ačkoli African Next Voices neshromáždil dostatek dat pro trénování velkých jazykových modelů typu ChatGPT, zaměřili se na nahrávky týkající se klíčových témat, jako je zdravotnictví a zemědělství. Jak vysvětluje Nyalleng Moorosi, výzkumná pracovnice z institutu DAIR, malé, zaměřené datové sady mohou dosáhnout vysoké přesnosti v rámci specializovaného modelu. Podle ní je klíčové prioritizovat chyby. Zatímco chyby v modelech informujících o dění v centru Nairobi jsou tolerovatelné, chyby v bankovnictví nebo zdravotnictví mohou mít vážné důsledky.

Moorosi zdůrazňuje, že tvůrci AI musí chápat důsledky a kultury, aby pochopili váhu těchto chyb. Slova a symboly mají často mnoho významů; například kříž svatého Jiří je ve Spojeném království spojen s krajně pravicovou politikou, což není zřejmé někomu z Ghany. Nedostatek dokumentace a kontextuálního porozumění u jazyků s omezenými zdroji je velkým problémem. Studie DAIR například ukázala, že sociální média neodstranila nenávistné projevy související s etnickým násilím v Etiopii částečně proto, že systémy nebyly obeznámeny s místními slangovými výrazy.

Kromě nedostatku dat čelí afričtí vývojáři i problému s neukotveností mnoha afrických jazyků, které často postrádají kodifikaci ve formě slovníků nebo gramatik. Například pro jazyk kinyarwanda existují tři běžné způsoby psaní názvu země (uRwanda, Urwanda a u Rwanda), což komplikuje i základní zpracování textu. Další překážkou je nedostatek datových center.

Marivate se obává, že pokud se modely pro menší jazyky nevytvoří, tyto jazyky „zmizí“. Říká, že v případě jazyků, které nemají ani psací systém, se „model bude muset změnit“. Cílem by přitom mělo být zpřístupnění AI ve všech jazycích, a to i pro ty, kterými mluví jen jeden člověk. „Všechny jazyky si zaslouží zastoupení nebo zachování,“ dodává Moorosi.

Stalo se
Novinky
Alí Chameneí

Alí Chameneí nechtěl, aby vedení Íránu přezval Modžtaba. Není příliš chytrý, tvrdí rozvědka

Americké zpravodajské služby předložily prezidentu Donaldu Trumpovi a jeho nejbližšímu okolí analýzu, podle které měl zesnulý íránský nejvyšší vůdce Alí Chameneí vážné pochybnosti o tom, zda by ho měl v čele země nahradit jeho syn. Podle několika zdrojů serveru CBS News blízkých administrativě se tyto interní dokumenty zakládají na informacích o dlouhodobé nedůvěře, kterou otec ke svému nástupci choval. Starší Chameneí se údajně obával, že jeho syn postrádá potřebné schopnosti pro vedení teokratického státu.

Novinky
USS Abraham Lincoln

Vyřadili jsme z provozu letadlovou loď USS Abraham Lincoln, tvrdí Teherán. Nesmysl, reagují Američané

Velení americké armády pro Blízký východ (CENTCOM) obvinilo íránské revoluční gardy z šíření lživých informací týkajících se letadlové lodi USS Abraham Lincoln. Teherán opakovaně tvrdil, že se mu podařilo toto plavidlo vyřadit z provozu, což však Američané důrazně popřeli. Podle prohlášení CENTCOM si úderná skupina kolem letadlové lodi Abraham Lincoln i nadále udržuje naprostou nadvládu nad íránským vzdušným prostorem.

Novinky
Modžtaba Chámeneí

Znetvořený? Modžtaba Chameneí je v dobrém zdravotním stavu,tvrdí Teherán. Na veřejnosti se přesto neukázal

Íránský ministr zahraničí Abbás Arákčí v rozhovoru pro web Al-Araby al-Jadeed prohlásil, že nový nejvyšší vůdce Modžtaba Chameneí je v dobrém zdravotním stavu a plně kontroluje probíhající situaci. Šestapadesátiletý Chameneí, který nastoupil do čela země po smrti svého otce, se od převzetí moci neobjevil na veřejnosti, což vyvolalo vlnu spekulací o jeho skutečné kondici.

Novinky
Donald Trump

Trump je přesvědčen o neporazitelnosti, válka v Íránu ho ale může stát kariéru

Válečné tažení Donalda Trumpa proti Íránu a s ním spojené ekonomické otřesy by se mohly stát rozhodujícím faktorem jeho politické porážky. Přestože prezident v posledních týdnech slavil úspěchy, jako bylo například dopadení venezuelského prezidenta Nicoláse Madura, situace na Blízkém východě začíná představovat hrozbu, kterou ani americká energetická soběstačnost nemusí zastavit. Trump je sice přesvědčen o neporazitelnosti své společné ofenzivy s Izraelem, ale nálada americké veřejnosti se začíná obracet proti němu.