Nejtěžší úkol, jakému kdy AI čelila: Dokáže se naučit africké jazyky? Vývojáři stojí před zásadním problémem

Ilustrační foto
Ilustrační foto, foto: Pixabay
Klára Marková 12. prosince 2025 14:34
Sdílej:

Vývojáři umělé inteligence na africkém kontinentu čelí zásadní výzvě: jak trénovat modely, aby rozuměly a odpovídaly v místních jazycích, když neexistují téměř žádné psané zdroje k přečtení. Zatímco pro angličtinu existuje přes 7 milionů článků na Wikipedii, u většiny z odhadovaných 1500 až 3000 afrických jazyků je dostupnost dat minimální. Například tigriňa, kterou mluví asi 9 milionů lidí v Etiopii a Eritrei, má pouze 335 článků, a pro akan, nejpoužívanější rodný jazyk v Ghaně, není na Wikipedii žádný.

Z tisíců afrických jazyků je v současné době podporováno jen 42 jazykovými modely. Z 23 písem a abeced jsou k dispozici pouze tři – latinka, arabština a ge'ez (používané v Africkém rohu). Toto nedostatečné zastoupení pramení především z finančních důvodů. I když je mluvčích svahilštiny více než mluvčích finštiny, Finsko představuje lepší trh pro technologické giganty jako Google a Apple.

Chinasa T. Okolo, zakladatelka výzkumného institutu Technēculturǎ, varuje, že nedostatečný rozvoj jazykových modelů může mít pro Afriku katastrofální dopad, kdy budou lidé, kteří nehovoří některým z oněch 42 podporovaných jazyků, nadále vyloučeni z příležitostí. Pro rozvoj vlastní AI infrastruktury je proto nutné přehodnotit způsob vývoje modelů.

Profesor počítačových věd Vukosi Marivate z Pretoriiské univerzity vedl jihoafrickou část projektu African Next Voices. Tři týmy v Jihoafrické republice, Keni a Nigérii shromáždily za dva roky 9000 hodin audio nahrávek v 18 jazycích od mluvčích různého věku a z různých lokalit. Vytvořili tak datovou sadu, kterou mohou vývojáři AI využít k trénování modelů. V některých případech, jako u jazyka isindebele, bylo pro vytvoření podkladů pro nahrávky nutné použít vládní příručku pro pastevce koz, protože psaných zdrojů bylo k dispozici minimum.

Ačkoli African Next Voices neshromáždil dostatek dat pro trénování velkých jazykových modelů typu ChatGPT, zaměřili se na nahrávky týkající se klíčových témat, jako je zdravotnictví a zemědělství. Jak vysvětluje Nyalleng Moorosi, výzkumná pracovnice z institutu DAIR, malé, zaměřené datové sady mohou dosáhnout vysoké přesnosti v rámci specializovaného modelu. Podle ní je klíčové prioritizovat chyby. Zatímco chyby v modelech informujících o dění v centru Nairobi jsou tolerovatelné, chyby v bankovnictví nebo zdravotnictví mohou mít vážné důsledky.

Moorosi zdůrazňuje, že tvůrci AI musí chápat důsledky a kultury, aby pochopili váhu těchto chyb. Slova a symboly mají často mnoho významů; například kříž svatého Jiří je ve Spojeném království spojen s krajně pravicovou politikou, což není zřejmé někomu z Ghany. Nedostatek dokumentace a kontextuálního porozumění u jazyků s omezenými zdroji je velkým problémem. Studie DAIR například ukázala, že sociální média neodstranila nenávistné projevy související s etnickým násilím v Etiopii částečně proto, že systémy nebyly obeznámeny s místními slangovými výrazy.

Kromě nedostatku dat čelí afričtí vývojáři i problému s neukotveností mnoha afrických jazyků, které často postrádají kodifikaci ve formě slovníků nebo gramatik. Například pro jazyk kinyarwanda existují tři běžné způsoby psaní názvu země (uRwanda, Urwanda a u Rwanda), což komplikuje i základní zpracování textu. Další překážkou je nedostatek datových center.

Marivate se obává, že pokud se modely pro menší jazyky nevytvoří, tyto jazyky „zmizí“. Říká, že v případě jazyků, které nemají ani psací systém, se „model bude muset změnit“. Cílem by přitom mělo být zpřístupnění AI ve všech jazycích, a to i pro ty, kterými mluví jen jeden člověk. „Všechny jazyky si zaslouží zastoupení nebo zachování,“ dodává Moorosi.

Stalo se
Novinky
Emmanuel Macron

Bez Britů byste mluvili francouzsky, řekl Karel III. Trumpovi. Následně se ozval Macron

Během státní večeře v Bílém domě došlo k neformálnímu diplomatickému pošťuchování mezi britským králem Karlem III., americkým prezidentem Donaldem Trumpem a francouzským prezidentem Emmanuelem Macronem. Král Karel III. ve svém projevu vtipně reagoval na dřívější Trumpovy výroky o tom, že nebýt Spojených států, mluvilo by se v Evropě německy. Britský panovník s nadsázkou kontroval slovy, že nebýt Britů, mluvilo by se v Americe francouzsky. Na tento žert pohotově zareagoval Emmanuel Macron na sociální síti X komentářem, že by to bylo „šik“. 

Novinky
Sociální sítě

Meta porušuje legislativu Evropské unie. Nedokáže zabránit mladým v přístupu na sociální sítě

Evropská komise po téměř dvouletém vyšetřování dospěla k závěru, že společnost Meta porušuje legislativu Evropské unie. Problémem je nedostatečná ochrana dětí mladších třinácti let, kterým se nedaří efektivně bránit v přístupu na sociální sítě Facebook a Instagram. I když firma ve svých podmínkách stanovuje minimální věk třinácti let pro bezpečné používání služeb, realita je podle komise zcela odlišná a stávající opatření v praxi nefungují.

Novinky
Gustavo Petro

Z Kolumbie přichází vážné varování: Současný kapitalismus ohrožuje samotné přežití lidstva

Kolumbijský prezident Gustavo Petro na summitu v Santa Martě varoval, že současný kapitalistický systém se chová sebedestruktivně. Podle něj tento model vede svět k válkám, vzestupu fašismu a ohrožuje samotné přežití lidstva. Zájmové skupiny spojené s fosilními palivy podle něj zoufale usilují o udržení své moci, i když to znamená blokování přechodu k čisté energii. Prezident vyslovil pochybnost, zda je stávající ekonomický systém vůbec schopen adaptace na energetiku bez využití fosilních zdrojů.

Novinky
Ursula von der Leyen

Von der Leyenová: Válka v Íránu stojí Evropskou unii půl miliardy eur denně

Evropská unie čelí masivním ekonomickým ztrátám v důsledku probíhajícího konfliktu na Blízkém východě. Předsedkyně Evropské komise Ursula von der Leyen varovala, že současná situace a růst cen fosilních paliv stojí unii přibližně 500 milionů eur denně. Během pouhých šedesáti dnů konfliktu se účet za dovoz těchto surovin zvýšil o více než 27 miliard eur, přičemž tento nárůst neodráží vyšší objem dodávek, ale čistě cenové výkyvy na globálních trzích.