Nejtěžší úkol, jakému kdy AI čelila: Dokáže se naučit africké jazyky? Vývojáři stojí před zásadním problémem

Ilustrační foto
Ilustrační foto, foto: Pixabay
Klára Marková DNES 14:34
Sdílej:

Vývojáři umělé inteligence na africkém kontinentu čelí zásadní výzvě: jak trénovat modely, aby rozuměly a odpovídaly v místních jazycích, když neexistují téměř žádné psané zdroje k přečtení. Zatímco pro angličtinu existuje přes 7 milionů článků na Wikipedii, u většiny z odhadovaných 1500 až 3000 afrických jazyků je dostupnost dat minimální. Například tigriňa, kterou mluví asi 9 milionů lidí v Etiopii a Eritrei, má pouze 335 článků, a pro akan, nejpoužívanější rodný jazyk v Ghaně, není na Wikipedii žádný.

Z tisíců afrických jazyků je v současné době podporováno jen 42 jazykovými modely. Z 23 písem a abeced jsou k dispozici pouze tři – latinka, arabština a ge'ez (používané v Africkém rohu). Toto nedostatečné zastoupení pramení především z finančních důvodů. I když je mluvčích svahilštiny více než mluvčích finštiny, Finsko představuje lepší trh pro technologické giganty jako Google a Apple.

Chinasa T. Okolo, zakladatelka výzkumného institutu Technēculturǎ, varuje, že nedostatečný rozvoj jazykových modelů může mít pro Afriku katastrofální dopad, kdy budou lidé, kteří nehovoří některým z oněch 42 podporovaných jazyků, nadále vyloučeni z příležitostí. Pro rozvoj vlastní AI infrastruktury je proto nutné přehodnotit způsob vývoje modelů.

Profesor počítačových věd Vukosi Marivate z Pretoriiské univerzity vedl jihoafrickou část projektu African Next Voices. Tři týmy v Jihoafrické republice, Keni a Nigérii shromáždily za dva roky 9000 hodin audio nahrávek v 18 jazycích od mluvčích různého věku a z různých lokalit. Vytvořili tak datovou sadu, kterou mohou vývojáři AI využít k trénování modelů. V některých případech, jako u jazyka isindebele, bylo pro vytvoření podkladů pro nahrávky nutné použít vládní příručku pro pastevce koz, protože psaných zdrojů bylo k dispozici minimum.

Ačkoli African Next Voices neshromáždil dostatek dat pro trénování velkých jazykových modelů typu ChatGPT, zaměřili se na nahrávky týkající se klíčových témat, jako je zdravotnictví a zemědělství. Jak vysvětluje Nyalleng Moorosi, výzkumná pracovnice z institutu DAIR, malé, zaměřené datové sady mohou dosáhnout vysoké přesnosti v rámci specializovaného modelu. Podle ní je klíčové prioritizovat chyby. Zatímco chyby v modelech informujících o dění v centru Nairobi jsou tolerovatelné, chyby v bankovnictví nebo zdravotnictví mohou mít vážné důsledky.

Moorosi zdůrazňuje, že tvůrci AI musí chápat důsledky a kultury, aby pochopili váhu těchto chyb. Slova a symboly mají často mnoho významů; například kříž svatého Jiří je ve Spojeném království spojen s krajně pravicovou politikou, což není zřejmé někomu z Ghany. Nedostatek dokumentace a kontextuálního porozumění u jazyků s omezenými zdroji je velkým problémem. Studie DAIR například ukázala, že sociální média neodstranila nenávistné projevy související s etnickým násilím v Etiopii částečně proto, že systémy nebyly obeznámeny s místními slangovými výrazy.

Kromě nedostatku dat čelí afričtí vývojáři i problému s neukotveností mnoha afrických jazyků, které často postrádají kodifikaci ve formě slovníků nebo gramatik. Například pro jazyk kinyarwanda existují tři běžné způsoby psaní názvu země (uRwanda, Urwanda a u Rwanda), což komplikuje i základní zpracování textu. Další překážkou je nedostatek datových center.

Marivate se obává, že pokud se modely pro menší jazyky nevytvoří, tyto jazyky „zmizí“. Říká, že v případě jazyků, které nemají ani psací systém, se „model bude muset změnit“. Cílem by přitom mělo být zpřístupnění AI ve všech jazycích, a to i pro ty, kterými mluví jen jeden člověk. „Všechny jazyky si zaslouží zastoupení nebo zachování,“ dodává Moorosi.

Stalo se
Novinky
Robert F. Kennedy jr.

Kennedy jr. zaúřadoval. Do oficiálního webu CDC protlačil nesmyslná tvrzení o vakcínách

Americké Centrum pro kontrolu a prevenci nemocí (CDC) pod nátlakem americké vlády revidovalo své dlouhodobé stanovisko k otázce očkování a autismu. Původní směrnice CDC jasně a správně uváděla, že dostupné důkazy neprokazují žádnou souvislost mezi vakcínami a rozvojem autismu. Nová verze prosazená vládou však tvrdí, že „studie podporující spojitost mezi vakcínami a autismem byly zdravotnickými úřady ignorovány“. Dále uvádí, že tvrzení „vakcíny nezpůsobují autismus“ není založeno na důkazech, protože studie nevyloučily možnost, že vakcíny podávané kojencům autismus způsobují.

Novinky
Pásmo Gazy

Trumpův mírový plán pro Gazu se potýká s problémy, Izrael a Hamás čelí těžkým rozhodnutím

Ghadir al-Adhamová sdílí stan se svým manželem a šesti dětmi v Gaze, kam neustále prosakuje voda. Její rodina je stále vysídlená po válce a čeká na zahájení rekonstrukce. Řekla BBC, že žijí v ponížení a touží po karavanech, po obnově svých domovů. Prosí o beton, který by je udržel v teple, a každý den pláče kvůli svým dětem.

Novinky
Sociální sítě

Mladí Australané se vrací na sociální sítě. Našli způsoby, jak zákaz obejít

Čtrnáctiletá roztleskávačka Lucy Brooksová na chvíli ztratila některé přátele na Snapchatu, když ve středu vstoupil v platnost australský zákaz sociálních sítí pro osoby mladší šestnácti let. Během čtyřiadvaceti hodin ale byli všichni zpět. Mnozí si založili nové účty, přičemž někteří použili tváře rodičů nebo starších kamarádů, kteří jim ochotně pomohli obejít technologii detekce věku.

Novinky
Donald Trump

Trump rozšiřuje sankce proti Venezuele, hrozí útoky na pozemní cíle

Donald Trump zvyšuje tlak na venezuelského prezidenta Nicoláse Madura, rozšiřuje sankce a hrozí útoky na pozemní cíle ve Venezuele. Prezident Maduro v reakci obvinil amerického prezidenta ze zahájení nové „éry kriminálního námořního pirátství“ v Karibiku. Spojené státy ve čtvrtek uvalily omezení na tři synovce Cilii Flores, manželky Madura, a také na šest supertankerů na ropu a lodní společnosti s nimi spojené.