„Intron Health“ palaiko savo kalbos atpažinimo įrankį, atpažįstantį afrikietiškus akcentus
Balso atpažinimas integruojamas beveik visuose šiuolaikinio gyvenimo aspektuose, tačiau išlieka didelis atotrūkis: kalbantieji mažumų kalbomis ir turintys storų kirčių ar kalbos sutrikimų, tokių kaip mikčiojimas, paprastai mažiau gali naudoti kalbos atpažinimo įrankius, kurie valdo programas, transkribuoja arba automatizuoti užduotis, be kitų funkcijų.
Tobi Olatunji, klinikinio kalbos atpažinimo startuolio „Intron Health“ įkūrėjas ir generalinis direktorius, nori užpildyti šią spragą. Jis teigia, kad Intron yra didžiausia Afrikos klinikinė duomenų bazė, kurios algoritmas parengtas naudojant 3,5 milijono garso klipų (16 000 valandų) iš daugiau nei 18 000 bendradarbių, daugiausia sveikatos priežiūros specialistų, atstovaujančių 29 šalims ir 288 akcentais. Olatunji teigia, kad pritraukiant didžiąją dalį savo rėmėjų iš sveikatos priežiūros sektoriaus užtikrinama, kad medicininiai terminai būtų tariami ir teisingai užfiksuoti jo tikslinėse rinkose.
„Kadangi mes jau mokėmės dėl daugelio afrikietiškų akcentų, labai tikėtina, kad pradinis jų prieigos našumas bus daug geresnis nei bet kurios kitos paslaugos, kurią jie naudoja“, – sakė jis ir pridūrė, kad Ganos, Ugandos ir Pietų Afrikos duomenys auga. ir kad startuolis yra įsitikinęs, kad ten įdiegs modelį.
Olatunji susidomėjimas sveikatos technologijomis kyla iš dviejų jo patirties krypčių. Pirmiausia jis įgijo medicinos gydytojo mokymą ir praktiką Nigerijoje, kur iš pirmų lūpų pamatė sistemų neefektyvumą toje rinkoje, įskaitant tai, kiek dokumentų reikia užpildyti ir kaip sunku visa tai sekti.
„Kai prieš porą metų buvau gydytojas Nigerijoje, net medicinos mokykloje ir net dabar, lengvai susierzinu atlikdamas pasikartojančią užduotį, kuri nenusipelno žmogaus pastangų“, – sakė jis. „Paprastas pavyzdys yra tas, kad kiekviename laboratorijos užsakyme turėjome įrašyti paciento vardą. Ir tiesiog kažkas paprasto, tarkime, aš matau pacientus ir jiems reikia išrašyti receptus, atlikti laboratorijas. Turiu rankiniu būdu išrašyti kiekvieną jų užsakymą. Man tiesiog apmaudu, kai tenka kartoti paciento vardą ir pavardę ant kiekvienos formos, amžių, datą ir visa tai… Aš visada klausiu, kaip mes galime padaryti viską geriau? Kaip palengvinti gydytojų gyvenimą? Ar galime atimti kai kurias užduotis ir perkelti jas į kitą sistemą, kad gydytojas galėtų praleisti laiką darydamas tai, kas yra labai vertinga?
Šie klausimai pastūmėjo jį į kitą gyvenimo etapą. Olatunji persikėlė į JAV, kad iš pradžių San Francisko universitete įgytų medicinos informatikos magistro laipsnį, o vėliau – kompiuterių mokslo srityje Georgia Tech.
Tada jis susipjovė dantis daugelyje technologijų įmonių. Kaip klinikinio natūralios kalbos programavimo (NLP) mokslininkas ir tyrėjas Enlitic, San Francisco Bay Area bendrovėje, jis sukūrė modelius, skirtus automatizuoti informacijos gavimą iš radiologijos teksto ataskaitų. Jis taip pat dirbo „Amazon Web Services“ kaip mašininio mokymosi mokslininkas. Tiek „Enlitic“, tiek „Amazon“ jis daugiausia dėmesio skyrė natūralios kalbos apdorojimui sveikatos priežiūros srityje, kurdamas sistemas, kurios leistų ligoninėms veikti geriau.
Per visą tą patirtį jis pradėjo formuoti idėjas apie tai, kaip tai, kas buvo kuriama ir naudojama JAV, galėtų būti panaudota sveikatos priežiūrai Nigerijoje ir kitose panašiose besivystančiose rinkose gerinti.
Pradinis 2020 m. pradėtos veikti „Intron Health“ tikslas buvo suskaitmeninti ligoninių veiklą Afrikoje naudojant elektroninių medicinos įrašų (EMR) sistemą. Tačiau įsisavinti buvo sudėtinga: paaiškėjo, kad gydytojai mieliau renkasi rašymą, o ne spausdinimą, sakė Olatunji.
Tai paskatino jį ištirti, kaip pagerinti tą pagrindinę problemą: kaip pagerinti fizikų pagrindinių duomenų įvedimą, rašymą. Iš pradžių bendrovė ieškojo trečiųjų šalių sprendimų, skirtų automatizuoti užduotis, tokias kaip užrašų darymas ir esamos kalbos į tekstą technologijos įterpimas į savo EMR programą.
Tačiau buvo daug problemų dėl nuolatinės klaidingos transkripcijos. Olatunji tapo aišku, kad dėl storų afrikietiškų akcentų ir sudėtingų medicininių terminų bei pavadinimų tarimo esamų užsienio transkripcijos priemonių pritaikymas tapo nepraktiškas.
Tai pažymėjo „Intron Health“ kalbos atpažinimo technologijos, kuri gali atpažinti afrikietiškus akcentus ir gali būti integruota į esamus EMR, atsiradimą. Iki šiol įrankis buvo pritaikytas 30 ligoninių penkiose rinkose, įskaitant Keniją ir Nigeriją.
Iškart buvo keletas teigiamų rezultatų. Vienu atveju, pasak Olatunji, „Intron Health“ padėjo sutrumpinti radiologijos rezultatų laukimo laiką vienoje didžiausių Vakarų Afrikos ligoninių nuo 48 valandų iki 20 minučių. Toks veiksmingumas yra labai svarbus teikiant sveikatos priežiūrą, ypač Afrikoje, kur gydytojų ir pacientų santykis išlieka vienas mažiausių pasaulyje.
„Ligoninės jau išleido tiek daug įrangai ir technologijoms… Svarbu užtikrinti, kad jos taikys šias technologijas. Galime suteikti vertės, kad padėtume jiems geriau pritaikyti EMR sistemą“, – sakė jis.
Žvelgiant į ateitį, startuolis tiria naujas augimo ribas, paremtas 1,6 mln. USD išankstinio paleidimo ratu, kuriam vadovauja Microtraction, dalyvaujant Plug and Play Ventures, Jaza Rift Ventures, Octopus Ventures, Africa Health Ventures, OpenseedVC, Pi Campus, Alumni Angel , Baker Bridge Capital ir keli angelai investuotojai.
Kalbant apie technologiją, „Intron Health“ stengiasi tobulinti triukšmo slopinimą, taip pat užtikrinti, kad platforma gerai veiktų net esant mažam pralaidumui. Tai papildomai leidžia transkripuoti pokalbius su keliais garsiakalbiais ir integruoti teksto į kalbą galimybes.
Pasak Olatunji, planas yra pridėti žvalgybos sistemas arba sprendimų palaikymo priemones tokioms užduotims kaip receptas ar laboratoriniai tyrimai. Jis priduria, kad šios priemonės gali padėti sumažinti gydytojų klaidas ir užtikrinti tinkamą pacientų priežiūrą, ne tik pagreitinti jų darbą.
„Intron Health“ yra vienas iš augančių generatyvių dirbtinio intelekto įmonių medicinos srityje, įskaitant „Microsoft“ DAX Express, kurios sumažina administracines užduotis gydytojams, sugeneruodami pastabas per kelias sekundes. Remiantis „Fortune Business Insights“ duomenimis, šios technologijos atsirado ir buvo pritaikytos, nes prognozuojama, kad pasaulinė kalbos ir balso atpažinimo rinka iki 2032 m. sieks 84,97 mlrd. USD, o nuo 2024 m.
Be balso technologijų kūrimo, „Intron“ taip pat atlieka pagrindinį vaidmenį kalbos tyrimuose Afrikoje, nes neseniai bendradarbiavo su „Google Research“, Billo ir Melindos Geitsų fondu ir „Digital Square“ PATH, kad įvertintų populiarius didelių kalbų modelius (LLM), tokius kaip OpenAI GPT. -4o, Google's Gemini ir Anthropic's Claude 15 šalių, siekiant nustatyti LLM stipriąsias, silpnąsias puses ir šališkumo ar žalos riziką. Visa tai daroma siekiant užtikrinti, kad Afrikos klinikoms ir ligoninėms būtų prieinami kultūriškai suderinti modeliai.