Залуусын орон зай

С.Бадрал: Монгол хэл бол өгөгдлийн сан хомс хэлнүүдийн дундаас технологийн хувьд хурдтай хөгжиж буй хэл

М.Энхмаа2025.10.205 минут унших
С.Бадрал: Монгол хэл бол өгөгдлийн сан хомс хэлнүүдийн дундаас технологийн хувьд хурдтай хөгжиж буй хэл - нийтлэлийн зураг (гар утасны хувилбар)

Технологийн дэвшил нь бидний өдөр тутмын амьдралыг хялбаршуулах, үр ашгийг нэмэгдүүлэх үндсэн зорилготой боловч тухайн нийгэм, хэрэглэгчийн онцлог, соёлын ялгааг бүрэн тооцон хөгжүүлэх нь нэн чухал билээ. Ялангуяа, хэл, соёлын өвөрмөц онцлогтой манай улсын хувьд, кирилл болон үндэсний монгол бичгийн хэрэглээг цахим орчинд бүрэн утгаар нэвтрүүлэх нь технологийн хөгжил, үндэсний хэл соёлыг хадгалан үлдэх суурь нөхцөл болж байна. Гэвч энэ чиглэлд тулгарч буй техникийн болон соёлын хэрэглээний бэрхшээлүүд нь цахим орчинд монгол хэлний хэрэглээг бүрэн хэрэгжүүлэхэд саад учруулсаар байгаа юм.

Тэгвэл монгол хэл, бичгийн хэрэглээг технологийн хөгжилтэй хэрхэн уялдуулж, тулгарч буй асуудлуудыг шийдвэрлэх боломжтой талаар монгол хэл, бичгийн технологийг хөгжүүлэгч, Болорсофт ХХК-ийн үүсгэн байгуулагч С.Бадралтай ярилцлаа.

“Хэдхэн жилийн өмнө бид цахим орчинд эх хэлээрээ контент бүтээх боломж дутмаг байлаа шүү дээ. Тухайлбал, “ө”, “ү” зэрэг кирилл үсгийн хэрэглээ нэвтрээгүй учраас монгол хэл, бичгийн хэрэглээг бүрэн цахимжуулахад саад болж байсан юм.

Иймд энэхүү асуудлыг шийдвэрлэх зорилгоор монгол хэлний компьютер хэрэглээг хөгжүүлэх санааг анх гаргаж, ажлаа эхлүүлж байлаа. Анхны зорилго бол ердөө л үсгийн кодчлол буюу тэмдэгтийн асуудлыг шийдвэрлэх байсан юм. Тэмдэгтүүдийн түвшний саадыг арилгасны дараа, үе шаттайгаар үгийн боловсруулалт, улмаар өгүүлбэрийн утга болон найруулгын боловсруулалт руу шилжин ажилласан.

Энэхүү үе шаттай хөгжүүлэлтийн үр дүнд монгол хэлний мэдээллийн технологийн үндэс суурь бүрэлдсэн гэж хэлж болно. Тухайлбал, баялаг үгийн сантай олон улсын цахим толь бичиг болох “Болор толь”, зөв бичгийн дүрмийн алдаа шалгуур  “Болор дуран” зэрэг системүүд бүтээгдэж, монгол хэлний цахим хэрэглээг бодитоор дэмжсэн анхны иж бүрэн шийдэл болсон юм.”

Ийнхүү үсгийн кодчлолын асуудлыг шийдсэнээр монгол хэл цахим орчинд “бичигдэж” эхэлжээ. Гэхдээ хэл гэдэг бол үсгээс цааш, илүү нарийн тогтолцоо шүү дээ. Монгол хэлний бүтцийн онцлог, үг хувирал, хэлзүйн нарийн зохицол нь олон улсын нийтлэг алгоритмуудаар тайлбарлагдах боломжгүй аж. Иймээс тэд эх хэлнийхээ онцлогт тохируулсан тусгай систем, алгоритм боловсруулах шаардлагатай болжээ. Ингэж л монгол хэлний боловсруулалтын технологийн үндэс тавигджээ.

“Монгол хэлний бүтцийн онцлог нь олон улсын томоохон хэлнүүдтэй харьцуулахад илүү нарийн хэлзүй, үг хувиралтай байдаг. Энэ нь бид англи, герман зэрэг хэлэнд ашигладаг нийтлэг алгоритмуудыг шууд хэрэглэх боломжгүй гэсэн үг юм. Тиймээс, монгол хэлний онцлогт нийцсэн “эх хэлний боловсруулалт”-ын (NLP) технологийг  үндэсний түвшинд шинээр боловсруулж, алгоритмчилах зайлшгүй шаардлага бий болсон.

cover-3.jpg

Энэ хүрээнд бид цахим зөв бичгийн алдаа шалгуур, өгүүлбэрийн бүтэц задлал, утга ялгалт зэрэг үндсэн модулиудыг сууриас нь шинээр боловсруулсан. Эдгээр шийдэл нь зөвхөн монгол хэлэнд төдийгүй, бага хэрэглээтэй бусад хэлний технологийн хөгжилд ч чухал туршлага болсон юм. 

Монгол бичгийн хувьд ч мөн төстэй асуудал тулгарсан. Кирилл бичгээр нэг үг нэг л хэлбэртэй байдаг бол монгол бичгээр олон янзаар бичигддэг нарийн онцлогтой. Энэ нь хөрвүүлэлтийн алгоритмд хэлний загварчлал шаардлагатай гэсэн үг юм. Иймээс контекстийн шинжилгээнд тулгуурлан үгийн утга, найруулгыг зөв ялгах чадвартай, кирилл ба монгол бичгийн автомат хөрвүүлэгч систем “KIMO”-г боловсруулж байлаа.”

Дуу хоолой таних систем ба хиймэл оюуны дэвшил

Монгол хэлний цахим хэрэглээ ингэж үе шаттайгаар хөгжсөөр, үсгээс үг, үгнээс өгүүлбэр, өгүүлбэрээс утга руу шилжжээ. Хэлний боловсруулалт гэдэг энгийнээр хэлбэл, хүний хэл яриаг машин ойлгох түвшинд хүргэх урт хугацааны ажил аж.

“Анх манай систем жижиг асуудлыг шийдэхээс эхэлж, аажмаар том цар хүрээтэй цахим хэл шинжлэлийн экосистем болж өргөжсөн байна. Эхний зорилго нь зөвхөн бизнесийн ашиг олох бус, харин монгол хүн өдөр тутам тулгарч буй бодит асуудлыг шийдэхэд чиглэж байв. Үсгийн саад арилсны дараа, үгний түвшин, цаашлаад өгүүлбэрийн бүтэц, утгын гүнзгий боловсруулалт руу шилжих шат тавигдсан юм.

Хөгжүүлэлтийн дараагийн шатанд “Чимэгэ” хэмээх дуу хоолой таних, яриа боловсруулах системийг нэвтрүүлсэн. Монгол хэлний яриаг текст рүү хувиргах тус технологи нь монгол хэлний хэлзүй, авиа зүй, утга зүйн нарийн онцлогт суурилсан хиймэл оюуны систем юм.

2019 онд “Чимэгэ” системийн нарийвчлал нь олон улсын томоохон хэлний дуу таних загвартай дүйцэхүйц түвшинд хүрсэн бөгөөд тухайн үед олон улсын байгууллагууд "бага нөөцтэй хэлнүүд” (low-resource languages) буюу өгөгдлийн сан хомс хэлний яриа таних асуудлыг 2030 оноос өмнө бүрэн шийдэх боломжгүй гэж үзэж байсан. Харин “Чимэгэ”-ийн нарийвчлал, архитектур нь энэ хүлээлтийг эвдэж, монгол хэлний өгөгдөл дээр суурилсан анхны бодит жишээ болж, бага нөөцтэй хэлний технологийн хөгжилд шинэ жишиг тогтоосон юм.”

Бага өгөгдлөөр их үр дүн гаргах нь

“Монгол хэлний технологийн хамгийн том хүндрэл бол өгөгдлийн сангийн хомсдол юм. Хиймэл оюуны системийг хөгжүүлэхэд их хэмжээний чанартай өгөгдөл зайлшгүй шаардлагатай. Гэвч монгол хэлний хувьд судалгааны, хэвлэл мэдээллийн, боловсролын зэрэг эх сурвалжууд тархай байдалтай, нэгдсэн өгөгдлийн сан үгүй.

cover-1.jpg

Ийм нөхцөлд бид “агментик дата” буюу бодит хэрэглээн дээр суурилсан өгөгдлийг гар аргаар цуглуулах, мөн “синтетик дата” буюу хиймэл өгөгдөл үүсгэх хоёр аргыг хослуулсан. Үүнийг ашиглан хэлний үгийн сан, дүрмийн хэлбэрүүд, авиа зүйн загваруудыг шат дараатайгаар баяжуулсан. Бидний зорилго бол том өгөгдлийн хэмжээгээр бус, бүтээмжийн үр ашиг дээр тулгуурлах байв. Өөрөөр хэлбэл, бага өгөгдлөөр их үр дүн гаргах зарчим юм. Технологийн хувьд бид хэлний боловсруулалтын олон түвшинд ажилласан. Тухайлбал: 

  • Үгсийн сангийн түвшин: үгийн үндэс, язгуур, хувилал, шинэ үгийн үүсэл.
  • Хэлзүйн түвшин: өгүүлбэрийн бүтэц, нөхцөл ба хамаарлын анализ.
  • Утга зүйн түвшин: контекстийн ойлголт, өгүүлбэрийн дотоод уялдаа.
  • Ярианы түвшин: авиа, аялгуу, дууны загварчлал.

Эдгээрийг нэгтгэн “Чимэгэ” системд яриа таних, “Болор дуран”-д хэлзүйн шалгалт, “Болор толь”-д утга зүйн ялгалт хийхэд ашиглаж байна. Энэ нь хэлний технологийг бүх түвшинд уялдаа бүхий экосистем болгон хөгжүүлж байна. Хэдийгээр Монголд том хэмжээний дата платформ байхгүй ч бид хэвлэл мэдээлэл, нийгмийн сүлжээ, Википедиа зэрэг нээлттэй эх сурвалжуудаас өгөгдөл цуглуулж, монгол хэлний нэгдсэн өгөгдлийн санг бүрдүүлж байна.”

- Ингээд харахад хэлний технологи гэдэг зөвхөн хэл, соёлын тухай асуудал биш нийгэм, цаашлаад үндэсний аюулгүй байдлын тухай асуудал юм шиг санагдаж байна?

- Тийм. Нэг талаараа хэлний технологийг хөгжүүлэх гэдэг нь үндэсний тусгаар тогтнол, соёлын дархлааг бий болгох тухай асуудал юм. Өнөөдөр дэлхийн бүх улс орон технологийн хараат байдлаас гарах бодлогыг идэвхтэй баримталж байна шүү дээ. Жишээлбэл, Герман, Япон зэрэг өндөр хөгжилтэй улсууд ч хиймэл оюуны системүүдээ АНУ-ын “Silicon Valley” эсвэл Хятадын дэд бүтцэд хэт хамааралтай болохоос сэргийлж байна. Учир нь өгөгдөл бол орчин үеийн хамгийн үнэ цэнтэй нөөц юм.

Манай улсын хувьд ч энэ асуудал маш хурцаар хөндөгдөж байгаа. Хэрвээ бид технологийн дэд бүтцээ гаднын системүүд дээр бүрэн тулгуурлуулбал, ганц улс төрийн шийдвэрээс болоод монгол хэлний цахим орчин бүхэлдээ хаагдах ноцтой эрсдэлтэй. Тиймээс монгол хэлний технологийг соёлын инновацын гол тулгуур гэж үзэн, нэн тэргүүнд анхаарах хэрэгтэй.

Ирээдүйн чиг хандлага ба бодлогын асуудал

Хиймэл оюун ухаан хөгжихийн хэрээр дэлхий даяар “deep tech” буюу суурь технологид тулгуурласан гүнзгий судалгаа гол чиглэл болж байна. Тиймээс технологийг зөвхөн хэрэглэх бус, судалгаа, инновацын түвшинд хөгжүүлж чадвал монгол хэл бага нөөцтэй хэлнүүдийн дундаас тэргүүлэх боломжтой гэдгийг онцолж байсан юм.

“Ирээдүйн технологийн гол чиг хандлага нь “deep tech” буюу суурь технологид тулгуурласан хөгжил юм. Энэ хүрээнд дуу хоолой таних, утга ялгах, хиймэл оюуны хэлний загвар боловсруулах, мөн өгөгдлийн аюулгүй байдлыг хангах зэрэг чиглэлүүд онцгой ач холбогдолтой. Хэлзүйн баялаг, авиа зүйн нарийн бүтэцтэй монгол хэлний хувьд эдгээр нь технологийн салбарт чухал ач холбогдолтой юм. Тиймээс, бид технологийг зөвхөн хэрэглэгчийн түвшинд ашиглах бус, судалгаа, инновацын түвшинд хөгжүүлж чадвал манай хэл дэлхийн бага нөөцтэй хэлнүүдийн дундаас технологийн хувьд хамгийн хурдтай дэвшиж буй хэл болох бүрэн боломжтой.

cover-5.jpg

Монгол хэлний технологийн хөгжил сүүлийн хорин жилд чанарын хувьд мэдэгдэхүйц ахиц гаргасан ч, тогтвортой систем хараахан бүрдээгүй байна. Нэг талаас, хэлний хиймэл оюуны технологийг амжилттай хөгжүүлж буй цөөн тооны хувийн компаниуд болон судалгааны багууд байгаа ч, нөгөө талаас төр, академийн хүрээнд системтэй бодлого, хөрөнгө оруулалт дутмаг байна.

Хэлний технологи нь урт хугацааны судалгаа, тасралтгүй өгөгдлийн менежмент, өндөр мэргэжлийн хүний нөөцийг шаарддаг. Гэвч энэ төрлийн судалгааг урт хугацаанд дэмжих тогтолцоо, санхүүжилт манайд бараг байхгүй. Төрөөс хэрэгжүүлж буй дижитал шилжилтийн бодлогууд ч хэлний технологийн асуудлыг системийн хэмжээнд авч үздэггүй нь хамгийн том зөрүү юм. Тухайлбал, хиймэл оюуны өгөгдлийн санг боловсруулахад олон сая өгүүлбэр, дуу авианы бичлэгүүд шаардлагатай байдаг. Гэтэл ийм өгөгдөл цуглуулах, боловсруулах, хуваалцах эрх зүйн болон санхүүгийн орчин сул байгаа нь хөгжлийг удаашруулж байна. Тиймээс өгөгдлийн өмчлөл, ашиглалтын эрх, нээлттэй ба хаалттай өгөгдлийн тэнцвэрийг тодорхойлсон үндэсний өгөгдлийн бодлого зайлшгүй шаардлагатай.” 

Салбарын тулгамдаж буй гол асуудал ба шийдэл

Монгол хэлний технологийн хөгжил нь зөвхөн техникийн асуудал биш бөгөөд нийгэм, соёлын өргөн хүрээг хамарсан ойлголт гэдэг нь тодорхой байна. Гэсэн хэдий ч өнөөг хүртэл хамтын ажиллагааны тогтолцоо сул хэвээр байгаа бөгөөд судалгаа, бодлого, үйлдвэрлэлийн холбоо бүрэн бүрдээгүй ажээ. 

“Өнөөдөр дэлхий дахинд бага нөөцтэй хэлнүүд технологийн том сорилттой тулгарч байна. Хэдийгээр Google, Meta, OpenAI зэрэг томоохон корпорацууд олон зуун хэлний өгөгдөл ашиглан хиймэл оюуны загваруудыг (multilingual LLMs) хөгжүүлж байгаа ч, эдгээр системүүдийн утга ялгах, яриа таних чадвар нь хэлний өгөгдлийн чанар, соёлын контекстээс хамаарч ихээхэн хэлбэлздэг.

cover-2.jpg

Монгол хэлний хувьд хэлний бүтэц нарийн, өгөгдлийн чанар өндөр байх боломжтой тул бага өгөгдлөөр ч илүү гүнзгий ойлголт сургах давуу тал бий. Тиймээс бидний зорилго том датанд бус, харин ухаалаг датанд чиглэх ёстой. Өөрөөр хэлбэл, чанартай өгөгдлийг зөв шошголох, утгын холбоог зөв тодорхойлох нь ирээдүйн хэлний хиймэл оюуны хөгжлийн үндсэн чиглэл байх болно. Тухайлбал, "Чимэгэ" системийг хөгжүүлэхэд энэ зарчмыг баримталсан бөгөөд, өгөгдөл цөөн байсан ч сургалтын архитектур болон контекстийн оновчлолын ачаар өндөр нарийвчлалтай болж чадсан юм.”

- Энэхүү тогтворгүй байдлаас гарах, экосистемийг бодитоор бүрдүүлэхэд бидний өмнө шийдвэрлэх ёстой ямар асуудлууд байна вэ?

- Нэгдүгээрт, салбарын хөгжлийн үндсэн бэрхшээл нь үнэлгээний тогтолцоо болон бодлогын тогтворгүй байдал юм. Аливаа асуудал гармагц “энэ болохгүй байна, ингэвэл шийдэгдэнэ” гэж ярьдаг ч, бодит хэрэгжилт нь “чөтгөрийн тойрог” мэт давтагдсаар байдаг. Энэ мөчлөгийг таслахын тулд шинэлэг сэтгэлгээ, санаачилга, шинэ шийдэл шаардлагатай. Бид дэлхийн түвшинд шийдэгдээгүй асуудлуудыг шийдвэрлэхийг зорьж, монгол инженерүүдийн чадамжийг харуулах оролдлого хийж байна.

Хоёрдугаарт, хүний нөөцийн болон боловсролын чанар салбарын хөгжлийн суурь хүчин зүйл юм. Бид мастерын түвшний боловсролд бус, харин бакалаврын боловсролын чанарт илүү анхаарах хэрэгтэй. Төгсөгч бүр мэргэжлийн мэдлэг, онол зүй, практик чадвартай байх нь нийт салбарын хөгжилд бодит ахиц авчирна. Үүнтэй зэрэгцэн байгууллагуудын уялдаа холбоонд тулгуурласан экосистем бүрдүүлэх шаардлагатай. Хүчирхэг экосистем бүрдвэл хамтын ажиллагаа нэмэгдэж, салбарын дотоод асуудлууд аяндаа шийдэгдэнэ.

Гуравдугаарт, төрийн бодлого, татвар, нийгмийн даатгалын тогтолцоо салбарын өсөлтөд чухал нөлөөтэй. Төрийн байнгын солигдол, богино настай бодлого нь бизнесийн итгэлцэл, хөрөнгө оруулалтад сөргөөр нөлөөлж байна. Тиймээс төрөөс хэт хамааралгүйгээр, тогтвортой, урт хугацааны бодлого баримтлах нь илүү үр дүнтэй. Нийгмийн даатгал нь ажил олгогчийн татвар бус, ажилтны баталгаа байх ёстой. Хэрэв энэ тогтолцоо шударга, ил тод, үр ашигтай байвал байгууллагууд илүү тогтвортой хөгжиж чадна.

Дөрөвдүгээрт, технологийн хөгжил бол улсын дэвшлийн гол түлхүүр юм. Хэрэв төр, хувийн хэвшил, судалгааны байгууллагууд хамтран ажиллаж, тогтвортой экосистемийг бүрдүүлж чадвал Монгол Улс дижитал шилжилт болон хэлний технологийн салбарт дэлхийн түвшинд өрсөлдөх бүрэн боломжтой.

“Технологийн старт-ап гэдэг хадан дээр ургасан цэцэгтэй адил”

cover-4.jpg

Хэлний технологийн ирээдүйн хөгжил, тогтвортой экосистемийг бүрдүүлэхэд хүний нөөц, тэр дундаа залуу үеийн оролцоо хамгийн чухал. Ярилцлагын төгсгөлд С.Бадрал технологийн салбарын залуустаа хандаж, дараах үнэтэй зөвлөгөөг хүргэсэн юм.

“Миний харж байгаагаар өнөөгийн залуучуудын дунд хувийн сахилга бат, хариуцлагын асуудал илүү тод ажиглагдаж байна. Манай үеийнхэн бол интернэт, Google, онлайн сургалт гэх зүйлгүй, хязгаарлагдмал орчинд суралцаж, ажилладаг байлаа шүү дээ. Номын хүртээмж ч туйлын хомс байв. Тиймээс бид өөрийн хүчин чармайлт, тууштай зүтгэлээр асуудлыг шийдэж сурсан. Харин сүүлийн үеийн залуучуудын хувьд бэрхшээлийг тойрч гарахыг илүүд үзэж, тууштай даван туулах хандлага сул болсон мэт санагддаг. Тиймээс залуус тэвчээртэй, зорилготой, зүтгэлтэй байх нь хамгийн чухал.

Нөгөөтээгүүр, технологийн салбарын амжилт нь хамтын ажиллагаа, багийн зохион байгуулалт дээр тулгуурладаг. Гэтэл зарим залуус тодорхой ур чадвар эзэмшсэний дараа “би одоо үүнийг хийж чадна” гээд ажлаас гарах хандлага ажиглагддаг. Үнэн хэрэгтээ, технологийн старт-ап гэдэг хадан дээр ургасан цэцэг шиг эмзэг бүтэцтэй тул арчилгаа, туршлага, хамтын оролцоо нэн чухал юм шүү. Тиймээс залуус маань түр зуурын амжилт биш, харин урт хугацааны, тогтвортой хөгжлийн зорилго тавих ёстой. Өөрөө чадахгүй бол бусдаас асууж, хамтран шийдвэр гаргах соёлтой байх нь зөвхөн ажлын арга барил бус, харин мэргэжлийн төлөвшлийн нэг хэсэг гэж хэлмээр байна."

Энэхүү ярилцлагаас монгол хэлний технологийг хөгжүүлэх нь үндэсний тусгаар тогтнол, соёлын дархлааг бэхжүүлэх асуудал гэдгийг харж болохоор байна. Хэдийгээр өгөгдлийн хомсдол, төрийн бодлогын тогтворгүй байдал зэрэг томоохон бэрхшээл тулгарч байгаа ч, бага өгөгдлөөр их үр дүн гаргах зарчим болон "deep tech" буюу суурь технологийн судалгаанд тулгуурлан Монгол Улс дэлхийн түвшинд өрсөлдөх бүрэн боломжтой байна. Иймд, төр, хувийн хэвшил, судалгааны байгууллагуудын хамтын ажиллагаанд суурилсан тогтвортой экосистемийг бүрдүүлж, урт хугацааны, тууштай бодлого баримтлах нь монгол хэлний цахим хэрэглээний ирээдүйг баталгаажуулах чухал гарц хэмээн тэрбээр дүгнэсэн юм.

Хуваалцах:

Холбоотой нийтлэлүүд