События

Когда машина читает прошлое: как ИИ помогает разгадать рукописные тексты

В Новосибирском государственном университете запустили необычный проект, где технологии встречаются с историей на уровне чернильных пятен и крестьянских подписей начала XX века. Магистрант Степан Гудков создал программу, способную «читать» рукописные решения волостных судов — документы, которые деся

Когда машина читает прошлое: как ИИ помогает разгадать рукописные тексты

В Но­во­си­бир­ском го­су­дар­ствен­ном уни­вер­си­те­те за­пу­сти­ли необыч­ный про­ект, где тех­но­ло­гии встре­ча­ют­ся с ис­то­ри­ей на уровне чер­ниль­ных пя­тен и кре­стьян­ских под­пи­сей на­ча­ла XX века. Ма­ги­странт Сте­пан Гуд­ков со­здал про­грам­му, спо­соб­ную «чи­тать» ру­ко­пис­ные ре­ше­ния во­лост­ных су­дов — до­ку­мен­ты, ко­то­рые де­ся­ти­ле­ти­я­ми ле­жа­ли в ар­хи­вах, ожи­дая, пока кто-то рас­шиф­ру­ет их по­черк, на­пи­сан­ный то ли то­роп­ли­во, то ли с осо­бой важ­но­стью. Эти бу­ма­ги — не про­сто юри­ди­че­ские фор­му­ли­ров­ки.

В них — ис­то­рия по­все­днев­но­сти: спо­ры о за­бо­ре, ссо­ры из-за ко­ро­вы, оби­ды меж­ду со­се­дя­ми, ред­кие при­ми­ре­ния. Каж­дое ре­ше­ние — фраг­мент жиз­ни си­бир­ской де­рев­ни на­ка­нуне ве­ли­ких по­тря­се­ний. Но что­бы до­не­сти эти ис­то­рии до со­вре­мен­ни­ков, их нуж­но пе­ре­ве­сти из ска­ни­ро­ван­ных стра­ниц в чи­та­е­мый текст. А вруч­ную это за­ни­ма­ет годы: сот­ни ре­ше­ний тре­бу­ют трёх лет упор­но­го тру­да даже у опыт­ной ко­ман­ды.

Те­перь на по­мощь при­хо­дят ал­го­рит­мы. Си­сте­ма сна­ча­ла «по­ни­ма­ет» струк­ту­ру стра­ни­цы — на­хо­дит стро­ки, от­де­ля­ет за­го­лов­ки от ос­нов­но­го тек­ста, учи­ты­ва­ет, что столб­цы мо­гут быть раз­ной ши­ри­ны или во­все от­сут­ство­вать. За­тем ней­ро­се­ти пре­об­ра­зу­ют ру­ко­пис­ные зна­ки в циф­ро­вой текст, несмот­ря на ка­при­зы до­ре­во­лю­ци­он­ной ор­фо­гра­фии и бес­ко­неч­ное раз­но­об­ра­зие по­чер­ков — от чёт­ко­го кан­це­ляр­ско­го до дро­жа­ще­го ста­ри­ков­ско­го.

Но ИИ не за­ме­ня­ет ис­сле­до­ва­те­ля — он со­зда­ёт для него ин­стру­мент. В пла­нах — ин­тер­фейс, че­рез ко­то­рый ис­то­ри­ки смо­гут пра­вить рас­по­знан­ный текст, уточ­нять зна­че­ния, от­ме­чать осо­бен­но­сти. Со вре­ме­нем вся эта ра­бо­та пре­вра­тит­ся в еди­ный циф­ро­вой кор­пус, где мож­но бу­дет ис­кать упо­ми­на­ния опре­де­лён­ных фа­ми­лий, сёл, су­деб­ных прак­тик или даже со­ци­аль­ных кон­флик­тов.

А глав­ное — ме­то­ди­ка ока­жет­ся при­ме­ни­мой да­ле­ко за пре­де­ла­ми во­лост­ных книг. Лю­бой до­ре­во­лю­ци­он­ный ар­хив, на­пи­сан­ный от руки, те­перь име­ет шанс об­ре­сти но­вую жизнь.

ПС
Пресс-служба СПР
Официальный канал Союза писателей России