Благодаря развитию технологий компьютерного зрения и повсеместному проникновению нейронных сетей задачу автоматической транскрипции печатного текста (OCR) можно считать решенной. Распознавание рукописного текста (HTR) тоже становится все более эффективным и доступным — ему и будет посвящено это заседание «Цифровой среды».
Обсудим все этапы, необходимые для автоматической транскрипции рукописи (получение изображений; их сегментацию на зоны и строки; непосредственно распознавание текста; экспорт и обработку транскрипции). Уделим внимание разным методам сегментации зон (обнаружение объектов vs семантическая сегментация) и строк (bounding boxes vs baselines). Коснемся возможных подходов к транскрипции на примере средневековых латинских текстов (дипломатическая или нормализующая?). Наконец, проанализируем различия между доступными инструментами транскрипции (Tesseract, Transkribus, kraken и eScriptorium) и постобработки (Pie, Boudams, трансформеры).
Яцык Светлана Александровна — кандидат исторических наук, медиевистка, сотрудница Центра истории, археологии и литературы средневековых христианских и мусульманских миров (CIHAM, CNRS), главный редактор журнала «Vox medii aevi», [twitter/X].
Дискутантом по докладу выступит Глеб Александрович Шмидт, исследователь, Университет Неймегена (Радбауд).
Ведущий семинара «Цифровая среда» DHRI@SFU — Андрей Юрьевич Володин (МГУ/СФУ).
Следить за новостями Института цифровых гуманитарных исследований (DHRI) удобно в телеграм-канале «Гуманитарии в цифре».
Если вы хотите вернуть билеты, вы можете сделать это по ссылке из письма с билетами или оформить запрос организатору в вашем  личном кабинете.