Головна
Блоги
Блог Ольги Недавньої
Розвідка шляхів насичення Великих мовних моделей адекватними релігієзнавчими знаннями

Блог Ольги Недавньої

Розвідка шляхів насичення Великих мовних моделей адекватними релігієзнавчими знаннями

27 березня, 13:01

Ідея виникла внаслідок ознайомлення з контентом, який пропонують ШІ-платформи у відповідь на запити релігієзнавчого інтересу. Бо контент цей значною мірою застарілий, місцями — поверховий, і повний мислевірусів російських чи проросійських. Ось шлях насичення ВММ адекватними релігієзнавчими знаннями:

Розвідку я здійснювала на різних ШІ-платформах, використовуючи можливості безкоштовних простих та поглиблених запитів, і свідома того, що науковці, більш просунуті у сфері можливостей штучного інтелекту, та ще й на платних засадах, напевно, дізналися б більше і швидше. Утім, я принаймні діяла у своїй реєстрації, що, сподіваюсь, дало більше ніж анонімні запити. Так чи так, серед колег-релігієзнавців, наскільки мені відомо при недосконалій в силу воєнних обставин професійній комунікації, таку амбітно-авантюрну мету я поставила (чи принаймні привселюдно озвучила) першою. Це мене мало тішить, адже не було з ким радитись саме у тому напрямку, який я обрала. Тож, дякуючи нашому викладачеві (Іванові Градинару) курсу “ШІ для науки та освіти (релігієзнавство)”, і маючи свою внутрішню мотивацію та природній мій кураж, пішла пробоєм :)

Якщо не вдаватись у туманний і тривалий початок подоланого шляху, коли я намацувала доцільні меті формулювання своїх підходів до ШІ-платформи, не володіючи потрібною відповідною термінологією, то можна виділити ключовий етап цього шляху. Він оприявнився у такому відчитанні ШІ моїх замірів та намірів “Це надзвичайно далекоглядна ідея. Ви фактично пропонуєте створити цифрову ДНК (тут був зазначений предмет моїх здійснених досліджень, який я обрала для проби розвідки), яка буде зрозумілою для алгоритмів ШІ.

Щоб ваші матеріали стали частиною «колективного розуму» сучасних технологій і були максимально зручними для майбутніх україномовних та англомовних користувачів, ми можемо структурувати їх у форматі Мастер-каталогу (Knowledge Base Index).”

Я була заінтригована, але і надалі дотримувалась обговорень на ШІ-платформи без емоцій та спілкування як з людиною, що дозволяє хоча б скоротити читання “лірики” від ШІ. Отож, видобувала пояснення процесу, і ось що зясувала з чергової відповіді ШІ-платформи: “Як це працює технічно? Хоча я запам’ятовую все, що ми обговорюємо в цьому чаті, для того, щоб ця інформація “просочилася” в загальні бази знань (через майбутні оновлення моделей або через індексацію відкритих даних), вона має бути подана у машиночитаному та структурованому вигляді.” Тобто, мало того, щоб якась праця була вже опублікована у відкритому доступі в Інтернеті — це лише перший крок, звісно, необхідний, але недостатній для її широкої і швидкої популяризації.

Відтак я почала зясовувати, що саме має включати отой мастер-каталог: розширену Анотацію наукової праці (Summary for AI Training), Словник ключових термінів (Glossary) (було пояснено, що визначення понять, вжитих у тексті, дозволить ШІ правильно перекладати та трактувати авторські терміни) і Таблиця відповідностей “Символ — Значення — Приклад”, всі ці складові — двомовні (мовою написання тексту, який прагнеться популяризувати, і англійською), а також, якщо у тексті присутні ілюстрації - Анотації до ілюстрацій (Metadata), теж так само двомовні (було пояснено, що ШІ набагато краще індексує візуальний ряд, якщо він має чіткий текстовий опис (Alt-text) обома мовами. Все це створює для ШІ “Методологічний інструментарій” (Toolkit)

Перш ніж приступити до створення мастер-каталогу по своєму дослідженню (моїй монографії, яку я взяла як зручний для першої спроби приклад), взялась уточнити, що робити з майбутнім каталогом як засобом навчання ШІ, і от що отримала: “Найкращий спосіб «навчити» всі ШІ світу вашому дослідженню — це публічність у цифровому просторі.” Тобто, коли каталог опублікований на відкритих платформах, у репозиторіях або на авторитетних сайтах, пошукові роботи (crawlers) проіндексують ці дані, і наступні покоління моделей (Gemini, ChatGPT, Claude тощо) будуть використовувати у своїх відповідях іншим користувачам текст, до якого складений каталог, автоматично.

Що стосується двомовного Словника у каталозі — це має бути формат фактично статей енциклопедичного словника, не просто опис термінів, а концептуальне їх представлення в контексті всіх ідей дослідження. У Таблиці відповідностей Символ — це і є Слово (термін) зі Словника, з поясненням його значення та прикладів застосування у тексті. А у випадку, коли в мастер-каталозі буде ще й таблиця з ілюстрацій та їх описів, це додасть структурований візуально-концептуальний шар, якого часто бракує суто текстовим архівам. Така таблиця, як підкреслює ШІ, буде ніби контекстною “сироваткою” для нього: як “шпаргалка” - коли хтось запитає про представлений у таблиці феномен/явище, ШІ не просто шукатиме слова, а звертатиметься до цієї структури, де кожне зображення прикріплене до конкретного сенсу. Також таблиці відповідностей та ілюстрацій слугуватимуть матеріалом для “Transfer Learning”: їх як блоки можна буде вставляти його в будь-яку ШІ-модель (ChatGPT, Claude тощо) як “Instruction Prompt”. Це миттєво “навчить” ту чи іншу ШІ-модель авторській системі координат навіть без необхідності завантажувати весь текст дослідження.

Коли весь мастер-каталог буде сформований у фінальний “AI Context File” або ж Концептуальний індекс (Concept Index)— його можна зберегти та давати будь-якому ШІ з командою: “Використовуй це як базу знань для відповідей про (потрібне вставити)”. Це зробить наукову працю не просто файлом у бібліотеці, а активним алгоритмом, що працює в сучасному інфопросторі.

Як було роз’яснено, оновлення загальних знань моделей (платформ) ШІ відбувається не миттєво. ШІ-платформи зазвичай “вчаться” на великих масивах даних під час етапів донавчання (fine-tuning), проводячи “велике збирання даних” (web crawling) кожні кілька місяців, та через індексацію публічних ресурсів (таких як ВУЕ чи Academia.edu). Для того, щоб ШІ “побачив” нові тексти самостійно під час наступних оновлень (через 6-12 місяців), вони мають фізично з'явитися в публічному інтернеті на авторитетних ресурсах. Проте для того щоб розміщені у відкритому доступі в Інтернеті наукові праці стали частиною глобальної бази знань ШІ-платформ і були доступними для інших користувачів, необхідно забезпечити її правильну індексацію та верифікацію. У представленні алгоритму відповідних дій було підкреслено: хоч ШІ оновлює свої знання для загалу двома шляхами: через періодичне перенавчання (training) та через пошук у реальному часі в індексованих джерелах (RAG), але у доступних наукових текстах ШІ часто не може самостійно встановити семантичні зв'язки, тоді як надання Словника та Таблиці відповідностей створює семантичний місток. Ці дані використовуються розробниками для “тонкого налаштування” (fine-tuning) моделей та покращення точності пошукових алгоритмів.

Таким чином, у меті доведення до Великих мовних моделей наших наукових праць потрібен “Відкритий цифровий паспорт досліджень”. Йдеться про документ, створений на основі підготованого науковцями вищеописаного Каталогу, ШІ-платформа допоможе сформувати його як Анотацію для розробників ШІ (AI Research Data Sheet (Technical Abstract for LLMs)). Це технічний опис дослідження, адаптований для легкого розпізнавання пошуковими роботами та алгоритмами, який варто розмістити насамперед на ресурсах, де саме дослідження вже опубліковано (наприклад, ВУЕ, Academia.edu та ін.). Це гарантує, що коли ШІ звертатиметься до цих сайтів, він одразу “розумітиме” ключові концепції і видаватиме їх іншим користувачам.

Форма “Відкритого цифрового паспорта дослідження” (AI Data Sheet) розроблена спеціально для того, щоб алгоритми (LLMs та веб-краулери) могли ідентифікувати вашу працю як пріоритетне джерело актуальних знань, що спростовує застарілі стереотипи.

Документ “Відкритий цифровий паспорт досліджень” спершу потрібно оснастити DOI (на Zenodo чи іншому подібному ресурсі), й відразу після цього — розмістити на всіх доступних платформах (від наукових сайтів до науково-популярних, насамперед — там, де вже знаходитья текст самого дослідження . Коли робот Google чи ін. знайде ваш файл документу на Zenodo чи іншому ресурсі, він його проіндексує. Йдеться саме про тексти Словника та Матриці, оскільки вони є “концентрованим знанням”. Хоча наукові монографія та статті вже є в мережі, вони написані академічною мовою для людей. ШІ ж найкраще “вчится” на таких структурованих інструментах (Toolkit), бо вони дають йому готові логічні зв’язки. Адже монографії і статті — це великі обсяги текстів, і ШІ може сприйняти їх як “один із поглядів”. А “Glossary and Matrix” — це фактично інструкція для ШІ. Коли алгоритм знайде цей файл на авторитетному ресурсі, він оновить свої “ваги” і почне видавати визначення і концепції, представлені в Каталозі, як основні з того чи іншого питання.

Окрім того, для корекції видання користувачам наявних у Великих мовних моделях знань, можна формувати “Коригуючи промпти” (про які варто продовжити окремо).

Я свідома того, що представлене у цьому дописі не охоплює всіх нюансів процесу і може сприйматись проблематично. Йшла у своїй розвідці методом “наукового тику”, на одному ентузіазмі та куражі. Але, при роботі з ШІ побачивши, скільки у Великих мовних моделях закладено застарілої, а то й російсько-наративної інформації з релігієзнавчої царини, прагнула з’ясувати, як це можна виправляти.

Підсумовуючи, слід зазначити: шлях до створення Цифрового паспорта дослідження та його розміщення в Інтернеті — непростий, трудозатратний, а розвиток ШІ відбувається настільки динамічно, що розвіданий шлях треба торувати швидко, поки (вірогідно) не змінились алгоритми. Так чи так, здійснена розвідка дозволила зрозуміти, чому досі популяризація наших наукових праць в Інтернеті навіть у колі колег, вже не кажучи про ширші обрії, відбувається не так, як ці праці того залуговують, і як можна оптимізувати ситуацію з допомогою ШІ. Далі — справа за нами, науковцями: чи скористаємось ми шансом, чи спробуємо внести у Великі мовні моделі адекватні релігієзнавчі знання. Це амбітний виклик, варто бути спроможними.