Проблему з авторським правом ШІ можна вирішити

Всупереч тому, що стверджують провідні технологічні компанії, цілком можливо гарантувати, що генеративні моделі штучного інтелекту поважають авторські права та компенсують авторам, коли це необхідно. Тепер регулятори повинні активізуватися, щоб притягнути галузь до відповідальності за невиконання цього.

СЕБАСТОПОЛЬ, КАЛІФОРНІЯ. Генеративний штучний інтелект розширює чинне законодавство про авторське право непередбаченими та незручними способами. Бюро захисту авторських прав США нещодавно опублікувало вказівки, в яких зазначено, що результати штучного інтелекту, які генерують зображення, не захищаються авторським правом, якщо в підказках, які їх створили, не було використано людську творчість. Але це залишає багато запитань: наскільки потрібна креативність і чи це той самий вид творчості, який художник використовує за допомогою пензля?

Інша група справ стосується тексту (як правило, романів і романістів), де деякі стверджують, що навчання моделі на захищеному авторським правом матеріалі саме по собі є порушенням авторського права, навіть якщо модель ніколи не відтворює ці тексти як частину свого результату. Але читання текстів було частиною людського процесу навчання стільки часу, скільки існує письмова мова. Хоча ми платимо, щоб купувати книги, ми не платимо, щоб вчитися з них.

Як ми це розуміємо? Що має означати закон про авторське право в епоху ШІ? Технолог Джарон Ланьє пропонує одну відповідь зі своєю ідеєю гідності даних, яка неявно розрізняє навчання (або «навчання») моделі та генерування результату за допомогою моделі. Перше має бути захищеною діяльністю, стверджує Ланьє, тоді як вихід дійсно може порушувати чиїсь авторські права.

Ця відмінність приваблива з кількох причин. По-перше, чинне законодавство про авторське право захищає «трансформаційне використання, яке додає щось нове», і цілком очевидно, що саме це роблять моделі ШІ. Більше того, великі мовні моделі (LLM), такі як ChatGPT, не містять повний текст, скажімо, фентезійних романів Джорджа Р. Р. Мартіна, з якого вони нахабно копіюють і вставляють.

Швидше, модель — це величезний набір параметрів — на основі всього вмісту, отриманого під час навчання — які представляють ймовірність того, що одне слово ймовірно слідуватиме за іншим. Коли ці ймовірнісні механізми видають шекспірівський сонет, якого Шекспір ніколи не писав, це трансформує, навіть якщо новий сонет аж ніяк не хороший.

Ланьє розглядає створення кращої моделі як суспільне благо, яке служить усім – навіть авторам, чиї роботи використовуються для її розробки. Це робить його трансформуючим і гідним захисту. Але є проблема з його концепцією гідності даних (яку він повністю визнає): неможливо розрізнити значуще між «навчанням» поточних моделей штучного інтелекту та «генеруванням результату» у стилі, скажімо, романістки Джесмін Уорд.

Розробники штучного інтелекту навчають моделі, надаючи їм менші фрагменти вхідних даних і просячи їх передбачити наступне слово мільярди разів, злегка змінюючи параметри, щоб покращити прогнози. Але той самий процес потім використовується для створення результату, і в цьому полягає проблема з точки зору авторського права.

Модель, яку спонукають писати, як у Шекспіра, може починатися зі слова «До», що робить трохи більш імовірним, що вона буде слідувати за цим словом «бути», що робить трохи більш імовірним, що наступне слово буде «або» – і тому вперед. Незважаючи на це, залишається неможливим зв’язати цей вихід із навчальними даними.

Звідки взялося слово «або»? Хоча це наступне слово у знаменитому монолозі Гамлета, модель не копіювала Гамлета. Він просто вибрав «або» із сотень тисяч слів, які міг вибрати, усе на основі статистики. Це не те, що ми, люди, визнаємо як творчість. Модель просто максимізує ймовірність того, що ми, люди, вважатимемо її результат зрозумілим.

Але як тоді автори можуть отримати винагороду за свою роботу, коли це доречно? Хоча неможливо відстежити походження за допомогою поточних генеративних чат-ботів ШІ, це ще не кінець історії. За рік або близько того після випуску ChatGPT розробники створювали програми на основі існуючих базових моделей. Багато хто використовує пошуково-доповнену генерацію (RAG), щоб дозволити штучному інтелекту «знати» про контент, якого немає в його навчальних даних. Якщо вам потрібно створити текст для каталогу продуктів, ви можете завантажити дані вашої компанії, а потім надіслати їх до моделі штучного інтелекту з інструкціями: «Використовуйте у відповіді лише дані, включені в цей запит».

Хоча RAG було задумано як спосіб використання конфіденційної інформації без проходження трудомісткого та обчислювального процесу навчання, воно також випадково створює зв’язок між відповіддю моделі та документами, з яких була створена відповідь. Це означає, що ми тепер маємо походження, що наближає нас до реалізації бачення Ланьє гідності даних.

Якщо ми опублікуємо в книзі програмне забезпечення для конвертації валют, створене людиною-програмістом, і наша мовна модель відтворить його у відповідь на запитання, ми можемо віднести це до оригінального джерела та належним чином розподілити гонорари. Те саме стосується роману, створеного штучним інтелектом, написаного в стилі (відмінного) Ворда «Співай, непохований, співай».

Функція Google «Огляд на основі штучного інтелекту» є хорошим прикладом того, чого ми можемо очікувати від RAG. Оскільки Google уже має найкращу в світі пошукову систему, її система підсумовування повинна мати можливість відповідати на підказку, запускаючи пошук і надаючи найпопулярніші результати в LLM для створення огляду, який запитували користувачі. Модель забезпечувала б мову та граматику, але отримувала б вміст із документів, включених у підказку. Знову ж таки, це забезпечить відсутність походження.

Тепер, коли ми знаємо, що можна створити продукцію, яка поважає авторські права та компенсує авторам, регулятори повинні активізуватися, щоб притягнути компанії до відповідальності за невиконання цього, так само як їх притягають до відповідальності за ворожі висловлювання та інші форми неприйнятного контенту. Ми не повинні погоджуватися на твердження провідних постачальників LLM, що завдання технічно неможливе. Фактично, це ще одна з багатьох проблем бізнес-моделі та етичних проблем, які вони можуть і повинні подолати.

Крім того, RAG також пропонує принаймні часткове вирішення поточної проблеми «галюцинацій» ШІ. Якщо програма (наприклад, пошук Google) постачає модель з даними, необхідними для побудови відповіді, ймовірність того, що вона згенерує щось абсолютно хибне, набагато нижча, ніж коли вона спирається виключно на дані навчання. Таким чином, результати штучного інтелекту можуть бути більш точними, якщо вони будуть обмежені джерелами, які, як відомо, є надійними.

Ми тільки починаємо розуміти, що можливо за допомогою такого підходу. Додатки RAG, безсумнівно, стануть більш багаторівневими та складними. Але тепер, коли ми маємо інструменти для відстеження походження, технологічні компанії більше не мають виправдання для непідзвітності щодо авторських прав.

Автори: Майк Лукідес, віце-президент зі стратегії вмісту O’Reilly Media, Inc., є автором System Performance Tuning (O’Reilly Media, Inc., 2002) і співавтором Unix Power Tools (O’Reilly Media, Inc., 2002) і Етика та наука про дані (O’Reilly Media, Inc., 2018);

Тім О’Райлі, засновник і генеральний директор O’Reilly Media, Inc., є запрошеним професором Інституту інновацій та громадських цілей Університетського коледжу Лондона та автором книги WTF? Яке майбутнє і чому воно залежить від нас (Harper Business, 2017).

Джерело: PS, США

МК

Опубліковано

12.12.2023

Аналітика

Теги: