Генеративний ШІ – це диво. Чи побудований він на крадіжках?

Диво-технологію звинувачують у порушенні авторських прав

На перший погляд футболісти виглядають реалістично, але при ближчому розгляді щось не так. Їхні обличчя спотворені, кінцівки згинаються в тривожних напрямках, м’яч має трохи яйцеподібну форму. Найдивніше, що через ліву ногу одного з футболістів пробігає примарний слід водяного знаку: Getty Images.

Генеративний штучний інтелект (ШІ) спричинив творчий вибух нових текстів, музики, зображень і відео. Інтернет наповнений контентом, створеним штучним інтелектом, а ринки вирують від інвестицій, натхненних штучним інтелектом. Компанія Openai, яка створює чи не найсучасніші моделі генеративного ШІ, оцінюється майже в $90 млрд; Microsoft, її партнер, стала найдорожчою компанією у світі з ринковою капіталізацією в $3,2 трлн.

Але дехто задається питанням, наскільки креативною насправді є ця технологія, і чи справедливо ті, хто заробляє на ній гроші, компенсували тим, на чиїй роботі були навчені моделі. Чат-бота Chatgpt, створеного компанією Openai, можна змусити генерувати довгі газетні статті, які він, здається, запам’ятав. Клод, чат-бот від Anthropic, може повторювати слова відомих пісень. Stable Diffusion, створений Stability ai, відтворює риси чужих зображень, зокрема водяний знак агентства Getty, на архіві якого він був навчений.

Для тих, хто володіє правами на ці творчі роботи, генеративний ШІ є обуренням – і, напевно, можливістю. Наразі триває шалена судова тяганина та укладання угод, оскільки правовласники вимагають компенсації за надання палива, на якому працюють машини майбутнього. Для розробників ШІ-моделей це тривожний період, зазначає Ден Хантер, професор права в Королівському коледжі Лондона. “Вони створили дивовижну споруду, яка побудована на піщаному фундаменті”.

Найщиріша форма лестощів

ШІ тренуються на величезній кількості творів, створених людиною, від романів до фотографій і пісень. Ці навчальні дані розбиваються на “токени” – числові представлення фрагментів тексту, зображення або звуку – і модель методом спроб і помилок вивчає, як зазвичай поєднуються токени. Після підказки користувача навчена модель може створювати власні твори. Більше та якісніші навчальні дані означають кращі результати.

Багато ШІ-компаній не розголошують, на яких даних навчаються їхні моделі, посилаючись на конкурентну конфіденційність (і, як підозрюють їхні недоброзичливці, побоюючись судових позовів). Але загальновизнано, що, принаймні на ранніх стадіях свого розвитку, багато з них збирали дані, які були захищені авторським правом. Минулі розкриття компанії Openai показують, що її модель gpt-3 була навчена на джерелах, включаючи Common Crawl, сканування відкритого Інтернету, яке включає масу даних, захищених авторським правом. Вважається, що більшість її конкурентів використовували подібний підхід.

Технологічні фірми стверджують, що немає нічого поганого у використанні чужих даних просто для навчання своїх моделей. Поглинання захищених авторським правом робіт, а потім створення оригінальних – це, зрештою, те, чим займаються люди. Ті, хто володіє правами, кажуть, що є різниця. “Я поглинаю всю цю неймовірну музику, а потім, надихаючись, створюю щось”, – каже Харві Мейсон-молодший, автор пісень і виконавчий директор Академії звукозапису, яка представляє інтереси музикантів. “Але різниця в тому, що я людина, і як людина, я хочу захищати людей… У мене немає проблем з невеликими подвійними стандартами”. Роджер Лінч, генеральний директор Condé Nast, який володіє такими виданнями, як Vogue і New Yorker, заявив на слуханнях у Сенаті в січні, що сучасні генеративні ШІ-інструменти були “створені з краденого”. ШІ-компанії “витрачають буквально мільярди доларів на комп’ютерні чіпи та енергію, але не бажають вкладати такі ж інвестиції в контент”, – скаржиться Крейг Пітерс, генеральний директор Getty.

Доходи видавців від реклами витікали в пошукові системи та соціальні мережі, а музика звукозаписних компаній нелегально поширювалася через такі додатки, як Napster. Контент-мейкери сповнені рішучості не потрапити в таку халепу знову. Видавці (включно з The Economist) забороняють автоматизованим “пошуковим роботам” ШІ-компаній вилучати слова зі своїх сайтів: майже половина найпопулярніших новинних сайтів блокують ботів Openai, згідно з опитуванням, проведеним у лютому Інститутом Reuters при Оксфордському університеті в десяти країнах світу. Звукозаписні компанії попросили музичні стрімінгові сервіси не дозволяти ШІ-компаніям скребти їхні мелодії. Широке роздратування викликає той факт, що технологічні компанії знову шукають прощення, а не дозволу. “Оцінка в 90 мільярдів доларів дозволяє оплатити чимало юридичних послуг, – каже пан Хантер. “Такий собі бізнес-план”.

Судова тяганина вже відбувається. Найбільші правовласники в різних креативних індустріях очолюють цей процес. The New York Times, найбільша у світі газета за кількістю передплатників, судиться з Openai та Microsoft за порушення авторських прав на 3 мільйони своїх статей. Universal Music Group, найбільша звукозаписна компанія, судиться з Anthropic за використання текстів її пісень без дозволу. Getty, одна з найбільших бібліотек зображень, судиться зі Stability ai за копіювання її зображень (а також за неправомірне використання її торгової марки). Усі чотири технологічні компанії заперечують свої правопорушення.

В Америці технологічні компанії покладаються на правову концепцію добросовісного використання, яка передбачає широкі винятки з жорстких законів про авторське право. Вони мають обнадійливий прецедент у вигляді рішення щодо Google Books у 2015 році. Тоді Гільдія авторів подала до суду на пошукову компанію за сканування книг, захищених авторським правом, без дозволу. Але суд визнав, що використання Google матеріалу – надання можливості пошуку книг, але показу лише невеликих уривків – було достатньо “трансформаційним”, щоб вважатися добросовісним використанням. Фірми, що займаються генеруванням, стверджують, що їхнє використання матеріалів, захищених авторським правом, є аналогічно трансформаційним. Правовласники, тим часом, покладають надії на рішення Верховного Суду, який минулого року посилив визначення трансформативності, постановивши, що серія робіт Енді Воргола, який змінив захищену авторським правом фотографію поп-зірки Принца, була недостатньо трансформативною для того, щоб вважатися добросовісним використанням.

Не всі види медіа користуються рівним захистом. Закон про авторське право захищає творче самовираження, а не ідеї чи інформацію. Це означає, що комп’ютерний код, наприклад, захищений дуже слабко, оскільки він здебільшого функціональний, а не виражальний, каже Метью Саг, який викладає право в Університеті Еморі в Атланті. Група програмістів має намір перевірити цю ідею в суді, стверджуючи, що GitHub Copilot від Microsoft і CodexComputer від Openai порушили їхні авторські права, навчаючись на їхніх роботах. Новини може бути складно захистити з тієї ж причини: інформація, що міститься в новинах, сама по собі не може бути захищена авторським правом. Газети в Америці взагалі не були захищені авторським правом до 1909 року, зазначає Джефф Джарвіс, журналіст і письменник. До того багато хто наймав “редактора-ножиці”, який буквально вирізав і вставляв матеріали з конкуруючих видань.

З іншого боку, правовласники зображень захищені краще. ШІ-моделі намагаються уникнути навчання малюванню персонажів, що охороняються авторським правом – “проблема Снупі”, як називає її пан Саг, маючи на увазі мультиплікаційного бігля. Виробники моделей можуть спробувати зупинити малювання ШІ-моделями зображень, що порушують авторські права, заблокувавши певні підказки, але це часто не спрацьовує. За підказкою The Economist, творець іміджів Microsoft, взявши за основу Dall-e від Openai, з радістю намалював зображення “Капітана Америки, що курить Мальборо” та “Русалоньки, що п’є Гіннес”, незважаючи на відсутність прямого дозволу від відповідних брендів. (За словами представника Microsoft, митці та організації можуть повідомляти про будь-які проблеми через онлайн-форму). Музиканти також перебувають у відносно вигідному становищі: авторські права на музику в Америці суворо дотримуються, і артисти вимагають ліцензії навіть на короткі семпли. Можливо, з цієї причини багато ШІ-компаній обережно випускають свої моделі створення музики.

За межами Америки правовий клімат для технологічних компаній здебільшого суворіший. У Європейському Союзі, де розташована французька компанія Mistral, існує обмежений виняток з авторських прав для майнінгу даних, але немає широкого захисту добросовісного використання. Те ж саме відбувається і в Британії, де компанія Getty подала позов проти компанії Stability ai, яка базується в Лондоні (і сподівалася виграти судовий процес в Америці). Деякі юрисдикції пропонують безпечніший притулок. Ізраїль і Японія, наприклад, мають закони про авторське право, які сприятливі для навчання ШІ. Технологічні компанії натякають на потенційну загрозу для американського бізнесу, якщо суди країни займуть жорстку позицію. Компанія Openai каже про свою суперечку з New York Times, що використання захищених авторським правом навчальних даних є “критично важливим для нашої конкурентоспроможності”.

Правовласників обурює думка про те, що Америка повинна знизити рівень захисту авторських прав до рівня інших юрисдикцій лише для того, щоб утримати технологічний бізнес. Дехто називає це неамериканським підходом. Але це одна з причин, чому великі справи можуть бути вирішені на користь ШІ-компаній. Суди можуть постановити, що моделі не повинні були тренуватися на певних даних або що вони занадто багато покладалися на пам’ять, каже пан Саг. “Але я не вірю, що американський суд відкине важливий аргумент добросовісного використання. Частково тому, що я вважаю, що це хороший аргумент. А частково тому, що якщо вони це зроблять, ми просто відправимо велику американську індустрію до Ізраїлю, Японії чи ЄС”.

Копіправа-Копізаборони

Поки юристи відточують свої аргументи, укладаються угоди. У деяких випадках як важіль впливу використовується судовий процес. “Судові позови – це переговори за допомогою інших засобів”, – визнає учасник однієї справи. Навіть після навчання ШІ потребують постійного доступу до створеного людиною контенту, щоб залишатися в курсі подій, і деякі правовласники укладають угоди, щоб забезпечити їх свіжим матеріалом. Openai стверджує, що уклала близько десятка ліцензійних угод, і “набагато більше” перебуває в процесі розробки. Серед партнерів – Associated Press, Аксель Шпрінгер (власник Bild і Politico), Le Monde та іспанська Prisa Media.

News Corp Руперта Мердока, яка володіє Wall Street Journal і Sun, серед інших видань, заявила в лютому, що веде “просунуті переговори” з неназваними технологічними компаніями. “Залицяння краще, ніж судові зали – ми залицяємося, а не судимося”, – сказав її виконавчий директор Роберт Томпсон, який похвалив Сема Альтмана, боса Openai. Shutterstock, фотобібліотека, надала ліцензію на свій архів як Openai, так і Meta, імперії соціальних медіа, яка вливає ресурси в ШІ. Онлайн-форуми Reddit і Tumblr, як повідомляється, також ліцензують свій контент фірмам ШІ. (The Economist Group, наша материнська компанія, не зайняла публічної позиції щодо того, чи буде вона ліцензувати свою роботу).

Більшість правовласників приватно налаштовані песимістично. Опитування керівників ЗМІ в 56 країнах, проведене Інститутом Reuters, показало, що 48% очікують “дуже мало” грошей від ліцензійних угод з ШІ. Навіть найбільші видавці не заробили статків. Axel Springer, який повідомив про дохід у 3,9 млрд євро (4,1 млрд доларів) у 2022 році, заробить “десятки мільйонів євро” від своєї трирічної угоди з Openai. “Немає великої можливості для ліцензування. Я не думаю, що метою [моделей штучного інтелекту] є створення альтернативи новинам”, – каже Еліс Ендерс з компанії Enders Analysis, що займається дослідженнями у сфері медіа. За словами пана Пітерса з Getty, ліцензійні угоди, що пропонуються, є “анемічними”. “Коли компанії… кажуть: “Нам не потрібно ліцензувати цей контент, ми маємо повне право вилучати його”, – я думаю, що це, безумовно, зменшує їхню мотивацію об’єднуватися і домовлятися про справедливі економічні умови”.

Тому деякі власники захищених авторським правом матеріалів діють самотужки. Минулого року Getty запустила власний генеративний штучний інтелект у партнерстві з виробником чіпів Nvidia. Візуалізатор Getty навчався лише на власній бібліотеці Getty, що робить його “комерційно безпечним” і “безтурботним”, обіцяють у компанії. Цього року компанія планує запустити відеомейкер зі штучним інтелектом на базі Nvidia та Runway, ще однієї фірми, що займається штучним інтелектом. Окрім усунення ризику порушення авторських прав, Getty відсіяла все інше, що може спричинити проблеми з юристами з питань інтелектуальної власності: бренди, особистості та багато менш очевидних речей, від дизайну татуювань до феєрверків. Лише невеликий відсоток передплатників Getty поки що випробував ці інструменти, визнає фірма. Але пан Пітерс сподівається, що постійний дохід від сервісу з часом перевищить “одноразові роялті” від ліцензійної угоди.

До подібного висновку дійшли й інші видавці новин. Минулого року Bloomberg заявив, що навчав штучний інтелект на власних даних і текстах. Schibsted, великий норвезький видавець, очолює зусилля зі створення норвезькомовної моделі, використовуючи свій контент та контент інших медіакомпаній. Інші створили чат-ботів. Минулого місяця Financial Times представила сервіс Ask ft, який дозволяє читачам запитувати архів газети. Chowbot від San Francisco Chronicle, запущений у лютому, дозволяє читачам шукати найкращі в місті тако або юшку з молюсків, спираючись на огляди ресторанів, які публікує газета. Минулого місяця Бі-Бі-Сі заявила, що вивчає можливість розробки інструментів штучного інтелекту для свого 100-річного архіву “у партнерстві або в односторонньому порядку”. Більшість великих видань, включно з The Economist, експериментують за лаштунками.

Поки що зарано говорити про те, чи прийме аудиторія такі формати. Спеціалізованим ШІ-інструментам також може бути важко конкурувати з найкращими універсальними. Chatgpt від Openai перевершує ШІ від Bloomberg навіть у специфічних фінансових завданнях, згідно з минулорічною статтею дослідників з Університету Квінз у Канаді та банку JPMorgan Chase. Але ліцензування контенту технологічним компаніям має свої ризики, зазначає Джеймс Гріммельманн з Корнельського університету. Правовласники “повинні дуже добре подумати про те, якою мірою це використовується для підготовки їхніх замінників”.

Нові питання, які ставить перед нами штучний інтелект, можуть призвести до нових законів. “Ми розтягуємо чинні закони настільки, наскільки це можливо, щоб пристосуватися до цього”, – каже пан Гріммельманн. Минулого місяця штат Теннессі ухвалив Закон про забезпечення схожості голосу та безпеки зображень (Elvis), який забороняє несанкціоновані підробки в штаті. Але Конгрес, схоже, скоріше за все, надасть можливість судам розібратися з цим питанням. Деякі європейські політики хочуть посилити закон на користь правовласників; директива ЄС про цифрове авторське право була прийнята у 2019 році, коли про генеративний ШІ ще не було й мови. “Немає жодного шансу, що європейці ухвалять [таку директиву] сьогодні”, – каже пан Саг.

Інше питання – чи поширюватиметься авторське право на ШІ-контент. Досі судді дотримувалися думки, що твори, створені за допомогою ШІ, самі по собі не є об’єктами авторського права. У серпні американський федеральний суд постановив, що “авторство людини є основною вимогою авторського права”, відхиливши запит комп’ютерного вченого на авторське право на твір мистецтва, який він створив за допомогою ШІ. Ситуація може змінитися, оскільки штучний інтелект створює дедалі більшу частку світового контенту. Знадобилося кілька десятиліть розвитку фотографії, щоб суди визнали, що людина, яка зробила фотографію, може претендувати на авторське право на зображення.

Нинішній момент нагадує іншу судову справу, що сталася на початку цього століття. Фотограф дикої природи намагався відстояти авторські права на фотографії, зроблені мавпами-макаками за допомогою камери, яку він встановив в індонезійських джунглях. Суддя постановив, що оскільки позивач не робив цих фотографій сам, то ніхто не володіє авторським правом. Клопотання групи захисників тварин про надання права мавпам було відхилено. Генеративний ШІ обіцяє наповнити світ контентом, який не має автора-людини, а отже, не захищений авторським правом, каже пан Хантер з Королівського коледжу. “Ми ось-ось перейдемо в еру нескінченних мавпячих селфі”.

The Economist

Опубліковано

15.04.2024

Аналітика

Теги: