Таємні розробники чат-ботів роблять велику помилку

Перш ніж ми зможемо обміркувати екзистенційні загрози нової технології, Кремнієву долину потрібно змусити розкрити більше про те, як створюються їхні інструменти.

Втомившись спостерігати за тим, як гіганти штучного інтелекту в технологічному секторі розкрадають їхню важку роботу, творча індустрія починає давати відсіч. Хоча на перший погляд його аргумент стосується принципу авторського права, зіткнення показує, як мало ми знаємо про дані, що стоять за такими проривними технологіями, як ChatGPT. Відсутність прозорості стає все гіршою, і це перешкоджає тому, щоб творці отримували справедливу оплату та, зрештою, безпечний ШІ.

Потік судових позовів проти компаній штучного інтелекту незабаром може перетворитися на зливу. Повідомляється , що медіа-конгломерат IAC об’єднується з великими видавцями, включаючи New York Times, у судовому процесі за звинуваченням у неналежному використанні їх вмісту для створення чат-ботів на основі штучного інтелекту.

Одне прочитання цього полягає в тому, що видавці біжать налякані. Загроза, яку штучний інтелект представляє для їхнього бізнесу, очевидна: люди, які колись читали огляди ресторанів у газеті, тепер можуть запитати чат-бота зі штучним інтелектом, куди піти повечеряти тощо.

Але важливішим фактором є те, що видавці починають розуміти їх цінність в епоху штучного інтелекту, хоча й дещо після того, як кінь помчав. Моделі штучного інтелекту настільки хороші, наскільки якісні дані, які в них містяться. Теоретично текст і зображення, створені провідними медіаорганізаціями, мають бути високоякісними та допомагати таким інструментам ШІ, як ChatGPT, отримувати кращі результати. Якщо компанії зі штучним інтелектом хочуть використовувати чудові статті та фотографії, створені реальними людьми, вони повинні платити за цю привілей. Поки що здебільшого їх не було.

Змусити їх змінитися буде важко, завдяки деяким навмисним діям заплутування. Оскільки штучний інтелект стає все більш досконалим, прозорість відходить на другий план. Різко відрізняючись від перших днів досліджень машинного навчання, коли групи комп’ютерних вчених, наприклад Transformer 8, детально вивчали навчальні дані, провідні розробники штучного інтелекту тепер використовують нечіткі формулювання своїх джерел.

GPT-4 OpenAI навчається «з використанням загальнодоступних даних [таких як дані з Інтернету], а також даних, які ми отримали ліцензію», — пояснила компанія у своїх примітках до випуску моделі, розкриваючи мало що інше. Еквівалент Meta, щойно випущена Llama 2, була такою ж невизначеною. Компанія заявила, що її навчили «новій суміші даних із загальнодоступних джерел».

Порівняйте це з тим, що Meta сказала в лютому, коли представила першу версію Llama. Потім він розбив у електронній таблиці різні джерела, які були використані: 4,5% набору даних, наприклад, складалися зі статей у Вікіпедії розміром 83 гігабайти 20 мовами, зібраних у період з червня по серпень 2022 року.

Цих старих розкриттів було достатньо, щоб спровокувати два недавніх колективних позови, ініційовані коміком Сарою Сільверман та двома іншими авторами. Вони стверджують, що навіть ці розпливчасті ранні описи OpenAI і Meta щодо джерел підвищили ймовірність того, що компанії використовували книги письменників без дозволу.

Але це не точна наука: зрозуміти, звідки беруться навчальні дані для штучного інтелекту, — це все одно, що розбирати російську матрьошку. До того моменту, коли дані збирає така компанія, як OpenAI, вони можуть бути зібрані та оброблені будь-якою кількістю менших груп. Підзвітність стає набагато складнішою.

У пошуках здорового глузду регулювання штучного інтелекту наполягання на прозорості здається простим початком. Лише зрозумівши, що міститься в наборах даних, ми можемо розпочати наступний крок щодо обмеження потенційної шкоди від технології. Знаючи більше про дані, можна виявити не лише власників цього вмісту, але й будь-які внутрішні недоліки в ньому, дозволяючи стороннім досліджувати упередженість або сліпі плями.

Крім того, лише підтримуючи економіку, яка створює контент, можна зробити його більш стійким. Ризик «інбридингу» — коли текст, згенерований штучним інтелектом, закінчується навчанням майбутніх моделей — може загострити проблеми контролю якості у великих мовних моделях. «Якщо вони збанкрутують креативну індустрію, вони самі збанкрутують», — сказав Метью Баттерік, один із адвокатів, які стоять за зусиллями Сільвермана.

На зустрічі в Білому домі минулого тижня сім найбільших компаній зі штучного інтелекту погодилися прийняти добровільні заходи щодо безпеки, безпеки та довіри. Включено розумні пропозиції щодо попереднього тестування, кібербезпеки та розкриття інформації кінцевому користувачеві про те, коли щось було зроблено ШІ.

Всі гарні ідеї. Але терміново потрібні закони, які вимагають стандартизованого розкриття інформації про те, які джерела даних використовувалися для навчання великих мовних моделей. Інакше обіцянки уникати тих самих помилок із соціальними медіа, коли алгоритми «чорної скриньки» завдали великої шкоди суспільству, звучать марно. Лідер більшості в Сенаті Чак Шумер готує масштабні правила з обіцянкою врахувати, як захистити авторське право та інтелектуальну власність. Запропонований Європейським Союзом закон про штучний інтелект міг би встановити стандарт , примусово розкриваючи інформацію про використання матеріалів, захищених авторським правом. Федеральна торгова комісія США цього місяця в листі до OpenAI вимагала більше інформації про «всі джерела даних» для GPT. Побачимо, що це вийде.

Тим часом ліцензійні угоди щодо вмісту, такі як та, яку нещодавно уклали Associated Press і OpenAI, здаються кроком у правильному напрямку, хоча, оскільки умови не розголошуються, важко зрозуміти, хто виграє найбільше.

На відміну від домовленості компаній зі штучного інтелекту щодо добровільних заходів Білого дому — що має бути достатньою причиною для підозрілого ставлення до них — більш жорсткі вимоги щодо розкриття даних не прийдуть без сильного опору з боку Кремнієвої долини. Творці контенту та технічні титани прямують до культурного зіткнення. Головний виконавчий директор OpenAI Сем Альтман нещодавно віддав перевагу, написавши у Twitter: «Усе «креативне» — це ремікс речей, які відбувалися в минулому».

Очікуйте, що це стане як моральним виправданням для копіювання вмісту за бажанням, так і юридичною основою. Технічні компанії стверджують, що таке використання даних може підпадати під «добросовісне використання», юридичну доктрину, яка протягом тривалого часу дозволяла використовувати твори, захищені авторським правом, як джерело натхнення, за умови дотримання деяких умов щодо їхнього використання за призначенням.

Стає очевидним, що засоби захисту, призначені для допомоги творчим працівникам, ризикують стати озброєнням як виправдання для того, щоб їм не платити; за те, що навіть не сказали їм, що їхню роботу взагалі взяли. Ми тільки починаємо бачити, як цей захист перевіряється в суді. Справедливий суд може бути лише в тому випадку, якщо компанії зі штучним інтелектом будуть змушені бути чесними щодо того, як насправді працює їхня технологія.

Автор:Дейв Лі

Джерело: Bloomberg

МК

Опубліковано

28.07.2023

Аналітика

Теги: