Стоковые изображения от Depositphotos
Tazabek — OpenAI , Google и Meta игнорировали корпоративную политику , изменили свои собственные правила и обсуждали обход закона об авторском праве , когда искали онлайн-информацию для обучения своих новейших систем искусственного интеллекта.
Исследователи из офиса OpenAI в Сан-Франциско разработали инструмент для расшифровки видео с YouTube , чтобы собрать диалоговый текст для ИИ . разработка . Об этом пишет Джейсон Генри для The New York Times.
В конце 2021 года OpenAI столкнулась с проблемой поставок.
Лаборатория искусственного интеллекта исчерпала все запасы авторитетных англоязычных текстов в Интернете , разрабатывая свою новейшую версию искусственного интеллекта . система . Для обучения следующей версии технологии требовалось больше данных — намного больше.
Поэтому исследователи OpenAI создали инструмент распознавания речи под названием Whisper . Он мог бы расшифровывать аудио из видеороликов YouTube , получая новый диалоговый текст , который мог бы сделать ИИ . система умнее.
Некоторые сотрудники OpenAI обсуждали , как такой шаг может противоречить правилам YouTube , рассказали три человека , знакомых с ходом разговора . YouTube , принадлежащий Google , запрещает использовать свои видео для приложений , «независимых» от видеоплатформы.
По словам источников , в конечном итоге команда OpenAI расшифровала более миллиона часов видео с YouTube . По словам двух человек , в команду входил Грег Брокман , президент OpenAI , который лично помогал собирать видео . Затем тексты были переданы в систему под названием GPT-4 , которая считалась одной из самых мощных в мире систем искусственного интеллекта . модели и лег в основу последней версии чат-бота ChatGPT.
Гонка за лидерство ИИ превратилась в отчаянную охоту за цифровыми данными , необходимыми для развития технологий . Согласно исследованию The New York Times , чтобы получить эти данные , технологические компании , в том числе OpenAI , Google и Meta , пошли на уступки , игнорировали корпоративную политику и пытались обойти закон.
В компании Meta , которой принадлежат Facebook и Instagram , менеджеры , юристы и инженеры в прошлом году обсуждали покупку издательского дома Simon & Schuster для закупки объемных работ , согласно записям внутренних встреч , полученным The Times . Они также договорились о сборе данных , защищенных авторским правом , со всего Интернета , даже если это означало бы судебные иски . По их словам , переговоры о лицензиях с издателями , художниками , музыкантами и представителями новостной индустрии займут слишком много времени.
Как и OpenAI , Google транскрибировал видео с YouTube , чтобы собрать текст для своего искусственного интеллекта . модели , рассказали пять человек , знакомых с практикой компании . Это потенциально нарушило авторские права на видеоролики , принадлежащие их создателям.
В прошлом году Google также расширил условия обслуживания . По словам членов команды по обеспечению конфиденциальности компании и внутреннего сообщения , просмотренного The Times , одной из причин изменения было предоставление Google возможности использовать общедоступные документы Google , обзоры ресторанов на Картах Google и другие онлайн-материалы для получения дополнительных сведений . А.И . продукты.
Действия компаний иллюстрируют , как онлайн-информация — новости , художественные произведения , сообщения на досках объявлений , статьи в Википедии , компьютерные программы , фотографии , подкасты и видеоролики — все чаще становится источником жизненной силы процветающего искусственного интеллекта . промышленность . Создание инновационных систем зависит от наличия достаточного количества данных , чтобы научить технологии мгновенно создавать текст , изображения , звуки и видео , напоминающие то , что создает человек.
Объем данных имеет решающее значение . Ведущие системы чат-ботов извлекают уроки из пулов цифрового текста , охватывающих целых три триллиона слов , что примерно в два раза больше слов , хранящихся в Бодлианской библиотеке Оксфордского университета , которая собирает рукописи с 1602 года . По мнению исследователей , это высококачественная информация , такая как опубликованные книги и статьи , которые были тщательно написаны и отредактированы профессионалами.
В течение многих лет Интернет с такими сайтами , как Википедия и Reddit , казался бесконечным источником данных . Но как А.И . передовые технологические компании искали больше хранилищ . Google и Meta , у которых есть миллиарды пользователей , которые ежедневно создают поисковые запросы и публикуют сообщения в социальных сетях , были в значительной степени ограничены законами о конфиденциальности и их собственной политикой в использовании большей части этого контента для ИИ.
Их ситуация неотложная . По данным исследовательского института Epoch , технологические компании смогут публиковать высококачественные данные в Интернете уже в 2026 году . Компании используют данные быстрее , чем они производятся.
«Единственный практический способ существования этих инструментов — это если их можно будет обучить на огромных объемах данных без необходимости лицензировать эти данные» , — сказал Сай Дэмл , юрист , представляющий компанию Andreessen Horowitz , венчурную компанию Кремниевой долины , об искусственном интеллекте . моделей в прошлом году в публичной дискуссии по поводу закона об авторском праве . «Необходимые данные настолько огромны , что даже коллективное лицензирование действительно не может работать».
Технологические компании настолько жаждут новых данных , что некоторые из них разрабатывают «синтетическую» информацию . Это не органические данные , созданные людьми , а текст , изображения и код , которые создал ИИ . модели производят — другими словами , системы учатся на том , что они сами генерируют.
OpenAI заявила , что каждый из ее ИИ . models «имеет уникальный набор данных , который мы курируем , чтобы помочь им понять мир и оставаться конкурентоспособными на мировом уровне в исследованиях» . Google заявил , что это искусственный интеллект . модели «обучаются на некотором контенте YouTube» , что было разрешено соглашениями с создателями YouTube , и что компания не использовала данные из офисных приложений за пределами экспериментальной программы . Meta заявила , что «сделала агрессивные инвестиции» в интеграцию искусственного интеллекта . в свои сервисы и располагала миллиардами общедоступных изображений и видео из Instagram и Facebook для обучения своих моделей.
Для авторов растущее использование их произведений А.И . компаний вызвало судебные иски по поводу авторских прав и лицензирования . В прошлом году The Times подала в суд на OpenAI и Microsoft за использование новостных статей , защищенных авторским правом , без разрешения для обучения искусственного интеллекта . чат-боты . OpenAI и Microsoft заявили , что использование статей является «добросовестным использованием» или разрешено законом об авторском праве , поскольку они преобразовали произведения для другой цели.
Более 10 000 торговых групп , авторов , компаний и других лиц подали в прошлом году комментарии по поводу использования творческих произведений А.И . модели в Бюро регистрации авторских прав , федеральное агентство , которое готовит руководство о том , как закон об авторском праве применяется в сфере ИИ . эпоха.
Жюстин Бейтман , кинорежиссер , бывшая актриса и автор двух книг , рассказала Бюро регистрации авторских прав , что А.И . модели брали контент , включая ее произведения и фильмы , без разрешения и оплаты.
«Это крупнейшая кража в Соединенных Штатах» , — сказала она в интервью.
«Масштаб – это все , что вам нужно»
В январе 2020 года Джаред Каплан , физик-теоретик из Университета Джонса Хопкинса , опубликовал новаторскую статью об искусственном интеллекте . это подогрело аппетит к онлайн-данным.
Его вывод был однозначным: чем больше данных будет для обучения большой языковой модели — технологии , которая управляет онлайн-чат-ботами , — тем лучше она будет работать . Точно так же , как учащийся учится больше , читая больше книг , большие языковые модели могут лучше выявлять закономерности в тексте и быть более точными при обработке большего количества информации.
«Все были очень удивлены тем , что эти тенденции — эти законы масштабирования , как мы их называем — были в основном такими же точными , как то , что вы видите в астрономии или физике» , — сказал доктор Каплан , опубликовавший статью вместе с девятью исследователями OpenAI . (Сейчас он работает в стартапе Anthropic , занимающемся искусственным интеллектом.)
«Масштаб – это все , что вам нужно» вскоре стало объединяющим лозунгом для ИИ.
Исследователи уже давно используют большие общедоступные базы данных цифровой информации для разработки ИИ , включая Wikipedia и Common Crawl , базу данных , содержащую более 250 миллиардов веб-страниц , собранных с 2007 года . Исследователи часто «очищали» данные , удаляя разжигание ненависти и другой нежелательный текст перед использованием . это для обучения ИИ . модели.
В 2020 году наборы данных были крошечными по сегодняшним меркам . Одна база данных , содержащая 30 000 фотографий с фотосайта Flickr , в то время считалась жизненно важным ресурсом.
После статьи доктора Каплана такого объема данных стало недостаточно . Все сводилось к тому , чтобы «просто сделать что-то по-настоящему большим» , — сказал Брэндон Дудерштадт , исполнительный директор Nomic , компании , занимающейся искусственным интеллектом . компания в Нью-Йорке.
Когда OpenAI представила GPT-3 в ноябре 2020 года , она была обучена на самом большом на сегодняшний день объёме данных — около 300 миллиардов «токенов» , которые по сути представляют собой слова или фрагменты слов . Изучив эти данные , система генерировала текст с поразительной точностью , писала сообщения в блогах , стихи и собственные компьютерные программы.
В 2022 году DeepMind , система искусственного интеллекта . лаборатория , принадлежащая Google , пошла дальше . Он протестировал 400 ИИ . модели и варьировали объем обучающих данных и другие факторы . Наиболее эффективные модели использовали даже больше данных , чем предсказал доктор Каплан в своей статье . Одна модель , Chinchilla , была обучена на 1,4 триллионах токенов.
Вскоре его обогнали . В прошлом году исследователи из Китая опубликовали исследование искусственного интеллекта . модель Skywork , обученная на 3,2 триллионах токенов из английских и китайских текстов . Google также представила систему искусственного интеллекта . система PaLM 2 , объем которой превысил 3,6 триллиона токенов.
Транскрипция YouTube
В мае Сэм Альтман , исполнительный директор OpenAI , признал , что ИИ . компании будут использовать все возможные данные в Интернете.
«Эти ресурсы закончатся» , — сказал он в своем выступлении на технологической конференции.
Г-н Альтман видел это явление вблизи . В OpenAI исследователи годами собирали данные , очищали их и помещали в огромный массив текста для обучения языковых моделей компании . Они изучили репозиторий компьютерного кода GitHub , очистили базы данных шахматных ходов и использовали данные , описывающие школьные тесты и домашние задания , с веб-сайта Quizlet.
К концу 2021 года эти запасы были исчерпаны , рассказали восемь человек , знакомых с компанией , но не уполномоченных выступать публично.
OpenAI отчаянно нуждалась в дополнительных данных для разработки своего искусственного интеллекта следующего поколения . модель ГПТ-4 . По словам людей , сотрудники обсуждали расшифровку подкастов , аудиокниг и видеороликов на YouTube . Они рассказали о создании данных с нуля с помощью ИИ . системы . Они также рассматривали возможность покупки стартапов , которые собрали большие объемы цифровых данных.
По словам шести человек , OpenAI в конечном итоге создала Whisper , инструмент распознавания речи , для расшифровки видео и подкастов на YouTube . Но YouTube запрещает людям не только использовать его видео для «независимых» приложений , но и получать доступ к его видео «любыми автоматизированными средствами (такими как роботы , ботнеты или парсеры)».
По словам людей , сотрудники OpenAI знали , что они вступают в серую зону закона , но считали , что обучение ИИ использование видео было добросовестным . Г-н Брокман , президент OpenAI , был указан в исследовательской работе как создатель Whisper . По словам двух человек , он лично помогал собирать видео на YouTube и использовать их в технологии.
Г-н Брокман направил запросы на комментарии в OpenAI , которая заявила , что использует «многочисленные источники» данных.
В прошлом году OpenAI выпустила GPT-4 , основанную на более чем миллионе часов видео YouTube , расшифрованных Whisper . Г-н Брокман возглавлял команду , разработавшую GPT-4.
По словам двух человек , знакомых с компаниями , некоторые сотрудники Google знали , что OpenAI собирала видео с YouTube для сбора данных . Но они не остановили OpenAI , потому что Google также использовал расшифровки видеороликов YouTube для обучения своего ИИ . модели , говорили люди . Такая практика могла нарушать авторские права авторов YouTube . Поэтому , если Google поднимет шум вокруг OpenAI , может возникнуть общественный резонанс против ее собственных методов , говорят люди.
Мэтт Брайант , представитель Google , заявил , что компания ничего не знает о методах OpenAI и запретил «несанкционированное сканирование или загрузку контента YouTube» . По его словам , Google принимает меры , когда у нее есть для этого четкая юридическая или техническая основа.
Правила Google разрешали использовать данные пользователей YouTube для разработки новых функций для видеоплатформы . Но было неясно , сможет ли Google использовать данные YouTube для создания коммерческого сервиса за пределами видеоплатформы , такого как чат-бот.
Джеффри Лоттенберг , юрист по интеллектуальной собственности юридической фирмы Berger Singerman , сказал , что формулировки Google о том , что она может и не может делать с расшифровками видео YouTube , являются расплывчатыми.
«Могут ли данные быть использованы для новой коммерческой услуги , остается открытым для интерпретации и может быть оспорено в судебном порядке» , — сказал он.
В конце 2022 года , после того как OpenAI выпустила ChatGPT и начала общеотраслевую гонку за догоняющим , исследователи и инженеры Google обсудили возможность использования других пользовательских данных . Миллиарды слов хранятся в Google Docs и других бесплатных приложениях Google . Но ограничения конфиденциальности компании ограничивают возможности использования данных , рассказали три человека , знакомых с практикой Google.
В июне юридический отдел Google обратился к команде по конфиденциальности с просьбой разработать формулировку , чтобы расширить сферу использования данных потребителей , согласно словам двух членов команды по конфиденциальности и внутреннему сообщению , просмотренному The Times.
Сотрудникам сказали , что Google хочет использовать общедоступный контент людей в Google Docs , Google Sheets и связанных приложениях для множества задач искусственного интеллекта . продукты . Сотрудники заявили , что не знают , обучала ли компания ранее ИИ . по таким данным.
В то время в политике конфиденциальности Google говорилось , что компания может использовать общедоступную информацию только для «помощи в обучении языковых моделей Google и создании таких функций , как Google Translate».
Команда по обеспечению конфиденциальности написала новые условия , чтобы Google мог использовать данные для своего проекта «A.I . модели и создавать продукты и функции , такие как Google Translate , Bard и Cloud AI» , который представлял собой более обширную коллекцию технологий искусственного интеллекта . технологии.
«Какова здесь конечная цель?» — спросил один из членов команды по обеспечению конфиденциальности во внутреннем сообщении . «Насколько широко мы идем?»
По словам сотрудников , команде было приказано опубликовать новые условия в выходные четвертого июля , когда люди обычно сосредоточены на праздниках . Пересмотренная политика дебютировала 1 июля , в начале длинных выходных.
Как Google может использовать ваши данные
В августе два члена группы по обеспечению конфиденциальности заявили , что они давили на менеджеров , может ли Google начать использовать данные из бесплатных потребительских версий Google Docs , Google Sheets и Google Slides . По их словам , им не дали четких ответов.
Г-н Брайант сказал , что изменения в политике конфиденциальности были внесены для ясности и что Google не использует информацию из Google Docs или связанных приложений для обучения языковых моделей «без явного разрешения» пользователей , имея в виду добровольную программу , которая позволяет пользователям тестировать экспериментальные модели . функции.
«Мы не начали обучение дополнительным типам данных на основе этого изменения языка» , — сказал он.
Дебаты в Мете
Марк Цукерберг , исполнительный директор Meta , инвестировал в AI . в течение многих лет — но внезапно оказался позади , когда OpenAI выпустила ChatGPT в 2022 году . Он немедленно начал стремиться соответствовать ChatGPT и превзойти его , звоня руководителям и инженерам в любое время ночи , чтобы подтолкнуть их к разработке конкурирующего чат-бота , рассказали трое нынешних и бывших сотрудников: которые не были уполномочены обсуждать конфиденциальные разговоры.
Но к началу прошлого года Meta столкнулась с тем же препятствием , что и ее конкуренты: недостаточно данных.
Ахмад Аль-Дахле , вице-президент Meta по генеративному искусственному интеллекту , рассказал руководителям , что его команда использовала почти все доступные англоязычные книги , эссе , стихотворения и новостные статьи в Интернете для разработки модели , согласно записям внутренних встреч , которые были поделился сотрудник.
Meta не сможет сравниться с ChatGPT , пока не получит больше данных , сказал коллегам г-н Аль-Дахле . В марте и апреле 2023 года некоторые руководители компании по развитию бизнеса , инженеры и юристы почти ежедневно встречались , чтобы решить эту проблему.
Некоторые обсуждали возможность платить 10 долларов за книгу за полные лицензионные права на новые названия . Они обсуждали покупку Simon & Schuster , которая , судя по записям , издает таких авторов , как Стивен Кинг.
Они также рассказали о том , как без разрешения собирали книги , эссе и другие работы из Интернета , и обсуждали возможность подлизываться , даже если это означало судебные иски . Один адвокат предупредил об «этических» опасениях по поводу изъятия интеллектуальной собственности у артистов , но , согласно записям , был встречен молчанием.
По словам сотрудников , Цукерберг потребовал решения.
«Возможности , которые Марк ищет в продукте , — это просто то , что мы в настоящее время не можем обеспечить» , — сказал один инженер.
Хотя Meta управляет гигантскими социальными сетями , в ее распоряжении не было большого количества пользовательских постов , рассказали два сотрудника . По их словам , многие пользователи Facebook удалили свои предыдущие публикации , и на этой платформе люди не писали контент в стиле эссе.
Meta также была ограничена изменениями конфиденциальности , которые она ввела после скандала 2018 года , связанного с передачей данных своих пользователей компании Cambridge Analytica , занимающейся профилированием избирателей.
Г-н Цукерберг заявил в недавнем разговоре с инвесторами , что миллиарды общедоступных видео и фотографий в Facebook и Instagram «больше , чем набор данных Common Crawl».
Во время записанных обсуждений руководители Meta рассказали о том , как они наняли подрядчиков в Африке для объединения обзоров художественной и документальной литературы . В сводках содержался контент , защищенный авторским правом , «потому что у нас нет возможности не собирать его» , сказал менеджер на одной из встреч.
Руководители Meta заявили , что OpenAI , судя по всему , использовала материалы , защищенные авторским правом , без разрешения . Судя по записям , Meta потребовалось бы слишком много времени , чтобы договориться о лицензиях с издателями , артистами , музыкантами и новостной индустрией.
«Единственное , что мешает нам быть такими же хорошими , как ChatGPT , — это буквально объем данных» , — сказал на одной из встреч Ник Грудин , вице-президент по глобальному партнерству и контенту.
OpenAI , похоже , использует материалы , защищенные авторским правом , и Meta может последовать этому «рыночному прецеденту» , добавил он.
Согласно записям , руководители Meta согласились опираться на решение суда 2015 года по делу Гильдии авторов против Google . В этом случае компании Google было разрешено сканировать , оцифровывать и каталогизировать книги в онлайн-базе данных после того , как она заявила , что воспроизвела в Интернете только фрагменты произведений и преобразовала оригиналы , что сделало их добросовестным использованием.
Использование данных для обучения ИИ Системы , как заявили на своих встречах юристы Меты , также должны использоваться добросовестно.
Судя по записям , как минимум два сотрудника выразили обеспокоенность по поводу использования интеллектуальной собственности и несправедливой или вообще неплатежей авторам и другим артистам . Один из сотрудников рассказал об отдельном обсуждении данных , защищенных авторским правом , с высшими руководителями , включая Криса Кокса , директора по продуктам Meta , и сказал , что никто на этой встрече не рассматривал этику использования творческих работ людей.
«Синтетические» данные
У г-на Альтмана из OpenAI был план борьбы с надвигающейся нехваткой данных.
Компании , подобные его , сказал он на майской конференции , в конечном итоге будут обучать свой ИИ . на тексте , сгенерированном А.И . — иначе известные как синтетические данные.
Поскольку ИИ . Модель может создавать человекоподобный текст , утверждают г-н Альтман и другие , системы могут создавать дополнительные данные для разработки лучших версий самих себя . Это поможет разработчикам создавать более мощные технологии и уменьшить их зависимость от данных , защищенных авторским правом.
«Пока вы сможете преодолеть горизонт событий синтетических данных , где модель достаточно умна , чтобы создавать хорошие синтетические данные , все будет хорошо» , — сказал г-н Альтман.
А.И . исследователи годами изучали синтетические данные . Но создать систему искусственного интеллекта , способную самообучаться , легче сказать , чем сделать . А.И . модели , которые учатся на собственных результатах , могут попасть в петлю , в которой они усиливают свои собственные причуды , ошибки и ограничения.
«Данные , необходимые этим системам , подобны тропе через джунгли» , — сказал Джефф Клун , бывший исследователь OpenAI , который сейчас преподает информатику в Университете Британской Колумбии . «Если они будут тренироваться только на синтетических данных , они могут заблудиться в джунглях».
Чтобы бороться с этим , OpenAI и другие исследуют , как два разных ИИ . модели могут работать вместе для создания синтетических данных , которые будут более полезными и надежными . Одна система производит данные , а вторая оценивает информацию , чтобы отличить хорошую от плохой . Мнения исследователей относительно того , будет ли этот метод работать , разделились.
А.И . Тем не менее , руководители стремительно продвигаются вперед.
«Все должно быть в порядке» , — заявил г-н Альтман на конференции.
За последними событиями следите через наш Твиттер @tazabek
По сообщению сайта Tazabek