Главная


Как технологические гиганты сокращают сбор данных для искусственного интеллекта, — The New York Times

Как технологические гиганты сокращают сбор данных для искусственного интеллекта , - The New York Times
Стоковые изображения от Depositphotos

Tazabek — OpenAI , Google и Meta игнорировали корпоративную политику , изменили свои собственные правила и обсуждали обход закона об авторском праве , когда искали онлайн-информацию для обучения своих новейших систем искусственного интеллекта.

Исследователи из офиса OpenAI в Сан-Франциско разработали инструмент для расшифровки видео с YouTube , чтобы собрать диалоговый текст для ИИ . разработка . Об этом пишет Джейсон Генри для The New York Times.

В конце 2021 года OpenAI столкнулась с проблемой поставок.

Лаборатория искусственного интеллекта исчерпала все запасы авторитетных англоязычных текстов в Интернете , разрабатывая свою новейшую версию искусственного интеллекта . система . Для обучения следующей версии технологии требовалось больше данных — намного больше.

Поэтому исследователи OpenAI создали инструмент распознавания речи под названием Whisper . Он мог бы расшифровывать аудио из видеороликов YouTube , получая новый диалоговый текст , который мог бы сделать ИИ . система умнее.

Некоторые сотрудники OpenAI обсуждали , как такой шаг может противоречить правилам YouTube , рассказали три человека , знакомых с ходом разговора . YouTube , принадлежащий Google , запрещает использовать свои видео для приложений , «независимых» от видеоплатформы.

По словам источников , в конечном итоге команда OpenAI расшифровала более миллиона часов видео с YouTube . По словам двух человек , в команду входил Грег Брокман , президент OpenAI , который лично помогал собирать видео . Затем тексты были переданы в систему под названием GPT-4 , которая считалась одной из самых мощных в мире систем искусственного интеллекта . модели и лег в основу последней версии чат-бота ChatGPT.

Гонка за лидерство ИИ превратилась в отчаянную охоту за цифровыми данными , необходимыми для развития технологий . Согласно исследованию The New York Times , чтобы получить эти данные , технологические компании , в том числе OpenAI , Google и Meta , пошли на уступки , игнорировали корпоративную политику и пытались обойти закон.

В компании Meta , которой принадлежат Facebook и Instagram , менеджеры , юристы и инженеры в прошлом году обсуждали покупку издательского дома Simon & Schuster для закупки объемных работ , согласно записям внутренних встреч , полученным The Times . Они также договорились о сборе данных , защищенных авторским правом , со всего Интернета , даже если это означало бы судебные иски . По их словам , переговоры о лицензиях с издателями , художниками , музыкантами и представителями новостной индустрии займут слишком много времени.

Как и OpenAI , Google транскрибировал видео с YouTube , чтобы собрать текст для своего искусственного интеллекта . модели , рассказали пять человек , знакомых с практикой компании . Это потенциально нарушило авторские права на видеоролики , принадлежащие их создателям.

В прошлом году Google также расширил условия обслуживания . По словам членов команды по обеспечению конфиденциальности компании и внутреннего сообщения , просмотренного The Times , одной из причин изменения было предоставление Google возможности использовать общедоступные документы Google , обзоры ресторанов на Картах Google и другие онлайн-материалы для получения дополнительных сведений . А.И . продукты.

Действия компаний иллюстрируют , как онлайн-информация — новости , художественные произведения , сообщения на досках объявлений , статьи в Википедии , компьютерные программы , фотографии , подкасты и видеоролики — все чаще становится источником жизненной силы процветающего искусственного интеллекта . промышленность . Создание инновационных систем зависит от наличия достаточного количества данных , чтобы научить технологии мгновенно создавать текст , изображения , звуки и видео , напоминающие то , что создает человек.

Объем данных имеет решающее значение . Ведущие системы чат-ботов извлекают уроки из пулов цифрового текста , охватывающих целых три триллиона слов , что примерно в два раза больше слов , хранящихся в Бодлианской библиотеке Оксфордского университета , которая собирает рукописи с 1602 года . По мнению исследователей , это высококачественная информация , такая как опубликованные книги и статьи , которые были тщательно написаны и отредактированы профессионалами.

В течение многих лет Интернет с такими сайтами , как Википедия и Reddit , казался бесконечным источником данных . Но как А.И . передовые технологические компании искали больше хранилищ . Google и Meta , у которых есть миллиарды пользователей , которые ежедневно создают поисковые запросы и публикуют сообщения в социальных сетях , были в значительной степени ограничены законами о конфиденциальности и их собственной политикой в использовании большей части этого контента для ИИ.

Их ситуация неотложная . По данным исследовательского института Epoch , технологические компании смогут публиковать высококачественные данные в Интернете уже в 2026 году . Компании используют данные быстрее , чем они производятся.

«Единственный практический способ существования этих инструментов — это если их можно будет обучить на огромных объемах данных без необходимости лицензировать эти данные» , — сказал Сай Дэмл , юрист , представляющий компанию Andreessen Horowitz , венчурную компанию Кремниевой долины , об искусственном интеллекте . моделей в прошлом году в публичной дискуссии по поводу закона об авторском праве . «Необходимые данные настолько огромны , что даже коллективное лицензирование действительно не может работать».

Технологические компании настолько жаждут новых данных , что некоторые из них разрабатывают «синтетическую» информацию . Это не органические данные , созданные людьми , а текст , изображения и код , которые создал ИИ . модели производят — другими словами , системы учатся на том , что они сами генерируют.

OpenAI заявила , что каждый из ее ИИ . models «имеет уникальный набор данных , который мы курируем , чтобы помочь им понять мир и оставаться конкурентоспособными на мировом уровне в исследованиях» . Google заявил , что это искусственный интеллект . модели «обучаются на некотором контенте YouTube» , что было разрешено соглашениями с создателями YouTube , и что компания не использовала данные из офисных приложений за пределами экспериментальной программы . Meta заявила , что «сделала агрессивные инвестиции» в интеграцию искусственного интеллекта . в свои сервисы и располагала миллиардами общедоступных изображений и видео из Instagram и Facebook для обучения своих моделей.

Для авторов растущее использование их произведений А.И . компаний вызвало судебные иски по поводу авторских прав и лицензирования . В прошлом году The Times подала в суд на OpenAI и Microsoft за использование новостных статей , защищенных авторским правом , без разрешения для обучения искусственного интеллекта . чат-боты . OpenAI и Microsoft заявили , что использование статей является «добросовестным использованием» или разрешено законом об авторском праве , поскольку они преобразовали произведения для другой цели.

Более 10 000 торговых групп , авторов , компаний и других лиц подали в прошлом году комментарии по поводу использования творческих произведений А.И . модели в Бюро регистрации авторских прав , федеральное агентство , которое готовит руководство о том , как закон об авторском праве применяется в сфере ИИ . эпоха.

Жюстин Бейтман , кинорежиссер , бывшая актриса и автор двух книг , рассказала Бюро регистрации авторских прав , что А.И . модели брали контент , включая ее произведения и фильмы , без разрешения и оплаты.

«Это крупнейшая кража в Соединенных Штатах» , — сказала она в интервью.

«Масштаб – это все , что вам нужно»

В январе 2020 года Джаред Каплан , физик-теоретик из Университета Джонса Хопкинса , опубликовал новаторскую статью об искусственном интеллекте . это подогрело аппетит к онлайн-данным.

Его вывод был однозначным: чем больше данных будет для обучения большой языковой модели — технологии , которая управляет онлайн-чат-ботами , — тем лучше она будет работать . Точно так же , как учащийся учится больше , читая больше книг , большие языковые модели могут лучше выявлять закономерности в тексте и быть более точными при обработке большего количества информации.

«Все были очень удивлены тем , что эти тенденции — эти законы масштабирования , как мы их называем — были в основном такими же точными , как то , что вы видите в астрономии или физике» , — сказал доктор Каплан , опубликовавший статью вместе с девятью исследователями OpenAI . (Сейчас он работает в стартапе Anthropic , занимающемся искусственным интеллектом.)

«Масштаб – это все , что вам нужно» вскоре стало объединяющим лозунгом для ИИ.

Исследователи уже давно используют большие общедоступные базы данных цифровой информации для разработки ИИ , включая Wikipedia и Common Crawl , базу данных , содержащую более 250 миллиардов веб-страниц , собранных с 2007 года . Исследователи часто «очищали» данные , удаляя разжигание ненависти и другой нежелательный текст перед использованием . это для обучения ИИ . модели.

В 2020 году наборы данных были крошечными по сегодняшним меркам . Одна база данных , содержащая 30 000 фотографий с фотосайта Flickr , в то время считалась жизненно важным ресурсом.

После статьи доктора Каплана такого объема данных стало недостаточно . Все сводилось к тому , чтобы «просто сделать что-то по-настоящему большим» , — сказал Брэндон Дудерштадт , исполнительный директор Nomic , компании , занимающейся искусственным интеллектом . компания в Нью-Йорке.

Когда OpenAI представила GPT-3 в ноябре 2020 года , она была обучена на самом большом на сегодняшний день объёме данных — около 300 миллиардов «токенов» , которые по сути представляют собой слова или фрагменты слов . Изучив эти данные , система генерировала текст с поразительной точностью , писала сообщения в блогах , стихи и собственные компьютерные программы.

В 2022 году DeepMind , система искусственного интеллекта . лаборатория , принадлежащая Google , пошла дальше . Он протестировал 400 ИИ . модели и варьировали объем обучающих данных и другие факторы . Наиболее эффективные модели использовали даже больше данных , чем предсказал доктор Каплан в своей статье . Одна модель , Chinchilla , была обучена на 1,4 триллионах токенов.

Вскоре его обогнали . В прошлом году исследователи из Китая опубликовали исследование искусственного интеллекта . модель Skywork , обученная на 3,2 триллионах токенов из английских и китайских текстов . Google также представила систему искусственного интеллекта . система PaLM 2 , объем которой превысил 3,6 триллиона токенов.

Транскрипция YouTube

В мае Сэм Альтман , исполнительный директор OpenAI , признал , что ИИ . компании будут использовать все возможные данные в Интернете.

«Эти ресурсы закончатся» , — сказал он в своем выступлении на технологической конференции.

Г-н Альтман видел это явление вблизи . В OpenAI исследователи годами собирали данные , очищали их и помещали в огромный массив текста для обучения языковых моделей компании . Они изучили репозиторий компьютерного кода GitHub , очистили базы данных шахматных ходов и использовали данные , описывающие школьные тесты и домашние задания , с веб-сайта Quizlet.

К концу 2021 года эти запасы были исчерпаны , рассказали восемь человек , знакомых с компанией , но не уполномоченных выступать публично.

OpenAI отчаянно нуждалась в дополнительных данных для разработки своего искусственного интеллекта следующего поколения . модель ГПТ-4 . По словам людей , сотрудники обсуждали расшифровку подкастов , аудиокниг и видеороликов на YouTube . Они рассказали о создании данных с нуля с помощью ИИ . системы . Они также рассматривали возможность покупки стартапов , которые собрали большие объемы цифровых данных.

По словам шести человек , OpenAI в конечном итоге создала Whisper , инструмент распознавания речи , для расшифровки видео и подкастов на YouTube . Но YouTube запрещает людям не только использовать его видео для «независимых» приложений , но и получать доступ к его видео «любыми автоматизированными средствами (такими как роботы , ботнеты или парсеры)».

По словам людей , сотрудники OpenAI знали , что они вступают в серую зону закона , но считали , что обучение ИИ использование видео было добросовестным . Г-н Брокман , президент OpenAI , был указан в исследовательской работе как создатель Whisper . По словам двух человек , он лично помогал собирать видео на YouTube и использовать их в технологии.

Г-н Брокман направил запросы на комментарии в OpenAI , которая заявила , что использует «многочисленные источники» данных.

В прошлом году OpenAI выпустила GPT-4 , основанную на более чем миллионе часов видео YouTube , расшифрованных Whisper . Г-н Брокман возглавлял команду , разработавшую GPT-4.

По словам двух человек , знакомых с компаниями , некоторые сотрудники Google знали , что OpenAI собирала видео с YouTube для сбора данных . Но они не остановили OpenAI , потому что Google также использовал расшифровки видеороликов YouTube для обучения своего ИИ . модели , говорили люди . Такая практика могла нарушать авторские права авторов YouTube . Поэтому , если Google поднимет шум вокруг OpenAI , может возникнуть общественный резонанс против ее собственных методов , говорят люди.

Мэтт Брайант , представитель Google , заявил , что компания ничего не знает о методах OpenAI и запретил «несанкционированное сканирование или загрузку контента YouTube» . По его словам , Google принимает меры , когда у нее есть для этого четкая юридическая или техническая основа.

Правила Google разрешали использовать данные пользователей YouTube для разработки новых функций для видеоплатформы . Но было неясно , сможет ли Google использовать данные YouTube для создания коммерческого сервиса за пределами видеоплатформы , такого как чат-бот.

Джеффри Лоттенберг , юрист по интеллектуальной собственности юридической фирмы Berger Singerman , сказал , что формулировки Google о том , что она может и не может делать с расшифровками видео YouTube , являются расплывчатыми.

«Могут ли данные быть использованы для новой коммерческой услуги , остается открытым для интерпретации и может быть оспорено в судебном порядке» , — сказал он.

В конце 2022 года , после того как OpenAI выпустила ChatGPT и начала общеотраслевую гонку за догоняющим , исследователи и инженеры Google обсудили возможность использования других пользовательских данных . Миллиарды слов хранятся в Google Docs и других бесплатных приложениях Google . Но ограничения конфиденциальности компании ограничивают возможности использования данных , рассказали три человека , знакомых с практикой Google.

В июне юридический отдел Google обратился к команде по конфиденциальности с просьбой разработать формулировку , чтобы расширить сферу использования данных потребителей , согласно словам двух членов команды по конфиденциальности и внутреннему сообщению , просмотренному The Times.

Сотрудникам сказали , что Google хочет использовать общедоступный контент людей в Google Docs , Google Sheets и связанных приложениях для множества задач искусственного интеллекта . продукты . Сотрудники заявили , что не знают , обучала ли компания ранее ИИ . по таким данным.

В то время в политике конфиденциальности Google говорилось , что компания может использовать общедоступную информацию только для «помощи в обучении языковых моделей Google и создании таких функций , как Google Translate».

Команда по обеспечению конфиденциальности написала новые условия , чтобы Google мог использовать данные для своего проекта «A.I . модели и создавать продукты и функции , такие как Google Translate , Bard и Cloud AI» , который представлял собой более обширную коллекцию технологий искусственного интеллекта . технологии.

«Какова здесь конечная цель?» — спросил один из членов команды по обеспечению конфиденциальности во внутреннем сообщении . «Насколько широко мы идем?»

По словам сотрудников , команде было приказано опубликовать новые условия в выходные четвертого июля , когда люди обычно сосредоточены на праздниках . Пересмотренная политика дебютировала 1 июля , в начале длинных выходных.

Как Google может использовать ваши данные

В августе два члена группы по обеспечению конфиденциальности заявили , что они давили на менеджеров , может ли Google начать использовать данные из бесплатных потребительских версий Google Docs , Google Sheets и Google Slides . По их словам , им не дали четких ответов.

Г-н Брайант сказал , что изменения в политике конфиденциальности были внесены для ясности и что Google не использует информацию из Google Docs или связанных приложений для обучения языковых моделей «без явного разрешения» пользователей , имея в виду добровольную программу , которая позволяет пользователям тестировать экспериментальные модели . функции.

«Мы не начали обучение дополнительным типам данных на основе этого изменения языка» , — сказал он.

Дебаты в Мете

Марк Цукерберг , исполнительный директор Meta , инвестировал в AI . в течение многих лет — но внезапно оказался позади , когда OpenAI выпустила ChatGPT в 2022 году . Он немедленно начал стремиться соответствовать ChatGPT и превзойти его , звоня руководителям и инженерам в любое время ночи , чтобы подтолкнуть их к разработке конкурирующего чат-бота , рассказали трое нынешних и бывших сотрудников: которые не были уполномочены обсуждать конфиденциальные разговоры.

Но к началу прошлого года Meta столкнулась с тем же препятствием , что и ее конкуренты: недостаточно данных.

Ахмад Аль-Дахле , вице-президент Meta по генеративному искусственному интеллекту , рассказал руководителям , что его команда использовала почти все доступные англоязычные книги , эссе , стихотворения и новостные статьи в Интернете для разработки модели , согласно записям внутренних встреч , которые были поделился сотрудник.

Meta не сможет сравниться с ChatGPT , пока не получит больше данных , сказал коллегам г-н Аль-Дахле . В марте и апреле 2023 года некоторые руководители компании по развитию бизнеса , инженеры и юристы почти ежедневно встречались , чтобы решить эту проблему.

Некоторые обсуждали возможность платить 10 долларов за книгу за полные лицензионные права на новые названия . Они обсуждали покупку Simon & Schuster , которая , судя по записям , издает таких авторов , как Стивен Кинг.

Они также рассказали о том , как без разрешения собирали книги , эссе и другие работы из Интернета , и обсуждали возможность подлизываться , даже если это означало судебные иски . Один адвокат предупредил об «этических» опасениях по поводу изъятия интеллектуальной собственности у артистов , но , согласно записям , был встречен молчанием.

По словам сотрудников , Цукерберг потребовал решения.

«Возможности , которые Марк ищет в продукте , — это просто то , что мы в настоящее время не можем обеспечить» , — сказал один инженер.

Хотя Meta управляет гигантскими социальными сетями , в ее распоряжении не было большого количества пользовательских постов , рассказали два сотрудника . По их словам , многие пользователи Facebook удалили свои предыдущие публикации , и на этой платформе люди не писали контент в стиле эссе.

Meta также была ограничена изменениями конфиденциальности , которые она ввела после скандала 2018 года , связанного с передачей данных своих пользователей компании Cambridge Analytica , занимающейся профилированием избирателей.

Г-н Цукерберг заявил в недавнем разговоре с инвесторами , что миллиарды общедоступных видео и фотографий в Facebook и Instagram «больше , чем набор данных Common Crawl».

Во время записанных обсуждений руководители Meta рассказали о том , как они наняли подрядчиков в Африке для объединения обзоров художественной и документальной литературы . В сводках содержался контент , защищенный авторским правом , «потому что у нас нет возможности не собирать его» , сказал менеджер на одной из встреч.

Руководители Meta заявили , что OpenAI , судя по всему , использовала материалы , защищенные авторским правом , без разрешения . Судя по записям , Meta потребовалось бы слишком много времени , чтобы договориться о лицензиях с издателями , артистами , музыкантами и новостной индустрией.

«Единственное , что мешает нам быть такими же хорошими , как ChatGPT , — это буквально объем данных» , — сказал на одной из встреч Ник Грудин , вице-президент по глобальному партнерству и контенту.

OpenAI , похоже , использует материалы , защищенные авторским правом , и Meta может последовать этому «рыночному прецеденту» , добавил он.

Согласно записям , руководители Meta согласились опираться на решение суда 2015 года по делу Гильдии авторов против Google . В этом случае компании Google было разрешено сканировать , оцифровывать и каталогизировать книги в онлайн-базе данных после того , как она заявила , что воспроизвела в Интернете только фрагменты произведений и преобразовала оригиналы , что сделало их добросовестным использованием.

Использование данных для обучения ИИ Системы , как заявили на своих встречах юристы Меты , также должны использоваться добросовестно.

Судя по записям , как минимум два сотрудника выразили обеспокоенность по поводу использования интеллектуальной собственности и несправедливой или вообще неплатежей авторам и другим артистам . Один из сотрудников рассказал об отдельном обсуждении данных , защищенных авторским правом , с высшими руководителями , включая Криса Кокса , директора по продуктам Meta , и сказал , что никто на этой встрече не рассматривал этику использования творческих работ людей.

«Синтетические» данные

У г-на Альтмана из OpenAI был план борьбы с надвигающейся нехваткой данных.

Компании , подобные его , сказал он на майской конференции , в конечном итоге будут обучать свой ИИ . на тексте , сгенерированном А.И . — иначе известные как синтетические данные.

Поскольку ИИ . Модель может создавать человекоподобный текст , утверждают г-н Альтман и другие , системы могут создавать дополнительные данные для разработки лучших версий самих себя . Это поможет разработчикам создавать более мощные технологии и уменьшить их зависимость от данных , защищенных авторским правом.

«Пока вы сможете преодолеть горизонт событий синтетических данных , где модель достаточно умна , чтобы создавать хорошие синтетические данные , все будет хорошо» , — сказал г-н Альтман.

А.И . исследователи годами изучали синтетические данные . Но создать систему искусственного интеллекта , способную самообучаться , легче сказать , чем сделать . А.И . модели , которые учатся на собственных результатах , могут попасть в петлю , в которой они усиливают свои собственные причуды , ошибки и ограничения.

«Данные , необходимые этим системам , подобны тропе через джунгли» , — сказал Джефф Клун , бывший исследователь OpenAI , который сейчас преподает информатику в Университете Британской Колумбии . «Если они будут тренироваться только на синтетических данных , они могут заблудиться в джунглях».

Чтобы бороться с этим , OpenAI и другие исследуют , как два разных ИИ . модели могут работать вместе для создания синтетических данных , которые будут более полезными и надежными . Одна система производит данные , а вторая оценивает информацию , чтобы отличить хорошую от плохой . Мнения исследователей относительно того , будет ли этот метод работать , разделились.

А.И . Тем не менее , руководители стремительно продвигаются вперед.

«Все должно быть в порядке» , — заявил г-н Альтман на конференции.

За последними событиями следите через наш Твиттер @tazabek

По сообщению сайта Tazabek

© 2015 - 2018
Траст. Анализ сайта xx3.kz Яндекс.Метрика