Главная


Подпольная гонка крупных технологических компаний по покупке данных для обучения ИИ, — Reuters

Подпольная гонка крупных технологических компаний по покупке данных для обучения ИИ , - Reuters
Стоковые изображения от Depositphotos

Tazabek — НЬЮ-ЙОРК , 5 апреля («Рейтер») – На пике своего развития в начале 2000-х годов Photobucket был ведущим в мире сайтом по размещению изображений . Медийная основа некогда популярных сервисов , таких как Myspace и Friendster , имела 70 миллионов пользователей и занимала почти половину рынка онлайн-фотографий США.

По данным аналитического трекера Likeweb , сегодня только 2 миллиона человек по-прежнему используют Photobucket . Но революция генеративного искусственного интеллекта может дать ему новую жизнь.

Генеральный директор Тед Леонард , управляющий компанией из 40 сотрудников из Эдвардса , штат Колорадо , сообщил Reuters , что ведет переговоры с несколькими технологическими компаниями о лицензировании 13 миллиардов фотографий и видео Photobucket , которые будут использоваться для обучения генеративных моделей искусственного интеллекта , которые могут в ответ создавать новый контент . к текстовым подсказкам.

По его словам , он обсуждал ставки от 5 центов до 1 доллара за фотографию и более 1 доллара за видео , причем цены сильно различаются как в зависимости от покупателя , так и в зависимости от типа искомых изображений.

«Мы говорили с компаниями , которые говорили: «Нам нужно гораздо больше» , — добавил Леонард , а один покупатель сказал ему , что им нужно более миллиарда видео , больше , чем есть на его платформе.

«Ты чешешь голову и говоришь: откуда ты это взял?»

Photobucket отказалась назвать своих потенциальных покупателей , сославшись на коммерческую тайну . Продолжающиеся переговоры , о которых ранее не сообщалось , предполагают , что компания может получить контент на миллиарды долларов и дать представление о оживленном рынке данных , который возникает в стремлении к доминированию в технологиях генеративного искусственного интеллекта.

Технологические гиганты , такие как Google (GOOGL.O) , открывает новую вкладку , Мета (МЕТА.О) , открывает новую вкладкуи при поддержке Microsoft (MSFT.O) , открывает новую вкладкуПервоначально OpenAI использовала массивы данных , бесплатно взятых из Интернета , для обучения генеративных моделей искусственного интеллекта , таких как ChatGPT , которые могут имитировать человеческое творчество . Они заявили , что это и законно , и этично , хотя им грозят судебные иски со стороны ряда правообладателей по поводу этой практики.

В то же время эти технологические компании также незаметно платят за контент , заблокированный за платным доступом и экранами входа в систему , что приводит к скрытой торговле всем , от журналов чатов до давно забытых личных фотографий из устаревших приложений социальных сетей.

«Сейчас наблюдается спешка обратиться к правообладателям , у которых есть частные коллекции материалов , которые нельзя очистить» , — сказал Эдвард Кларис из юридической фирмы Klaris Law , которая утверждает , что консультирует владельцев контента по сделкам на десятки миллионов долларов . за штуку , чтобы лицензировать архивы фотографий , фильмов и книг для обучения ИИ.

Reuters поговорило с более чем 30 людьми , знакомыми со сделками с данными ИИ , в том числе с нынешними и бывшими руководителями вовлеченных компаний , юристами и консультантами , чтобы провести первое углубленное исследование этого молодого рынка — с подробным описанием типов покупаемого контента , цен . материализуются , а также возникают опасения по поводу риска попадания личных данных в модели ИИ без ведома или явного согласия людей.

OpenAI , Google , Meta , Microsoft , Apple и Amazon отказались комментировать конкретные сделки с данными и обсуждения для этой статьи , хотя Microsoft и Google рекомендовали Reuters ознакомиться с кодексами поведения поставщиков , которые включают положения о конфиденциальности данных.

Google добавила , что «примет немедленные меры , вплоть до расторжения» соглашения с поставщиком , если обнаружит нарушение.

Многие крупные фирмы , занимающиеся исследованием рынка , заявляют , что они даже не начали оценивать размер непрозрачного рынка данных ИИ , на котором компании часто не раскрывают соглашения . Те исследователи , которые это делают , такие как Business Research Insights , оценивают рынок сейчас примерно в 2,5 миллиарда долларов и прогнозируют , что в течение десятилетия он может вырасти почти до 30 миллиардов долларов.

ГЕНЕРАТИВНЫЕ ДАННЫЕ ЗОЛОТАЯ ЛИШКА

Захват данных происходит в то время , когда создатели крупных генеративных «основных» моделей ИИ сталкиваются с растущим давлением необходимости учитывать огромные объемы контента , которые они загружают в свои системы , процесс , известный как «обучение» , который требует интенсивных вычислительных мощностей и часто занимает месяцы . .

Технологические компании заявляют , что эта технология была бы непомерно дорогой , если бы они не могли использовать обширные архивы данных бесплатных веб-страниц , например , предоставленные некоммерческим репозиторием Common Crawl , который они называют «общедоступным».

Тем не менее их подход вызвал волну судебных исков по поводу авторских прав и нормативных требований , одновременно побуждая издателей добавлять на свои веб-сайты код , чтобы заблокировать парсинг.

В ответ создатели моделей ИИ начали хеджировать риски и обеспечивать безопасность цепочек поставок данных , как посредством сделок с владельцами контента , так и через растущую индустрию брокеров данных , которая появилась для удовлетворения спроса.

Например , через несколько месяцев после дебюта ChatGPT в конце 2022 года такие компании , как Meta , Google , Amazon и Apple , заключили соглашения с поставщиком стоковых изображений Shutterstock на использование сотен миллионов изображений , видео и музыкальных файлов в своей библиотеке для обучения , согласно данным человек , знакомый с механизмами.

Сделки с крупными технологическими фирмами первоначально варьировались от $25 до $50 млн каждая , хотя позже большинство из них были расширены , сообщил агентству Reuters финансовый директор Shutterstock Джаррод Яхес . Его примеру последовали более мелкие технологические игроки , что вызвало новый «шквал активности» за последние два месяца , добавил он.

Яхес отказался комментировать отдельные контракты . Соглашение с Apple и размер других сделок ранее не разглашались.

Конкурент Shutterstock , компания Freepik , сообщила Reuters , что заключила соглашения с двумя крупными технологическими компаниями о лицензировании большей части своего архива из 200 миллионов изображений по цене от 2 до 4 центов за изображение . В стадии разработки находятся еще пять подобных сделок , сообщил генеральный директор Хоакин Куэнка Абела , отказавшись назвать покупателей.

OpenAI , один из первых клиентов Shutterstock , также подписала лицензионные соглашения как минимум с четырьмя новостными организациями , включая Associated Press. , открывает новую вкладкуи Аксель Спрингер , открывает новую вкладку . Компания Thomson Reuters , владелец Reuters News , отдельно заявила , что заключила сделки по лицензированию новостного контента , чтобы помочь в обучении больших языковых моделей ИИ , но не раскрыла подробностей.

СОДЕРЖАНИЕ «ЭТИЧЕСКОГО» ИСТОЧНИКА

Также развивается индустрия специализированных фирм , занимающихся данными в области искусственного интеллекта , которые обеспечивают права на реальный контент , такой как подкасты , короткие видеоролики и взаимодействие с цифровыми помощниками , а также создают сети работников по краткосрочным контрактам для создания пользовательских визуальных эффектов и образцов голоса с нуля . , что-то вроде Uber-экономики данных.

Базирующаяся в Сиэтле компания Defined.ai лицензирует данные ряду компаний , включая Google , Meta , Apple , Amazon и Microsoft , сообщила Reuters генеральный директор Даниэла Брага.

Ставки варьируются в зависимости от покупателя и типа контента , но , по словам Браги , компании обычно готовы платить от 1 до 2 долларов за изображение , от 2 до 4 долларов за короткометражное видео и от 100 до 300 долларов за час более длинных фильмов . Рыночная ставка текста составляет 0,001 доллара за слово , добавила она.

По ее словам , изображения обнаженной натуры , требующие самого деликатного обращения , стоят от 5 до 7 долларов.

По словам Браги , Defined.ai делит эти доходы с контент-провайдерами . Она позиционирует свои наборы данных как «этически полученные» , поскольку получает согласие от людей , чьи данные использует , и удаляет личную информацию , добавила она.

Один из поставщиков фирмы , предприниматель из Бразилии , заявил , что платит владельцам фотографий , подкастов и медицинских данных , которые он получает , от 20% до 30% от общей суммы сделки.

Самые дорогие изображения в его портфолио — те , которые используются для обучения систем искусственного интеллекта , которые блокируют контент , например изображения насилия , запрещенные технологическими компаниями , сказал поставщик , который говорил при условии , что его компания не будет идентифицирована , сославшись на коммерческую конфиденциальность.

Чтобы выполнить эти запросы , он получает изображения мест преступлений , конфликтов и операций – в основном от полиции , фотожурналистов-фрилансеров и студентов-медиков соответственно – часто в местах Южной Америки и Африки , где распространение графических изображений более распространено , сказал он.

Он сказал , что получал изображения от фотографов-фрилансеров в секторе Газа с начала войны там в октябре , а также некоторые изображения из Израиля в начале боевых действий.

Его компания нанимает медсестер , привыкших видеть насильственные травмы , для анонимизации и аннотирования изображений , которые раздражают неподготовленный глаз , добавил он.

«МНЕ БЫЛО ЭТО РИСКОВАННО»

Хотя лицензирование может решить некоторые юридические и этические проблемы , возрождение архивов старых интернет-имен , таких как Photobucket , в качестве топлива для новейших моделей искусственного интеллекта поднимает другие , особенно связанные с конфиденциальностью пользователей , по мнению многих опрошенных игроков отрасли.

Системы искусственного интеллекта были пойманы на том , что они извергают точные копии своих обучающих данных , выплевывая , например , водяной знак Getty Images , дословные абзацы статей New York Times и изображения реальных людей. , открывает новую вкладку . Это означает , что личные фотографии или интимные мысли человека , опубликованные десятилетия назад , потенциально могут оказаться в генеративных результатах ИИ без предварительного уведомления или явного согласия.

Генеральный директор Photobucket Леонард говорит , что у него есть прочная правовая основа , ссылаясь на обновление условий обслуживания компании в октябре , которое предоставляет ей «неограниченное право» продавать любой загруженный контент с целью обучения систем искусственного интеллекта . Он рассматривает данные о лицензировании как альтернативу продаже рекламы.

«Нам нужно оплачивать наши счета , и это может дать нам возможность продолжать поддерживать бесплатные аккаунты» , — сказал он.

Брага из Defined.ai заявила , что избегает приобретения контента от «платформенных» компаний , таких как Photobucket , и предпочитает получать фотографии в социальных сетях от влиятельных лиц , которые их создают , которые , по ее словам , имеют более четкие права на лицензионные права.

«Я считаю это очень рискованным» , — сказал Брага о контенте платформы . «Если существует какой-то ИИ , который генерирует что-то , напоминающее изображение человека , который никогда этого не одобрял , это проблема».

Photobucket — не единственная платформа , которая использует лицензирование . Материнская компания Tumblr Automattic заявила в прошлом месяце , что делится контентом с «избранными компаниями , занимающимися искусственным интеллектом» . В феврале агентство Reuters сообщило , что Reddit заключил сделку с Google , чтобы сделать ее контент доступным для обучения моделей искусственного интеллекта последней.

В преддверии первичного публичного размещения акций в марте Reddit сообщил , открывает новую вкладку что ее бизнес по лицензированию данных является предметом расследования Федеральной торговой комиссии США , и признала , что может не соответствовать развивающимся правилам конфиденциальности и интеллектуальной собственности.

Федеральная торговая комиссия предупредила бизнес , открывает новую вкладку в феврале против ретроспективного изменения условий использования ИИ , отказался комментировать запрос Reddit и сообщить , изучает ли он другие сделки с обучающими данными.

За последними событиями следите в Телеграм-канале @tazabek_official

По сообщению сайта Tazabek

© 2015 - 2018
Траст. Анализ сайта xx3.kz Яндекс.Метрика