Apple и другие компании обучали ИИ на роликах с YouTube без разрешения
RSSЭксперты из Proof News совместно с Wired провели расследование и выяснили, что сразу несколько крупных компаний, включая Apple, Nvidia и Salesforce, использовали набор данных из более чем 170.000 видеороликов с YouTube для обучения своих систем искусственного интеллекта.
Предполагаемым нарушителем авторских прав оказалась некоммерческая организация EleutherAI, которая, по её собственному утверждению, помогает разработчикам в обучении моделей ИИ. Её целевой аудиторией являются не технологические гиганты, а небольшие разработчики и учёные. EleutherAI выпустила массив данных The Pile, значительная часть которого доступна и открыта для любого желающего в интернете — потребуются лишь ресурсы для их скачивания, хранения и обработки.
В ходе расследования было обнаружено, что 172,5 тыс. видеороликов с более чем 48 тыс. каналов были включены в базу данных The Pile. Примечательно, что для анализа использовались только субтитры без видеоряда или звукового сопровождения. Среди каналов, которые стали источником обучения ИИ, значатся такие гиганты, как MrBeast, PewDiePie, Jacksepticeye, MKBHD, а также ток-шоу Стивена Колберта, Джона Оливера и Джимми Киммела. Кроме того, в датасет вошли субтитры с образовательных каналов Массачусетского технологического института и Гарвардского университета.
Apple, Nvidia и Salesforce признавались в своих научных работах, что пользовались Pile при обучении ИИ. Apple, в частности, использовала Pile в обучении представленных в апреле моделей OpenELM, а уже в июне рассказала о новых функциях ИИ, которые появятся на iPhone и Mac. Компании Anthropic и Salesforce подтвердили изданию Wired, что использовали датасет для «академических и исследовательских целей» при разработке своих ИИ-моделей. Salesforce отметила, что компания считала набор данных общедоступным.
YouTube, в свою очередь, не предоставляет однозначных ответов на вопросы о допустимости использования своих данных для обучения ИИ.
