Não são apenas postagens do Reddit, livros, artigos, páginas da web, códigos, músicas, imagens e outros conteúdos que estão sendo usados por empresas multibilionárias para treinar redes neurais. Os laboratórios de IA têm ensinado modelos usando legendas retiradas de pelo menos dezenas de milhares de vídeos do YouTube, para surpresa dos criadores dos vídeos.
Essas transcrições foram compiladas no que é chamado de dataset de Legendas do YouTube e incorporadas em um repositório maior de material de treinamento chamado The Pile, conforme destacado esta semana pela organização sem fins lucrativos de jornalismo Proof News. A coleção de Legendas do YouTube contém informações de 173.536 vídeos, incluindo aqueles de canais operados pela Universidade de Harvard, BBC e web-celebridades como Jimmy “MrBeast” Donaldson.
O dataset é uma fatia de 5,7 GB do The Pile, um silo maior de 825 GB criado pela organização sem fins lucrativos EleutherAI. O The Pile inclui dados extraídos do GitHub, Wikipedia, Ubuntu IRC, Stack Exchange, artigos biomédicos e científicos, e-mails internos da Enron e muitas outras fontes. No geral, o dataset de Legendas do YouTube é uma das menores coleções do The Pile.
Nomes grandes como Apple, Salesforce e Nvidia incorporaram o The Pile, incluindo as transcrições de vídeo, em seus modelos de IA durante o treinamento. Fomos informados de que os criadores desses vídeos no YouTube não sabiam que isso estava acontecendo. (Além disso, não há nada que impeça as gigantes da tecnologia de usar dados do YouTube em outras coleções de datasets; o The Pile é apenas uma das possíveis fontes.)
Não são apenas postagens do Reddit, livros, artigos, páginas da web, códigos, músicas, imagens e outros conteúdos que estão sendo usados por empresas multibilionárias para treinar redes neurais. Os laboratórios de IA têm ensinado modelos usando legendas retiradas de pelo menos dezenas de milhares de vídeos do YouTube, para surpresa dos criadores dos vídeos.
Essas transcrições foram compiladas no que é chamado de dataset de Legendas do YouTube e incorporadas em um repositório maior de material de treinamento chamado The Pile, conforme destacado esta semana pela organização sem fins lucrativos de jornalismo Proof News. A coleção de Legendas do YouTube contém informações de 173.536 vídeos, incluindo aqueles de canais operados pela Universidade de Harvard, BBC e web-celebridades como Jimmy “MrBeast” Donaldson.
O dataset é uma fatia de 5,7 GB do The Pile, um silo maior de 825 GB criado pela organização sem fins lucrativos EleutherAI. O The Pile inclui dados extraídos do GitHub, Wikipedia, Ubuntu IRC, Stack Exchange, artigos biomédicos e científicos, e-mails internos da Enron e muitas outras fontes. No geral, o dataset de Legendas do YouTube é uma das menores coleções do The Pile.
Nomes grandes como Apple, Salesforce e Nvidia incorporaram o The Pile, incluindo as transcrições de vídeo, em seus modelos de IA durante o treinamento. Fomos informados de que os criadores desses vídeos no YouTube não sabiam que isso estava acontecendo. (Além disso, não há nada que impeça as gigantes da tecnologia de usar dados do YouTube em outras coleções de datasets; o The Pile é apenas uma das possíveis fontes.