Quem está baixando artigos pirateados? Todo mundo.

jun 6, 2016 | Notícias | 0 Comentários

por John Bohannon

Enquanto a primavera chegava no último mês no Irã, Meysam Rahimi sentou-se em seu computador da universidade e imediatamente encontrou um problema: como conseguir os artigos científicos que ele precisava. Ele teve que escrever uma proposta de pesquisa para seu doutorado em engenharia na Universidade de Tecnologia Amirkabir em Teerã. Seu projeto encampava tanto Gerenciamento de Operações quanto Economia Comportamental, então Rahimi tinha uma vasta área para cobrir.

Só que toda vez que ele encontrava o resumo de algum artigo acadêmico relevante ele atingia um paywall, requisitando que ele comprasse o artigo. Embora Amirkabir seja um dos principais centros de pesquisa do Irã, sanções internacionais e econômicas o deixaram com baixo acesso a periódicos científicos. Para ler um artigo de 2011 de Matemática Aplicada e Computacional, Rahimi teria que pagar a uma Editora, a Elsevier, 28 dólares. Um artigo de 2015 da Operations Research publicado pela empresa estado-unidense INFORMS iria custar 30 dólares.

Ele olhou a lista de artigos que havia selecionado e fez as contas. Comprar os artigos iria custar 1000 dólares só naquela semana – quase tanto quanto suas despesas mensais – e ele provavelmente teria que ler artigos acadêmicos nesse mesmo ritmo durante vários anos. Rahimi estava irritado. “Editoras não dão nada para os autores, então por que elas deveriam receber mais do que uma pequena quantia por gerenciar o periódico?”

Muitas Editoras Acadêmicas oferecem programas para ajudar pesquisadores em países pobres a acessarem artigos acadêmicos, mas apenas uma, chamada Share Link, parecia relevante para os artigos que Rahimi buscava. Ele precisaria entrar em contato com os autores individualmente para conseguir obter acessos aos seus trabalhos e esses acessos iriam funcionar por apenas 50 dias. A escolha parecia clara: ou ele desistia do Doutorado ou obtia ilegalmente as cópias dos artigos. Então como milhões de outros pesquisadores ele se voltou ao Sci-Hub, o maior site pirata do mundo para literatura acadêmica. Rahimi não sentiu culpa. Do seu ponto de vista, aqueles periódicos extremamente caros “estariam empacando severamente o desenvolvimento da Ciência”.

As Editoras Acadêmicas têm um ponto de vista muito diferente. “Sou totalmente a favor de acesso universal, mas roubo não!” tuitou a diretora de acesso universal da Elsevier, Alicia Wise, no dia 14 de março em meio a um esquentado debate público sobre o Sci-Hub. “Há muitas maneiras legais de se conseguir acesso”. O tweet de Wise incluia um link para  uma lista de 20 das iniciativas de acesso da empresa, incluindo o Share Link.

Mas em números crescentes, pesquisadores em todo o mundo estão se voltando ao Sci-Hub, que comporta cerca de 50 milhões de artigos, número esse que vem só aumentando. Nos seis meses anteriores a março, o Sci-Hub forneceu 28 milhões de documentos. Mais de 2,6 milhões de pedidos de download vieram do Irã, 3,4 milhões da Índia, e 4,4 milhões da China. Os artigos cobrem todos os tópicos científicos, de experimentos obscuros de física publicados há décadas até as últimas descobertas em biotecnologia. A editora com maior número de artigos buscados no Sci-Hub? É a Elsevier, de longe – Sci-Hub forneceu meio milhão de downloads de artigos da Elsevier numa semana recente.

Essas estatísticas são baseadas em extensos dados de log do servidor fornecidos por Alexandra Elbakyan, a neuroscientista que criou o Sci-Hub em 2011, quando era estudante de graduação de 22 anos do Casaquistão. Pedi a ela os dados porque, apesar da confusão de textos polarizados de opinião, posts de blog e tweets sobre o Sci-Hub e que efeito ele teve nas pesquisas e publicações acadêmicas, algumas das questões mais básicas continuam sem resposta: quem são os usuários do Sci-Hub, onde eles estão, e o que estão lendo?

Para alguém denunciada como criminosa por empresas poderosas e sociedades acadêmicas, Elbakyan foi surpreendentemente acessível e transparente. Depois de estabelecer contato por um sistema de chat criptografado, ela trabalhou comigo por várias semanas para criar um conjunto de dados para divulgação ao público: todos registros de downloads no período desde 1º de setembro de 2015, incluindo o identificador de objeto digital (DOI) de cada artigo. Para proteger a privacidade dos usuários do Sci-Hub, concordamos que ela primeiro agregaria as locações geográficas dos usuários à cidade mais próxima usando dados do Google Maps; nenhum endereço de protocolo de internet (IP) que os identificasse foi dado a mim. (O conjunto de dados e detalhes sobre como ele foi analisado são livremente acessíveis).

 

É um mundo Sci-Hub

Os dados de log do servidor para o website Sci-Hub de Setembro a fevereiro de 2015 pintam um retrato revelador de seus usuários e seus interesses diversos. O Sci-Hub teve 28 milhões de pedidos de download, de todas as regiões do mundo e cobrindo a maior parte das disciplinas científicas.

Elbakyan também respondeu quase todas as questões que eu tinha sobre sua operações do site, interação com usuários, e mesmo sua vida pessoal. Entre as poucas coisas que ela não revelou está sua atual localização, porque ela se encontra em ameaça de ruína financeira, extradição, e prisão por causa de um processo iniciado pela Elsevier ano passado.

Os dados do Sci-Hub fornecem a primeira visão detalhada do que está se tornando a biblioteca de pesquisa mundial de acesso livre de facto. Entre as revelações que podem surpreender tanto fãs quanto inimigos: os usuários do Sci-Hub reclamaram que muitos usuários podem acessar os mesmos artigos através de suas bibliotecas mas em vez disso se voltam ao Sic-Hub – por conveniência mais que por necessidade. Os dados fornecem algum apoio a esta afirmação. Os Estados Unidos são o quinto maior em downloads depois da Rússia, e um quarto dos pedidos ao Sci-Hub por artigos vêm dos 34 membros da Organização para Cooperação e Desenvolvimento Econômico (OCDE), as mais ricas nações com, supostamente, melhor acesso a periódicos. De fato, alguns dos usos mais intensos do Sci-Hub parecem estar acontecendo nos campus de universidades dos EUA e da Europa.

Em outubro do ano passado, um juiz de Nova York decidiu em favor da Elsevier, afirmando que o Sci-Hub infringe os direitos legais da editora bem como os detentores do copyright do conteúdo do periódico, e ordenou que o site deixasse de existir. A injunção teve pouco efeito, como os dados do servidor revelam. Embora o domínio da web sci-hub.org tenha sido tomado em novembro de 2015, os servidores que alimentam o Sci-Hub têm base na Rússia, fora da influência dos sistema legal dos EUA. Mal pulando uma batida, o site apareceu de novo online num domínio diferente.

É difícil discernir o quão ameaçadas pelo Sci-Hub a Elsevier e outras grandes editoras realmente se sentem, em parte porque normalmente os dados de downloads integrais legais não são tornados públicos. Um relatório da Elsevier de 2010, entretanto, estimou mais de 1 bilhão de downloads para todas as editores para o ano, sugerindo que o Sci-Hub possa estar roubando menos de 5% do tráfego normal. Mesmo assim, muitos estão preocupados que o Sci-Hub se provará tão ruinoso para o negócio das publicações acadêmicas quanto o site pirata Napster foi para a indústria musical (veja o editorial por Marcia McNutt sobre seu amor-ódio pelo Sci-Hub). “Não apoio táticas ilegais”, diz Peter Suber, diretor da Secretaria para Comunicações Acadêmicas da Universidade de Harvard, e um dos maiores experts em publicação de livre acesso. Contudo, “um processo não vai parar isso, nem há meios técnicos óbvios. Todos deveriam estar pensando sobre o fato de que isto está aqui para ficar.”

É fácil entender por que as editoras de periódicos talvez vejam o Sci-Hub como uma ameaça. É tão simples de usar quanto o mecanismo de busca do Google, e quando você sabe o DOI ou o título do artigo, é mais confiável para encontrar o texto completo. A maior chance é de que você encontrará o que procurava. Junto com capítulos de livros, monografias, e atas de conferências, o Sci-Hub colecionou cópias da maioria dos artigos acadêmicos já publicados. E continua a crescer: Quando alguém pede um artigo que não esteja ainda no Sci-Hub, ele pirateia uma cópia e a adiciona ao repositório.

Elbakyan recusou-se a dizer exatamente como ela obtém os artigos, mas confirmou que envolve credenciais online: as identidades e senhas de usuário de pessoas ou instituições com acesso legítimo ao conteúdo dos periódicos. Ela diz que muitos acadêmicos os doaram voluntariamente. As editoras alegaram que o Sci-Hub se apoia em e-mails de phishing para enganar pesquisadores, por exemplo fazendo-os logar em falsos sites dos periódicos. “Não posso confirmar a exata fonte das credenciais”, Elbakyan me disse, “mas posso confirmar que eu mesma não mandei e-mail algum de phishing.”

Então por seu próprio design, o conteúdo do Sci-Hub é direcionado pelo que os acadêmicos buscam. O artigo de janeiro no The Astronomical Journal descrevendo um novo possível planeta nas franjas de nosso sistema solar? O artigo de 2015 da Nature descrevendo oxigênio no cometa 67P/Churyumov-Gerasimenko? O artigo em que um grupo fez a engenharia genética da resistência ao HIV e o pôs em embriões humanos com o método CRISPR, publicado mês passado no Journal of assisted Reproduction an Genetics? O Sci-Hub tem todos eles.

 

Os 10 artigos mais baixados do Sci-Hub

Dos 28 milhões de documentos requisitados de setembro de 2015 a fevereiro, estes foram os mais populares.

Ele tem artigos de notícias de periódicos científicos – incluindo vários meus na Science – bem como cópias de artigos de acesso livre, talvez por conta de confusão por parte dos usuários ou porque eles estão simplesmente usando o Sci-Hub como um portal tudo-em-um para artigos. Mais de 4000 diferentes artigos de vários periódicos de acesso livre da PLOS (Public Library of Science, “biblioteca pública de ciência”), por exemplo, podem ser baixados pelo Sci-Hub.

O fluxo da atividade do Sci-Hub ao longo do tempo reflete as vidas de trabalho dos pesquisadores, crescendo pelo curso de cada dia e depois diminuindo – mas nunca parando – à noite. (Há uma lacuna de 18 dias nos dados a partir de 4 de novembro de 2015, quando o domínio sci-hub.org caiu e os logs de servidor foram impropriamente configurados.) No final de fevereiro, o fluxo de artigos do Sci-Hub tinha aumentado a seu maior nível: mais de 200 mil requisições por dia.

Quantos usuários do Sci-Hub existem? Os pedidos de download vieram de 3 milhões de endereços de IP únicos, o que fornece um limite inferior. Mas o verdadeiro número é muito maior porque milhares de pessoas num campus de universidade podem compartilhar o mesmo IP. Os que baixam do Sci-Hub vivem em todos os continentes exceto a Antartica. Das 24 mil localizações de cidades nas quais elas se acumulam, a mais movimentada é Teerã, com 1,27 milhões de pedidos. Muito disso é de iranianos usando programas para baixar automaticamente grandes fileiras de artigos do Sci-Hub para fazer um mirror local do site, diz Elbakyan. Rahimi, o estudante de engenharia de Teerã, confirma isso: “Há muitos sites persas similares ao Sci-Hub”, ele diz. “Então você deveria considerar os downloads ilegais iranianos como sendo cinco ou seis vezes maios” que o que o Sci-Hub sozinho revela.

A geografia do uso do Sci-Hub parece em geral com um mapa de produtividade científica, mas com algumas das mais ricas e mais pobres nações em termos de ciência invertidos. Os menores países têm histórias próprias. Alguém em Nuuk, Groenlândia, está lendo um artigo sobre o melhor jeito de fornecer tratamento de câncer a populações indígenas. A pesquisa continua na Líbia, mesmo com a guerra civil que acontece lá. Alguém em Benghazi está investigando um método para transmitir dados entre computadores através do ar. Muito ao sul no deserto rico em petróleo, alguém perto da cidade de Sabha está mergulhando em dinâmica dos fluidos. Mapear os endereços de IP para localizações do mundo real pode pintar uma falsa imagem se as pessoas se esconderem em proxies ou em serviçoes de roteamento anônimo. Mas de acordo com Elbakyan, menos de 3% dos usuários do Sci-Hub usam estas coisas.

Nos EUA e na Europa, os usuários do Sci-Hub se concentram onde os pesquisadores acadêmicos trabalham. No período de 6 meses, 74 mil pedidos de download vieram de endereços de IP na cidade de Nova York, lar de múltiplas universidades e instituições científicas. Havia 19 mil pedidos de download de Columbus, uma cidade com menos de um décimo da população de Nova York, e 68 mil de East Laning, Michigan, que tem menos de um centésimo. Estas são os lares da Ohio State University e da Michigan State University, respectivamente.

 

Necessidade ou conveniência?

Muitos usuários do Sci-Hub parecem agregar-se perto de universidades que têm bom acesso a periódicos. As 5 cidades com mais requisições foram Ashburn, Virgínia (96,857), Nova York (73,606), East Lansing, Michigan (68,315), Fremont, Califórnia (59,389), Mountain View, Califórnia (56,637).

Os números para Ashburn, a maior cidade dos EUA em número de requisições, com quase 100 mil, são mais difíceis de interpretar. A George Washington University (GWU) em Washington, D.C., tem seu campus de ciência e tecnologia lá, mas Ashburn é também o lugar do Janelia Research Campus, a sede do Instituto Médico de elite Howard Hughes, bem como dos servidores da Wikimedia Foundation, o quartel-general da enciclopédia online Wikipedia. Os porta-vozes das duas últimas dizem que é improvável que seus empregados sejam responsáveis pelo tráfego. A secretaria de imprensa da GWU respondeu na defensiva, enviando-me uma declaração online de que a universidade recentemente publicou sobre o impacto dos aumentos da taxa de assinatura de periódicos no orçamento de sua biblioteca. “Recursos acadêmicos não são bens de luxo”, diz. “Mas são cobrados como se fossem.”

Vários estudantes da GWU confessaram ser fãs do Sci-Hub. Quando se mudou da Argentina para os EUA em 2014 para começar seu doutorado em física, Natalia Clementi diz que seu acesso a alguns periódicos chave sobre o assunto na verdade piorou porque a GWU não tinha assinaturas para eles. Pesquisadores na Argentina podem ter problemas em obter alguns periódicos especializados, ela nota, mas “a maior parte deles não tem problemas em acessar grandes periódicos porque o governo paga a assinatura em todas as universidades públicas no país todo.”

Mesmo para periódicos a que a universidade tem acesso, o Sci-Hub está se tornando a fonte a se consultar, diz Gil Forsyth, outro estudante de doutorado em física da GWU. “Se faço uma busca no Google Scholar e não tem link imediato para o PDF, tenho que clicar pelo ‘Checar Acesso através de GWU’ e aí dá certo ou não”, ele diz. “Se eu ponho [o título do artigo ou DOI] no Sci-Hub, vai dar certo.” Ele diz que a Elsevier publica periódicos que dão mais problemas para acessar.

O sistema da biblioteca da GWU “oferece um sistema de entrega de documentos especificamente para matemática, física, química e a faculdade de engenharia”, me disse Maralee Csellar, o diretor de relações com a mídia da universidade. “Estudantes de graduação que querem acessar um artigo do sistema da Elsevier deveriam trabalhar com o diretor de departamento, professor da aula ou com o orientador para assistência.”

A intensa atividade do Sci-Hub em East Lansing revela ainda outra motivação para usar o site. A maior parte dos downloads parece ser trabalho de poucos ou mesmo uma única pessoa rodando um programa de “scraping” durante as férias de dezembro de 2015, baixando artigos em velocidades sobre-humanas. Perguntei a Elbakyan se aqueles pedidos de download vieram dos endereços de IP da MSU, e ela confirmou que vieram. Os artigos são todos de periódicos de química, a maior parte deles publicado pela Sociedade Americana de Química. Então o objetivo aparente é construir um imenso repositório privado de literatura química. Mas por quê?

Bill Hart-Davidson, decano associado da MSU para educação da graduação, sugere que a resposta provável é “mineração de textos”, o uso de programas de computador para analisar grandes coleções de documentos para gerar dados. Quando contatei Hart-Davidson, sugeri que o scraper do Sci-Hub em East Lansing poderia ser alguém de seu próprio grupo de pesquisa. Mas ele riu e disse que ele não tinha ideia de quem era. Mas ele entende por que o scraper vai ao Sci-Hub mesmo embora a MSU assine os periódicos baixados. Para sua própria pesquisa sobre a estrutura linguística do discurso científico, Hart-Davidson obteve mais de 100 anos de artigos de biologia da maneira difícil – legalmente com a ajuda das editoras. “Levou um ano inteiro só para conseguir permissão”, diz Thomas Padilla, o bibliotecário da MSU que fez a negociação. E quando o HD cheio de artigos chegou, veio com regras estritas de uso. No final de cada dia de rodar programas de computador nele de um computador offline, Padilla tinha que atravessar o campus com os dados dos resultados num thumb drive para análise com Hart-Davidson.

Ainda assim, Sci-Hub tem desvantagens para pesquisa em mineração de textos, diz Hart-Davidson. Os artigos pirateados estão num PDF desformatado, que é difícil para os programas de analisar. Mas o maior problema, diz ele, é que a fonte dos dados é ilegal. “Como você vai publicar seu trabalho?” Mas de novo, ter um repositório imenso de artigos de fato possibilita um pesquisador a testar hipóteses rapidamente antes de se preocupar com bibliotecas. E está a um só clique de distância.

Enquanto a Elsevier empreende uma batalha legal contra Elbekyan e o Sci-Hub, muitos na indústria de publicações veem a luta como vã. “Os números são simplesmente impressionantes”, um executivo senior de uma grande editora me disse depois de ver as estatísticas do Sci-Hub. “Isso sugere um fracasso quase completo em fornecer um meio de acesso para esses pesquisadores.” Ele trabalha para uma companhia que publica alguns do conteúdo mais intensamente baixado do Sci-Hub e pediu anonimidade para que pudesse falar francamente.

Para pesquisadores em instituições que não podem pagar acesso a periódicos, ele diz, as editoras “precisam tornar assinatura e compra mais razoável para eles.” Richard Gedye, o diretor de programas outreach para STM, a Associação Internacional de Editoras Científicas, Técnicas e Médicas, contesta. Instituições no mundo em desenvolvimento que tiram vantagem dos programas outreach da indústria editorial “têm o tipo de amplitude de acesso a pesquisas científicas com peer-review que é bastante equivalente ao de típicas instituições na América do Norte ou Europa.”

E para todos os pesquisadores em universidades ocidentais que usam o Sci-Hub no lugar, o editor anônimo põe a culpa nos bibliotecários por não fazerem seus sistemas online mais fáceis de usar e não educarem seus pesquisadores. “Não penso que o problema seja o acesso – é a percepção de que o acesso é difícil,” diz.

 

As editoras mais baixadas do Sci-Hub

A análise de 28 milhões de pedidos de download ao Sci-Hub identificou editoras através de seus DOIs de referência cruzada, que não refletem a fusão Springer-Nature.

“Não concordo”, diz Ivy Anderson, diretor de coleções para a Biblioteca Digital da Califórnia em Oakland, que provê acesso a periódicos aos 240 mil pesquisadores do sistema da Universidade da Califórnia. Os sistemas de autenticação que os pesquisadores da universidade precisam usar para ler periódicos assinados quando fora do campus, e mesmo às vezes dentro do campus com computadores pessoais, “estão ali para reforçar restrições editoriais”, ela diz.

Irá o Sci-Hub empurrar a indústria rumo um modelo de acesso livre, em que autenticação do leitor seja desnecessária? Isso não está claro, diz Suber, de Harvard. Embora o Sci-Hub ajude um grande número de pesquisadores, ele nota, isso também pode acarretar um “custo estratégico” para o movimento de acesso livre, pois editoras podem tirar vantagem da “confusão” sobre a legalidade do acesso livre na academia em geral e restringi-la. “Acesso livre legal força as editoras a adaptar”, ele diz, enquanto “acesso livre ilegal convida-as a em vez disso processá-las.”

Mesmo se for presa, Elbakyan diz que o Sci-Hub não vai parar. Ela tem failsafes para mantê-lo online e funcionando, e doações de usuários agora cobrem o custo dos servidores do Sci-Hub. Ela também nota que toda a coleção dos 50 milhões de artigos já foi copiada por outros muitas vezes. “[Os artigos] não precisam ser baixados de novo das universidades.”

De fato, os dados sugerem que o crescimento explosivo do Sci-Hub acabou. Elbakyan diz que a proporção de pedidos de download para artigos não contidos no database se mantém estável nos 4,3%. Se ela perder credenciais para piratear conteúdo novo, a diferença vai aumentar de novo, entretanto – e editoras e universidades estão constantemente inventando novos esquemas de autenticação que ela e seus apoiadores precisarão driblar. Ela até me pediu para doar meu próprio login e senha da Science – ela estava só meio brincando.

Para a própria Elbakyan, o futuro é ainda mais incerto. A Elsevier está processando-a não só por infração de copyright mas também por hacking ilegal sob a lei americana de Abuso e Fraude em Computadores (Computer Fraud and Abuse Act). “Há a possibilidade de ser presa de repente por hackear,” admite Elbakyan. Outros que quebraram esta lei foram extraditados dos EUA enquanto viajavam. E ela está plenamente consciente de que outro prodígio da computação- que virou advogado, Aaron Swartz, foi preso por acusações similares em 2011 depois de baixar artigos acadêmicos em massa. Encarando penas financeiras devastadoras e tempo na prisão, Swartz se enforcou.

Como o resto da comunidade científica, Elbakyan está assistindo o futuro da comunicação acadêmica se desdobrando rapidamente. “Verei o que vira de tudo isso.”

artigo original aqui

0 comentários

Enviar um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Esse site utiliza o Akismet para reduzir spam. Aprenda como seus dados de comentários são processados.

Pular para o conteúdo