Obter a legislação do dre.tretas.org – para o novo site

O primeiro problema: chegar ao texto integral dos diplomas

Tal como no site do dre.pt antigo, neste novo site existe uma forma de aceder ao texto integral usando URLs encontrados usando um motor de busca.

Por exemplo se fizermos uma busca com:

site:dre.pt inurl:maximized "Série II"

Vamos obter URLs para páginas deste género.

O URL anterior pode ser simplificado para qualquer coisa como:

https://dre.pt/home/-/dre/57968656/details/3/maximized?serie=II&parte_filter=31

Neste caso o diplomaId é 57968656.

Infelizmente o “diplomaId” não é sequencial.

Assim o problema consiste em obter este diplomaId para os documentos de cada dia.

Se consultarmos os documentos da “Parte C” da série II do DR, para um dado dia no passado recente, vamos encontrar algumas ligações com o texto:

Consultar vigência e produção de efeitos (DIGESTO)

A informação adicional obtida via estes links é muito pouca para o acesso grátis ao dre.pt. No entanto, se olharmos ao respectivo URL, identificamos o seguinte:

diplomaId=62080172

Este diplomaId corresponde ao número que nos dá acesso ao texto integral que mencionei antes! O exemplo anterior corresponde ao Despacho 14844/2014, que tem este texto integral.

O segundo problema: obter a lista dos documentos para um dado dia

PASSO 1 – O truque fundamental reside na forma como obtemos a lista dos documentos para um dado DR, a query a fazer ao servidor deverá ser do tipo:

https://dre.pt/web/guest/pesquisa-avancada/-/asearch/advanced/maximized?types=DR&dataPublicacao=<data&gt;

Daqui iremos obter uma lista de Diários da República (exemplo).

PASSO 2 – Por exemplo para o DR n.º 37/2015, Série I de 2015-02-23 o URL obtido no passo 1 é:


https://dre.pt/web/guest/pesquisa-avancada/-/asearch/66567259/details/maximized

Limpei o URL da parte da query dado que parece não ser usada para nada de útil aos nossos objectivos.

PASSO 3 – Vamos agora obter o ID único que nos dá acesso à página do digesto como referi mais acima. Cada documento irá ter uma estrutura parecida à seguinte:

<li>
<a href="/application/file/<número pdf>"> [ ... ]
<span class="rgba"><número digesto></span>
</a>
<div class="author"> [...] </div>
<div class="summary"> [...] </div>
<div class="action"><a class="clara" ...>Link para o digesto, isto é opcional</a></div>
</li>

Quando se faz a query da forma que mostrei temos uma tag span com class rgba. Se o número contido neste span for diferente do número do link para o PDF, então podemos construir links para a página do digesto com o texto integral! (exemplo para a Portaria 46/2015 que é a primeira do DR que usei como exemplo, notem que é da série I).

É simples, agora, fazer um scraper para isto.

Tanto quanto posso aferir isto funciona para todo o DR, série I e série II excepto para a parte dos contratos da série II.

Anúncios

Ainda sobre o HSBC

Entrevista com Hervé Falciani de onde originou o caso “Swiss leak”. Discute-se o papel da CIA no acesso aos dados do HSBC, mostra-se um pouco do sistema mafioso instalado pela finança e a forma como é utilizado para corromper a classe política.

Os bancos não são pessoas de bem: Os documentos HSBC

Inúmeros documentos foram obtidos pela imprensa no que constitui uma das maiores fugas de informação do sector bancário. As histórias começaram ontem a ser publicadas por vários jornais, entre eles o The Guardian.

Nestes documentos contam-se histórias de fraude, de más práticas, de planeamento e ajuda à fuga aos impostos, enfim, de crimes contra os cidadãos.

Por exemplo, um banco subsidiário do HSBC tinha práticas tão edificantes como as seguinte:

  • Permitia aos clientes levantarem enormes quantidades de dinheiro sem fazer qualquer tipo de controlo;
  • Nos seus materiais de marketing anunciava a fuga aos impostos como serviço prestado;
  • Aceitava manter contas escondidas das autoridades tributárias;
  • Aceitava criar contas para criminosos internacionais.

O link que faço neste artigo é apenas a peça inicial sobre mais este escândalo, nos próximos dias ficaremos a saber mais.

Os bancos não são pessoas de bem: JPMogan paga mais uma multa

Vários bancos participaram durante anos num esquema para obter lucros indevidos através da manipulação do valor das moedas no mercado de compra e venda de moeda.

Hoje a Reuters noticia que o JPMorgan concordou em pagar 99.5 milhões de dólares para fazer desaparecer algumas acusações. É claro que um valor destes é um mero erro de arredondamento para um banco como o JPMorgan. Mais uma vez as autoridades deixam os culpados escapar.

No mínimo todos os ganhos ilícitos deveriam ser devolvidos e em cima disso o banco deveria pagar uma multa suficiente para fazer pensar duas vezes os respectivos administradores antes de perpetrarem actos criminosos. Penas de prisão para os envolvidos directamente e para os responsáveis também não me parece descabido.