Obter a legislação do dre.tretas.org – formato SQLite

Posted on 2024-06-16 by Helder Guerreiro

SQLite é uma biblioteca que implementa um motor de base de dados SQL, de pequeno tamanho, rápido, sem dependências externas, completo em funcionalidades, com alto desempenho e fiabilidade.

Tanto que assim é que a Biblioteca do Congresso dos EUA recomenda o formato desta base de dados para armazenamento a longo prazo de conjuntos de dados.

Ao usar este formato temos grande facilidade em filtrar, converter e conjugar com outros dados a informação disponibilizada.

Assim decidi disponibilizar os dados em bruto do dre.tretas.org em mais este formato. (Ver este post para uma descrição dos outros formatos disponíveis.)

A seguir mostro como se pode obter os dados neste formato e dou alguns exemplos de formas de explorar estes dados.

Continuar a ler →

Obter a legislação do dre.pt – versão de 2021

Posted on 2021-12-05 by Helder Guerreiro

Mais uma vez o site dos Diários da República Electrónicos foi refeito. A nova versão foi colocada no ar no dia 2 de Novembro, sem pompa nem circunstância (numa busca rápida não encontrei nenhum anúncio). Esta nova versão mantém o aspecto do site anterior mas mudou o código que o constitui completamente.

Assim o método para obter a legislação mudou. Neste post mostro como se pode continuar a obter esta informação. Notar que a estrutura interna do site é extremamente ineficiente, são desperdiçados muito recursos que tornam o site mais lento do que necessitaria ser. Não me vou pronunciar mais sobre estes problemas, talvez num outro post.

O novo site carrega uma página simples e depois faz pedidos XHR para obter os dados a mostrar. Estes pedidos são feitos usando métodos HTTP POST. Os parâmetros dos métodos post são passados usando JSON. As respostas obtidas são também JSON.

Devido à arquitectura usada o trabalho para obter os documentos do DRE fica muito simplificado. Fundamentalmente necessitamos de identificar a forma de obter 3 tipos de informação:

Lista dos DRs de uma determinada data
Lista dos documentos de um dado DR
Obter um determinado documento

Continuar a ler →

Obter a legislação do dre.pt – versão de 2014

Posted on 2015-02-26 by Helder Guerreiro

ATENÇÃO – Em Novembro de 2021 a Casa da Moeda alterou o site do DRE pelo que as notas que constam neste post já não são válidas. Mantêm-se o post para memória futura.

O primeiro problema: chegar ao texto integral dos diplomas

Tal como no site do dre.pt antigo, neste novo site existe uma forma de aceder ao texto integral usando URLs encontrados usando um motor de busca.

Por exemplo se fizermos uma busca com:

site:dre.pt inurl:maximized "Série II"

Vamos obter URLs para páginas deste género.

O URL anterior pode ser simplificado para qualquer coisa como:

https://dre.pt/home/-/dre/57968656/details/3/maximized?serie=II&parte_filter=31

Neste caso o diplomaId é 57968656.

Infelizmente o “diplomaId” não é sequencial.

Assim o problema consiste em obter este diplomaId para os documentos de cada dia.

Se consultarmos os documentos da “Parte C” da série II do DR, para um dado dia no passado recente, vamos encontrar algumas ligações com o texto:

Consultar vigência e produção de efeitos (DIGESTO)

A informação adicional obtida via estes links é muito pouca para o acesso grátis ao dre.pt. No entanto, se olharmos ao respectivo URL, identificamos o seguinte:

diplomaId=62080172

Este diplomaId corresponde ao número que nos dá acesso ao texto integral que mencionei antes! O exemplo anterior corresponde ao Despacho 14844/2014, que tem este texto integral.

O segundo problema: obter a lista dos documentos para um dado dia

PASSO 1 – O truque fundamental reside na forma como obtemos a lista dos documentos para um dado DR, a query a fazer ao servidor deverá ser do tipo:

https://dre.pt/web/guest/pesquisa-avancada/-/asearch/advanced/maximized?types=DR&dataPublicacao=<data>

Daqui iremos obter uma lista de Diários da República (exemplo).

PASSO 2 – Por exemplo para o DR n.º 37/2015, Série I de 2015-02-23 o URL obtido no passo 1 é:

https://dre.pt/web/guest/pesquisa-avancada/-/asearch/66567259/details/maximized

Limpei o URL da parte da query dado que parece não ser usada para nada de útil aos nossos objectivos.

PASSO 3 – Vamos agora obter o ID único que nos dá acesso à página do digesto como referi mais acima. Cada documento irá ter uma estrutura parecida à seguinte:

<li> <a href="/application/file/<número pdf>"> [ ... ] <span class="rgba"><número digesto></span> </a> <div class="author"> [...] </div> <div class="summary"> [...] </div> <div class="action"><a class="clara" ...>Link para o digesto, isto é opcional</a></div> </li>

Quando se faz a query da forma que mostrei temos uma tag span com class rgba. Se o número contido neste span for diferente do número do link para o PDF, então podemos construir links para a página do digesto com o texto integral! (exemplo para a Portaria 46/2015 que é a primeira do DR que usei como exemplo, notem que é da série I).

É simples, agora, fazer um scraper para isto.

Tanto quanto posso aferir isto funciona para todo o DR, série I e série II excepto para a parte dos contratos da série II.

Obter a legislação do dre.tretas.org

Posted on 2014-02-23 by Helder Guerreiro

Mantemos em http://dre.tretas.org uma cópia do DRE com algumas funcionalidades que faltam no site oficial. Essas funcionalidades incluem um motor de busca eficiente, um sistema robusto de bookmarks, etiquetagem e anotação da legislação.

Para além disso, na página Acerca, do site, damos a possibilidade de fazer o download dos dados que, desde 2011, retiramos do site oficial. Disponibilizamos também, no GitLab, todo o código fonte do site. Desta forma qualquer um pode tratar estes dados como melhor entender.

Neste post descrevo a estrutura destes dados.

Continuar a ler →

Resumos de legislação

Posted on 2014-01-28 by Helder Guerreiro

ATENÇÃO – Em Setembro de 2014 a Casa da Moeda alterou o site do DRE pelo que as notas que constam neste post já não são válidas. Mantêm-se o post para memória futura.

Descobri, hoje, que o dre.pt tem o que chamam “Resumos em linguagem clara”. São resumos de diplomas explicados em linguagem acessível. A chatice é que, parece, estes resumos apenas estão disponíveis a quem pagar pelo acesso ao Diário da República Electrónico.

Exemplo:

Como remover o seu histórico da Web (versão Google)

Posted on 2012-02-22 by Helder Guerreiro

By tom burke from Morgan Hill, CA, USA (Flickr) [CC-BY-2.0 (www.creativecommons.org/licenses/by/2.0)], via Wikimedia Commons

Estou-me a referir à funcionalidade que a Google oferece, onde guarda de forma automática o seu histórico de navegação, as buscas que efectuou e ainda mais dados. Esta funcionalidade até ao dia 1 de Março é estanque em relação aos outros produtos oferecidos pela Google aos seus utilizadores.

No entanto, a partir de 1 de Março os outros produtos da Google vão ter acesso a este tesouro de informação (não só à informação gerada a partir desse dia em diante, mas a todo o histórico). Esta é informação muito sensível, se tem o serviço activo pode lá encontrar indícios acerca da sua orientação sexual, preferências políticas, religião que professa, produtos que compra e em que lojas, viagens que realizou, problemas de saúde, etc. Em suma, a maior parte da sua vida on-line pode lá estar espelhada, para a maior parte das pessoas, será 100% da vida on-line.

Imagine o quanto não vale esta informação para os clientes da Google. Se tiver, por exemplo, algum tipo de doença e estiver fragilizado. E, de repente, começar a receber anúncios de curas milagrosas para a sua doença. É normal que tente a cura. É o que toda a gente faria. Não pense que este é um caso hipotético, é o que já acontece hoje em dia.

A seguir ao corte mostro como eliminar esta informação.

Continuar a ler →

Diga não à ACTA

Posted on 2012-01-26 by Helder Guerreiro

(Para ligar as legendas inicie em primeiro lugar o filme, a seguir clique no botão ‘CC’ uma vez e, depois do fundo deste botão ficar vermelho, clique outra vez e escolha o idioma na lista que aparece)

A liberdade que desfrutamos na Internet representa uma ameaça muito sensível aos poderes do nosso mundo. É por isso que assistimos todos os dias a tentativas para cercear esta liberdade, para a limitar e estrangular. O Tratado Comercial anti-Contrafacção – ACTA (Anti-Counterfeiting Trade Agreement) – não é mais do que outra destas tentativas. Informe-se neste site.

Apertando o Cerco

Posted on 2012-01-18 by Helder Guerreiro

Se visitar a Wikipédia em Inglês, ou inúmeros outros sites, vai deparar com uma página parecida à que ilustra este post. Trata-se de um protesto contra as leis anti-cópia elaboradas pelo mesmo lobby que em Portugal vai fazer aprovar a lei da cópia privada (que goza de uma unanimidade enternecedora na Assembleia da República). As leis em questão são a SOPA (Stop Online Piracy Act) e PIPA (PROTECT IP Act), a primeira lei é da câmara dos representantes e a segunda do senado, com objectivos idênticos.

Continuar a ler →

Tretas.org

Tretas.org com opinião

Arquivo da Categoria: Tecnologia

Obter a legislação do dre.tretas.org – formato SQLite

Obter a legislação do dre.pt – versão de 2021

Obter a legislação do dre.pt – versão de 2014

Obter a legislação do dre.tretas.org

Resumos de legislação

Como remover o seu histórico da Web (versão Google)

Diga não à ACTA

Apertando o Cerco

Partilhar:

Partilhar:

Partilhar:

Partilhar:

Partilhar:

Partilhar:

Partilhar:

Partilhar: