No entanto, não somos os únicos consumidores da web e, algum dia, esses dados poderão ser mais fáceis de ler por esses consumidores não humanos.
A web é construída com base em dados – meus dados, seus dados, dados de pequenas empresas, dados de grandes empresas e assim por diante. Podemos entregar dados como um endereço de e-mail e, em troca, podemos ter acesso a outros dados, talvez conteúdo exclusivo para um novo videogame ou um boletim informativo semanal. Essa troca constante de dados permite colaboração e comunicação em uma escala que nunca existiu antes da web.
Muitos dos dados que atualmente trocam de mãos podem ser vistos como centrados no ser humano. Temos artigos de notícias, blogs, e-commerce, fóruns, plataformas de vídeo, mídia social e sites de perguntas e respostas que nos fornecem dados para ler, assistir e consumir. Não somos os únicos consumidores da web, porém, com mecanismos de pesquisa, assistentes de voz, bots de preços e até bots de visualização de links realizando um número impressionante de solicitações todos os dias – sistemas de computador como esses estão desempenhando um papel cada vez maior no consumo de dados.
Tim Berners-Lee cunhou o conceito de “Web Semântica”, onde a web pode ser considerada mais um banco de dados global que os sistemas de computador podem entender, em vez de uma série de páginas da web separadas. Por sua vez, isso poderia efetivamente permitir integrações mais profundas entre diferentes sistemas de computador e permitir uma maior descentralização de dados. Os dados aqui não são apenas de grandes corporações – podem ser seus dados ou meus dados, dados que controlamos e gerenciamos por meio de nossos próprios sites.
Infelizmente, não estamos neste estágio de uma utopia de dados completa. Grandes quantidades de dados não estão disponíveis publicamente e, para os dados disponíveis, muitas vezes podem ser bloqueados por APIs com seus próprios sistemas proprietários, onde você precisa pagar pelo acesso.
Construindo uma Web Semântica
Mudar de onde estamos agora para uma Web Semântica completa não é algo que pode acontecer da noite para o dia. Há anos criamos páginas da web em HTML, CSS e JavaScript, projetadas de maneira ideal para uma experiência de visualização humana. Atualmente, para extrair dados confiáveis do HTML, os sistemas de computador precisam ser capazes de processar dados não estruturados e, em seguida, estabelecer o contexto e o significado. O fato é que nós, humanos, podemos determinar o contexto e o significado da visualização da página, mas as máquinas precisam realizar processamento adicional para obter o mesmo contexto. A codificação direta de dados estruturados elimina a complexidade adicional para as máquinas processarem a si mesmas. Existem muitas soluções diferentes para codificar dados estruturados, incluindo Open Graph, Microdata, RDFa e JSON-LD.
Open Graph, criado pelo Facebook, é um formato popular para armazenar tipos específicos de dados estruturados. O Facebook usa isso para gerar visualizações de link dos metadados da página. Os desenvolvedores de sites desejam controle adicional sobre o que é exibido com base em como é descrito nos metadados. Desde sua criação, outros sites de mídia social também adotaram o Open Graph para gerar visualizações de links.
Microdata, RDFa e JSON-LD, no entanto, são um pouco diferentes, pois, por si só, eles representam apenas formatos diferentes de armazenamento de dados em uma página da web. Os computadores podem analisar essas estruturas padronizadas. No entanto, a menos que saiba o tipo de dados que está sendo representado, ele não entenderá realmente os dados. O que está faltando aqui é um vocabulário compartilhado para que dois sistemas de computador diferentes possam se entender.
Um esforço conjunto feito por Google, Microsoft, Yahoo e Yandex propôs uma solução chamada Schema.org para promover dados estruturados em páginas da web com um vocabulário comum. Para mecanismos de pesquisa, assistentes de voz, bots de preços e até bots de visualização de links realizando um número impressionante de solicitações todos os dias – sistemas de computador como esses estão desempenhando um papel cada vez maior no consumo de dados.
Tim Berners-Lee cunhou o conceito de “Web Semântica”, onde a web pode ser considerada mais um banco de dados global que os sistemas de computador podem entender, em vez de uma série de páginas da web separadas. Por sua vez, isso poderia efetivamente permitir integrações mais profundas entre diferentes sistemas de computador e permitir uma maior descentralização de dados. Os dados aqui não são apenas de grandes corporações – podem ser seus dados ou meus dados, dados que controlamos e gerenciamos por meio de nossos próprios sites.
Infelizmente, não estamos neste estágio de uma utopia de dados completa. Grandes quantidades de dados não estão disponíveis publicamente e, para os dados disponíveis, muitas vezes podem ser bloqueados por APIs com seus próprios sistemas proprietários, onde você precisa pagar pelo acesso.
Construindo uma Web Semântica
Mudar de onde estamos agora para uma Web Semântica completa não é algo que pode acontecer da noite para o dia. Há anos criamos páginas da web em HTML, CSS e JavaScript, projetadas de maneira ideal para uma experiência de visualização humana. Atualmente, para extrair dados confiáveis do HTML, os sistemas de computador precisam ser capazes de processar dados não estruturados e, em seguida, estabelecer o contexto e o significado. O fato é que nós, humanos, podemos determinar o contexto e o significado da visualização da página, mas as máquinas precisam realizar processamento adicional para obter o mesmo contexto. A codificação direta de dados estruturados elimina a complexidade adicional para as máquinas processarem a si mesmas. Existem muitas soluções diferentes para codificar dados estruturados, incluindo Open Graph, Microdata, RDFa e JSON-LD.
Open Graph, criado pelo Facebook, é um formato popular para armazenar tipos específicos de dados estruturados. O Facebook usa isso para gerar visualizações de link dos metadados da página. Os desenvolvedores de sites desejam controle adicional sobre o que é exibido com base em como é descrito nos metadados. Desde sua criação, outros sites de mídia social também adotaram o Open Graph para gerar visualizações de links.
Microdata, RDFa e JSON-LD, no entanto, são um pouco diferentes, pois, por si só, eles representam apenas formatos diferentes de armazenamento de dados em uma página da web. Os computadores podem analisar essas estruturas padronizadas. No entanto, a menos que saiba o tipo de dados
.png)
.png)
.png)
.png)