domingo, 10 de novembro de 2019

Grupo financiado por Elon Musk libera IA poderosa e assustadora

Por Claudio Yuge | 09 de Novembro de 2019 no site Canaltech.


Resultado de imagem para I.A.


Em fevereiro deste ano, a OpenAI, instituição sem fins lucrativos que realiza pesquisas sobre inteligência artificial (IA), anunciou o projeto GPT-2, um algoritmo poderoso, capaz de criar vários parágrafos coerentes sobre os mais variados assuntos. Na ocasião, ela disse que não liberaria por completo a novidade para o público, por se tratar de algo muito poderoso, que poderia trazer problemas se mal utilizada. Mas… agora, o monstro saiu da jaula.
O gerador de textos foi treinado em cerca de 40 GB de dados de oito milhões de sites. Para testar, é só colocar algumas palavras em inglês e receber, em questão de segundos, uma história convincente, com dados plausíveis. Veja no exemplo abaixo:
(Imagem: Reprodução/Talk to Transformer)
Em uma postagem no blog, a OpenAI disse nesta semana que decidiu disponibilizar o GPT-2 por completo porque, desde que distribuiu uma versão menor do mesmo software, não notou nenhum comportamento de uso indevido — embora não tenha havido assim tanto tempo para alguém usar a IA para fins, digamos, inadequados.
Se quiser experimentar, basta acessar o endereço https://talktotransformer.com/. E pensar que a OpenIA tem como um dos maiores financiadores Elon Musk, fundador da Tesla e da Space X e que também é conhecido justamente por conta do seu medo de que um dia a IA vai se voltar contra os humanos.
Fonte: Gizmodo 

sábado, 9 de novembro de 2019

Amazon's Ring Video Doorbell Lets Attackers Steal Your Wi-Fi Password

Por Mohit Kumar em 047/11/2019 no site The Hacker News

ring video doorbell wifi password
Security researchers at Bitdefender have discovered a high-severity security vulnerability in Amazon's Ring Video Doorbell Pro devices that could allow nearby attackers to steal your WiFi password and launch a variety of cyberattacks using MitM against other devices connected to the same network.

In case you don't own one of these, Amazon's Ring Video Doorbell is a smart wireless home security doorbell camera that lets you see, hear and speak to anyone on your property from anywhere in the World.

The smart doorbell needs to be connected to your WiFi network, allowing you to remotely access the device from a smartphone app to perform all tasks wirelessly.

While setting up the device for the very first time and share your WiFi password with it, you need to enable the configuration mode from the doorbell.

Entering into the configuration mode turns on a built-in, unprotected wireless access point, allowing the RING smartphone app installed on your device to automatically connect to the doorbell.

However, researchers told The Hacker News that besides using an access point with no password, the initial communication between the Ring app and the doorbell, i.e., when you share your home's WiFi password with the doorbell, is performed insecurely through plain HTTP.

ring video doorbell wifi password hacking


Thus, a nearby attacker can simply connect to the same unprotected wireless access point, while the setup in the process, and steal your WiFi password using a man-in-the-middle attack.

Since this attack can only be performed during the "one-time initial configuration" of the device, you might be wondering how an attacker can leverage this loophole after the device has already been configured.
Researchers suggested that by continuously sending de-authentication messages to the device, an attacker can trick the user into believing that the device is malfunctioning, forcing him to re-configure it.

"Attackers can trigger the reconfiguration of the Ring Video Doorbell Pro. One way to do this is to continuously send deauthentication packets, so that the device is dropped from the wireless network. At this point, the App loses connectivity and tells the user to reconfigure the device," the researchers told The Hacker News.

"The live view button becomes greyed out and, when clicked, the app will suggest restarting the router or pressing the setup button twice on the doorbell. Pressing the button twice will trigger the device to try to reconnect to the network – an action that will fail. The last resort is to try and reconfigure the device," Bitdefender said in a blog post.

Once the owner enters into the configuration mode to re-share WiFi credentials, the attacker sniffing the traffic would capture the password in plaintext, as shown in the screenshot.

Once in possession of a user's WiFi password, an attacker can launch various network-based attacks, including:

  • Interact with all devices within the household network;
  • Intercept network traffic and run man-in-the-middle attacks
  • Access all local storage (NAS, for example) and subsequently access private photos, videos and other types of information,
  • Exploit all vulnerabilities existing in the devices connected to the local network and get full access to each device; that may lead to reading emails and private conversations,
  • Get access to security cameras and steal video recordings.

Bitdefender discovered this vulnerability in Ring Video Doorbell Pro devices in June this year and responsibly reported it to Amazon, but got no update from the company.

hacking wifi password

When requested for an update in late July, the vendor closed the vulnerability report in August and marked it as a duplicate without saying whether a third party already reported this issue.

However, after some communication with the vendor, an automatic fix for the vulnerability was partially issued on 5th September.

"However, to be on the safe side Ring Video Doorbell Pro users should make sure they have the latest update installed. If so, they're safe."

A similar security vulnerability was discovered and patched in the Ring Video Doorbell devices in early 2016 that was also exposing the owner's WiFi network password to attackers.

Have something to say about this article? Comment below or share it with us on Facebook, Twitter or our LinkedIn Group.

TIOBE Index for November 2019

November Headline: C getting close to Java, Swift enters top 10 and Rust scores all time high

This month there are couple of interesting moves in the TIOBE index top 20. First of all, C is getting really close to Java now. The difference is only 0.2%. May be C will become number 1 again before the end of the year. It is also exciting to see who is taking the top 10 position. This changes almost every month. Two months ago this was SQL, last month it was Objective-C, but this month Swift takes over. The gap with Ruby at position 11 is almost 0.4%, which might indicate that Swift is keeping its top 10 position at least for a couple of months. It is also interesting to note that Rust scored an all time high by jumping from position 34 to 25 in one month. If the positive news about Rust continues it might become a member of the top 20.
The TIOBE Programming Community index is an indicator of the popularity of programming languages. The index is updated once a month. The ratings are based on the number of skilled engineers world-wide, courses and third party vendors. Popular search engines such as Google, Bing, Yahoo!, Wikipedia, Amazon, YouTube and Baidu are used to calculate the ratings. It is important to note that the TIOBE index is not about the best programming language or the language in which most lines of code have been written.
The index can be used to check whether your programming skills are still up to date or to make a strategic decision about what programming language should be adopted when starting to build a new software system. The definition of the TIOBE index can be found here.
Nov 2019 Nov 2018 Change Programming Language Ratings Change
11
Java16.246%-0.50%
22
C16.037%+1.64%
34changePython9.842%+2.16%
43changeC++5.605%-2.68%
56changeC#4.316%+0.36%
65changeVisual Basic .NET4.229%-2.26%
77
JavaScript1.929%-0.73%
88
PHP1.720%-0.66%
99
SQL1.690%-0.15%
1012changeSwift1.653%+0.20%
1116changeRuby1.261%+0.17%
1211changeObjective-C1.195%-0.28%
1313
Delphi/Object Pascal1.142%-0.28%
1425changeGroovy1.099%+0.50%
1515
Assembly language1.022%-0.09%
1614changeR0.980%-0.43%
1720changeVisual Basic0.957%+0.10%
1823changeD0.927%+0.25%
1917changeMATLAB0.890%-0.14%
2010changeGo0.853%-0.64%

PHP:

Other programming languages

The complete top 50 of programming languages is listed below. This overview is published unofficially, because it could be the case that we missed a language. If you have the impression there is a programming language lacking, please notify us at tpci@tiobe.com. Please also check the overview of all programming languages that we monitor.
PositionProgramming LanguageRatings
21Perl0.831%
22SAS0.825%
23PL/SQL0.641%
24Dart0.615%
25Rust0.506%
26Scratch0.463%
27Lisp0.407%
28COBOL0.391%
29Fortran0.390%
30Scala0.387%
31RPG0.385%
32Transact-SQL0.380%
33Logo0.324%
34ABAP0.306%
35Kotlin0.300%
36Ada0.296%
37Scheme0.288%
38Lua0.270%
39ML0.251%
40Julia0.249%
41F#0.235%
42LabVIEW0.234%
43TypeScript0.222%
44Haskell0.203%
45Prolog0.181%
46ActionScript0.180%
47VBScript0.180%
48Bash0.178%
49Tcl0.178%
50PostScript0.175%

Criador da programação C++ diz que o Bitcoin é um mal uso de linguagem

Por Rafael Ferreira em 08/11/2019 no site Cointelegrafh.


Criador da programação C++ diz que o Bitcoin é um mal uso de linguagem
Em uma recente entrevista ao Artificial Intelligence Podcast de Lex Fridman, o criador da programação C++, Bjarne Stroustrup, lamentou profundamente alguns casos de uso de sua criação, principalmente o Bitcoin.
O cientista dinamarquês de computação Bjarne Stroustrup, conhecido por criar a linguagem de programação C++, mencionou o Bitcoin como um exemplo desse uso indevido.
Durante a recente entrevista, Stroustrup falou sobre as diferenças entre o design de linguagens de programação. O criador do C ++ expressou ceticismo quanto ao uso da sua linguagem para a criação do Bitcoin:
"Deixe-me dizer assim. Quando você cria a ferramenta, não sabe como ela será usada. Você tenta melhorar a ferramenta observando como está sendo usada, mas (...) realmente não tem controle sobre como a coisa é usada. Então, estou muito feliz e orgulhoso de algumas coisas em que o C ++ está sendo usado e outras que eu gostaria que as pessoas não fizessem. A mineração de Bitcoin é meu exemplo favorito. Utiliza tanta energia quanto a Suíça e serve principalmente criminosos."
Stroustrup parece ser crítico em relação às criptomoedas em duas áreas - consumo maciço de eletricidade e transações ilegais.
No que tange ao alto consumo de energia elétrica, existem vários estudos que analisam o gasto de energia com a mineração de Bitcoin.
Segundo um estudo da empresa CoinShares, 74% de toda a energia gasta com a mineração do ativo digital é de origem renovável.
Muitos analistas acreditam que o sistema de consenso do Bitcoin - que é sustentado pelos mineradores - estimula a competição por novas formas de energia renovável.
Quanto menos se gasta com energia, mais se lucra com a industria de mineração do Bitcoin. Isso faz com que a competição por energias renováveis e baratas seja estimulada.
Na questão da criminalidade, o panorama atual não é mais como o que acontecia a alguns anos atrás. Outras criptomoedas focadas na privacidade - como o Monero - são preferidas para a realização de atividade criminal.
Como mostrou o Cointelegraph, o CEO da exchange CoinCorner afirmou que o Bitcoin não é mais a opção utilizada por criminosos.

segunda-feira, 21 de outubro de 2019

Microsoft to Reward Hackers for Finding Bugs in Open Source Election Software

Por Mohit Kumar em 18/10/2019 no site The Hacker News.

ElectionGuard Bounty program
Fair elections are the lifelines of democracy, but in recent years election hacking has become a hot topic worldwide.

Whether it's American voting machines during the 2016 presidential election or India's EVMs during 2014 general elections, the integrity, transparency, and security of electronic voting machines remained questionable, leaving a wound in the minds of many that is difficult to heal.

Many countries, including the largest democracy in the world i.e., India, believe the best way to ensure the security of EVMs is to make its technology opaque to bad actors, but in recent years a large section of the population is losing trust in any system that has been certified by a closed group of experts only.

To make a balance between transparency and security, in May 2019, Microsoft released a free, open-source software development kit (SDK) called ElectionGuard that aims to enable end-to-end verification of voting.

Microsoft's ElectionGuard SDK can be integrated into voting systems and has been designed to "enable end-to-end verification of elections, open results to third-party organizations for secure validation, and allow individual voters to confirm their votes were correctly counted."

ElectionGuard Bug Bounty Program


Since no software comes bugs-free, Microsoft today finally launched the ElectionGuard Bounty program, inviting security researchers from across the world to help the company discover high impact vulnerabilities in the ElectionGuard SDK.

"The ElectionGuard Bounty program invites security researchers to partner with Microsoft to secure ElectionGuard users, and is a part of Microsoft's broader commitment to preserving and protecting electoral processes under the Defending Democracy Program," the company says in a blog post published today.

"Researchers from across the globe, whether full-time cybersecurity professionals, part-time hobbyists, or students, are invited to discover high impact vulnerabilities in targeted areas of the ElectionGuard SDK and share them with Microsoft under Coordinated Vulnerability Disclosure (CVD)."

ElectionGuard Bounty offers cybersecurity researchers a reward of up to $15,000 for eligible submissions with a clear and concise proof of concept (POC) to demonstrate how the discovered vulnerability could be exploited to achieve an in-scope security impact.

The ElectionGuard components that are currently in scope for bug bounty awards include ElectionGuard API SDK, ElectionGuard specification and documentation, and verifier reference implementation.

However, the tech giant says it will update the ElectionGuard bounty scope with additional components to award further research in the future.

terça-feira, 10 de setembro de 2019

New Malware Uses Windows BITS Service to Stealthy Exfiltrate Data

Mohit Kumar in 09/09/2019 - The Hackers News


stealthfalcon malware windows bits
Cybersecurity researchers have discovered a new computer virus associated with the Stealth Falcon state-sponsored cyber espionage group that abuses a built-in component of the Microsoft Windows operating system to stealthily exfiltrate stolen data to attacker-controlled server.

Active since 2012, Stealth Falcon is a sophisticated hacking group known for targeting journalists, activists, and dissidents with spyware in the Middle East, primarily in the United Arab Emirates (UAE).

Dubbed Win32/StealthFalcon, named after the hacking group, the malware communicates and sends collected data to its remote command-and-control (C&C) servers using Windows Background Intelligent Transfer Service (BITS).

BITS is a communication protocol in Windows that takes unused network bandwidth to facilitate asynchronous, prioritized, and throttled transfer of files between machines in the foreground or background, without impacting the network experience.

BITS is commonly used by software updaters, including downloading files from the Microsoft servers or peers to install updates on Windows 10, messengers, and other applications designed to operate in the background.

According to security researchers at cyber-security firm ESET, since BITS tasks are more likely permitted by host-based firewalls and the functionality automatically adjusts the data transfer rate, it allows malware to stealthily operate in the background without raising any red flags.

"Compared with traditional communication via API functions, the BITS mechanism is exposed through a COM interface and thus harder for a security product to detect," the researchers say in a report published today.

"The transfer resumes automatically after being interrupted for reasons like a network outage, the user logging out, or a system reboot."

Besides this, instead of exfiltrating the collected data in plain text, the malware first creates an encrypted copy of it and then uploads the copy to the C&C server via BITS protocol.

After successfully exfiltrating the stolen data, the malware automatically deletes all log and collected files after rewriting them with random data in order to prevent forensic analysis and recovery of the deleted data.

As explained in the report, Win32/StealthFalcon backdoor has not only been designed to steal data from the compromised systems but can also be used by attackers to further deploy more malicious tools and update its configuration by sending commands through C&C server.

"The Win32/StealthFalcon backdoor, which appears to have been created in 2015, allows the attacker to control the compromised computer remotely. We have seen a small number of targets in UAE, Saudi Arabia, Thailand, and the Netherlands; in the latter case, the target was a diplomatic mission of a Middle Eastern country," the researchers say.

According to the researchers, this newly discovered malware shares its C&C servers and code base with a PowerShell-based backdoor attributed to the Stealth Falcon group and tracked by the Citizen Lab in 2016.

A música que você ouve pode carregar dados embutidos

Dados embutidos em músicas
Qualquer aparelho dotado de um microfone consegue entender os dados, mas sua presença é imperceptível ao ouvido humano.
[Imagem: ETH/Colourbox]

Dados embutidos em músicas
Pesquisadores do Instituto Federal de Tecnologia de Zurique (ETH) desenvolveram uma técnica que permite incorporar dados em músicas e transmiti-las como stream ou arquivos para um celular ou computador.
Como os dados incorporados são imperceptíveis para o ouvido humano, esse "cavalo de troia" de informações não afeta a experiência de ouvir a música, que toca da mesma forma que a original. E qualquer aparelho dotado de um microfone consegue entender os dados.
Testes realizados em condições ideais mostraram uma capacidade de transferir até 400 bits por segundo sem que o ouvinte médio percebesse a diferença entre a música original e a versão modificada.
Dado que, sob condições realistas, um grau de redundância é necessário para garantir a qualidade da transmissão, a taxa de transferência provavelmente será de cerca de 200 bits - ou cerca de 25 letras - por segundo.
"Teoricamente, seria possível transmitir dados muito mais rapidamente. Mas quanto mais alta a taxa de transferência, mais cedo os dados se tornam perceptíveis como som interferente, ou a qualidade dos dados decresce," disse Simon Tanner, um dos criadores da técnica.
Transferência de dados acústica
O truque consiste em pegar as notas dominantes em uma música e "cobrir" cada uma delas com duas notas ligeiramente mais profundas e duas notas ligeiramente mais altas, que são mais silenciosas do que a nota dominante. Também são utilizados os harmônicos (uma ou mais oitavas mais altas) da nota mais forte, igualmente inserindo notas ligeiramente mais profundas e mais altas. São essas notas adicionais que carregam os dados.
Embora o microfone de um celular seja capaz de receber e analisar esses dados, o ouvido humano não consegue distinguir as notas adicionais. "Quando ouvimos uma nota alta, não notamos notas mais baixas com uma frequência um pouco maior ou menor," explicou o pesquisador Manuel Eichelberger. "Isso significa que podemos usar as notas altas e dominantes em uma música para esconder a transferência de dados acústica."
Também significa que as músicas ideais para esse tipo de transferência de dados devem ter muitas notas dominantes - músicas pop, por exemplo. Músicas tranquilas são menos adequadas.
"Em muitos lugares públicos, como lojas, estádios, estações de trem e restaurantes, alto-falantes tocam música de fundo. Nossa técnica abre o potencial para uma rota de comunicação fácil dos alto-falantes para microfones sem requisitos de hardware adicional ou qualquer configuração. A taxa de dados de várias centenas bits por segundo é suficiente para várias aplicações," escreveu a equipe.
Bibliografia:

Artigo: Imperceptible Audio Communication
Autores: Manuel Eichelberger, Simon Tanner, Gabriel Voirol, Roger Wattenhofer
Revista: 44th ICASSP Proceedings
Link: https://tik-old.ee.ethz.ch/file/8a61c16532c1d4f9021d3aaf06f4f381/imperceptible_audio_communication.pdf

Algoritmo identifica 569 moléculas para uma economia sem resíduos

Algoritmo identifica 569 moléculas para economia circular

Moléculas estratégicas
Em um exemplo definitivo do poder da ciência baseada em megadados, um programa de computador identificou as 569 substâncias mais promissoras para impulsionar uma economia circular, onde o lixo se torna matéria-prima para novos materiais.
Chamadas de "moléculas estratégicas", essas substâncias podem viabilizar a transformação do que hoje são resíduos em compostos valiosos, indo muito além da reciclagem tradicional.
"Hoje, se você tiver um fluxo de resíduos e quiser produzir um produto final de alto valor, há muita incerteza sobre o que fazer e por quais rotas," explicou Jana Marie Weber, da Universidade de Cambridge, no Reino Unido, que desenvolveu o algoritmo em conjunto com seus colegas Pietro Lió e Alexei Lapkin.
O programa fez uma mineração de dados em mais de meio milhão de compostos e quase um milhão de reações químicas e reuniu tudo em uma gigantesca rede química. Em seguida, o algoritmo identificou as moléculas com mais conexões e as posições mais centrais nas reações de múltiplas etapas.
"Nós direcionamos nossa busca para moléculas estratégicas e, depois, a partir das moléculas estratégicas, para alguns passos de reação para algum produto final desejado. Fazendo desse jeito, podemos reduzir o tempo computacional em duas ordens de grandeza," acrescentou Weber.
Entre as moléculas estratégicas estão muitos intermediários comuns e sabidamente "estratégicos" nesse sentido químico, como água, dióxido de carbono, metanol, ácido acético e fenol, o que ajudou a validar os resultados. Mas também há compostos importantes para ramos específicos da indústria, como o peróxido de benzoíla - um iniciador para polimerização - o precursor farmacêutico piceol e o bloco supramolecular de construção tetrafeniletileno.
Química automatizada
O programa em si não sabe nada de química. Mas o simples fato de classificar os itens - de forma parecida como o Google classifica os resultados das pesquisas - revelou metade dos compostos que foram nomeados como blocos de construção químicos essenciais em um relatório do Laboratório Nacional de Energia Renovável dos EUA, relatório este compilado por químicos humanos.
Mas o programa não consegue fazer tudo. Ele não consegue, por exemplo, avaliar se as rotas de síntese parciais identificadas são quimicamente viáveis. Isso os químicos humanos terão que fazer por eles mesmos.
"O principal resultado do nosso trabalho é que podemos nos concentrar nos estágios iniciais do processo de desenvolvimento na montagem de todas as possíveis rotas," disse Weber.
Bibliografia:

Artigo: Identification of Strategic Molecules for Future Circular Supply Chains Using Large Reaction Networks
Autores: Jana Marie Weber, Pietro Lió, Alexei A. Lapkin
Revista: Reaction Chemistry and Engineering
DOI: 10.26434/chemrxiv.8488934.v1
Link: https://chemrxiv.org/articles/Identification_of_Strategic_Molecules_for_Future_Circular_Supply_Chains_Using_Large_Reaction_Networks/8488934/1

sábado, 3 de agosto de 2019

Novo grupo hacker tem como alvo empresas de energia e telecomunicações

Por Computerworld em 02/08/2019

Foto: Shutterstock

A Dragos, empresa de segurança industrial, descobriu recentemente um novo grupo de hackers. Chamado de Hexane, o grupo está visando ataques a empresas de telecomunicações e de energia na África e Oriente Médio. As informações são do TechCrunch.
Conforme a reportagem do site especializado, a Dragos aponta que o Hexane é o mais recente de uma lista com nove grupos de hackers identificados. Ao que tudo indica, os cibercrimonosos podem ter as companhias de telecomunicações como alvo, potencialmente como um "trampolim" para obter acesso às redes de empresas de gás e petróleo.
Apesar de não ter entrado em detalhes, a Dragos indica que o grupo está comprometendo dispositivos, firmware e redes de telecom.
Para os pesquisadores, o Hexane ainda não tem capacidade de ataque para interromper redes de controle de operações contínuas em usinas e fornecedoras de energia, mas o grupo pode usar sua influência nas telecomunicações como precursora para ataques às redes de controle industriais.
O Hexane foi observado pela primeira vez em meados de 2018, com comportamentos semelhantes a outros grupos, como o OilRig, suspeito de ter ligações com o Irã. No entanto, a Dragos afirma que as ferramentas e as vítimas do Hexane tornam o grupo “uma entidade única” em comparação aos demais.

terça-feira, 23 de julho de 2019

Ciberataques custam US$1,35 milhão em média para empresas no Brasil


Foto: Shutterstock


Uma violação de dados por meio de um ataque cibernético tem um custo médio de 1,35 milhão de dólares para as empresas brasileiras, de acordo com um novo relatório feito em parceria entre a IBM Security e o Instituto Ponemon.
De acordo com o estudo em questão, intitulado “Cost of a Data Breach” (“Custo de uma Violação de Dados”), esse valor representa um aumento de 18,93% em relação ao registrado no ano passado.
O levantamento também revela que cresceu no último ano o tempo médio para identificar uma violação de dados entre as empresas brasileiras, de 240 dias para 250 dias.
Além disso, aumentou de 100 dias para 111 dias o período médio para as companhias do país conseguirem contar uma violação de dados, em comparação a 2018.
Prejuízo maior nos EUA
Vale notar ainda que, conforme a pesquisa, as violações de dados por meio de ciberataques custam muito mais para as empresas nos Estados Unidos, em torno de 8,19 milhões de dólares, mais do que o dobro da média do estudo.
Empresas de saúde
Pelo nono ano consecutivo, de acordo com o relatório, as organizações de saúde registraram os maiores custos associados a violações de dados, com quase 6,5 milhões de dólares – mais de 60% superior à média do setor.

Metodologia
De acordo com a IBM, o estudo é feito com base em entrevistas detalhadas com mais de 500 empresas em todo o mundo, incluindo o Brasil, que sofreram violação no último ano. Conforme a organização, a análise leva em conta centenas de fatores de custo, incluindo atividades legais, regulamentares e técnicas para a perda de valor de marca, clientes e produtividade dos funcionários.

Transformação Digital | Do Big Data 1.0 ao Big Data 2.0 e o que isso tem a ver com as propagandas que te perseguem na internet

Big Data 1.0

A primeira era da explosão de dados foi chamada de Big Data 1.0. Ela resumiu-se em criar estruturas para armazenamento e processamento de grandes volumes de dados que já não eram suportados pelos sistemas operacionais tradicionais.  A preocupação das empresas era criar sistemas capazes de processar grandes volumes de dados.
Foi nesse contexto que Doug Cutting, um engenheiro de software da Empresa Apache, formado em Stanford, na Califónia – uma das universidades mais bem conceituadas nos Estados Unidos – desenvolveu uma solução baseada em armazenamento e processamento paralelo. O sistema recebeu o nome de Hadoop, inspirado pelo elefante amarelo de brinquedo de seu filho. Veja na Figura 1 abaixo Doug com o brinquedo de seu filho.
Doug Cutting - Engenheiro de Software - Haddop
Figura 1
Tanto a empresa Apache, quanto Doug consideram que o mais importante para a transformação digital são os sistemas de código aberto, a distribuição do código do Hadoop acelerou a tecnologia mundial na forma de armazenar e processar os dados utilizando o processamento paralelo.
No processamento paralelo, os dados são mapeados (Map), armazenados em vários computadores (clusters) no sistema de arquivos distribuído do Hadoop (HDFS) e replicados (cada pedaço da informação é copiada em mais de um computador) para garantir que não haverá perda de informação caso algum computador perca o sinal. Vários computadores processam os mesmos dados (processados paralelamente) e reduzidos (Reduce) a uma única saída.
De forma bem resumida, a tecnologia Hadoop é o HDFS (Hadoop File System), sistema de arquivos distribuídos com alto desempenho de acesso e o MapReduce, processamento paralelo de alta disponibilidade. Vide Figura 2 abaixo.
Input Data e Output Data
Figura 2
Na figura 2 temos uma entrada (Input Data) e 4 replicações diferentes (4 Map{}). Cada Map{} tem 2 saídas e são reduzidos (2 Reduce{}), com uma saída (Output Data). Na prática, todos os dados processam uma parte e fornecem  apenas uma resposta com a garantia de que nada será perdido caso algum servidor caia.

Big Data 2.0

Já consolidada a tecnologia de processamento, a preocupação passou a ser em criar formas de aproveitar a interatividade na internet a favor das empresas, descobrir o que a web poderia fazer por elas e como poderiam melhorar as coisas que sempre fizeram. Deu-se então o início da era do Big Data 2.0 cujo objetivo é extrair valor de grandes massas de dados e, para isso, era necessário aperfeiçoar a tecnologia, ou seja, desenvolver uma nova arquitetura para essa etapa de interatividade.
Doug Cutting juntamente com alguns ex-funcionarios da Google e do Facebook desenvolveram uma nova versão para o Hadoop com uma camada chamada Yarn capaz de suportar conectividade de outros sistemas, agendamento e um novo gerenciamento de tarefas e recursos, incluindo a possibilidade de coleta e análise de dados em tempo real RT Stream GraphVeja na Figura 3 a evolução da arquitetura do Hadoop 1.0 para o Hadoop 2.0.
Hadoop 1.0 e Hadoop 2.0
Figura 3

Em 2008 a indexação de páginas do sistema de busca Yahoo utilizava 10 mil computadores(clusters) e nessa época tínhamos acumulado 4,5 petabytes (4.500 terabytes) de dados no mundo. A previsão até 2020 é estarmos atingindo 44 petabytes (44 mil terabytes). A Revista Exame publicou que o conteúdo digital dobra a cada 2 anos no mundo e que é preciso muito computador pra armazenar tudo isso.
Imagine quantos clusters (computadores) a Google utiliza hoje para manter seus sistemas de buscas e para gravar o histórico de atividades. Imagine quantos clusters são necessários para armazenar as informações de usuários do Facebook, Twitter e de grandes empresas de varejo e e-commerce.
Agora, muito provavelmente você deve estar se perguntando: Qual o interesse das empresas em manter toda essa tecnologia e o que elas ganham com isso?
O principal interesse das grandes empresas que fornecem serviços gratuitos em nuvem é coletar Dados. Esses dados acumulados nos servidores em nuvem possuem valor, são experiências de usuário, dados históricos de vendas, utilizados e transformados em oportunidades de negócio. Isso gera receita para as empresas. Elas possuem o que chamamos de Novo Petróleo.
Isso mesmo, Dados são o Novo Petróleo!
O Hadoop 2.0 é a porta de entrada para o trabalho de Data Science nas empresas. Ele integrou em sua nova camada a execução novos sistemas para extraírem dados de redes sociais e possibilitarem a transformação desses dados em informações de valor em tempo real.
O objetivo do Big Data 2.0 é justamente através da conectividade e interatividade com a internet, possibilitar a tomada de decisões estratégicas rápidas, reduzir margens de erro, aproveitando os sistemas de análise em real time para trazer maior lucratividade para as empresas.
Sistemas de recomendação em anúncios são as fontes mais lucrativas. As empresas reconhecem padrões nos dados e conseguem prever comportamentos e recomendar os produtos que provavelmente a pessoa compraria baseadas em sua experiência e também comparando com experiências de outros usuários com perfil de compras parecido.
O que você faz quando quer comprar algum produto? Pesquisa no Google. E você já percebeu que após uma breve pesquisa, começam a aparecer em quase todas as páginas no Google propagandas sobre o produto que você pesquisou?
O mesmo acontece com o Facebook, você com certeza já viu fake news de que o Facebook passaria a ser cobrado, porém na página inicial temos a informação “Abra uma conta. É gratuito e sempre será.”
Então quem paga por tudo isso?
Vamos lá, sempre que você clica para ler uma publicidade, outros anúncios daquele mesmo produto aparecem em todas as páginas. Você faz isso de forma automática e nem percebe e, a partir daí esses anúncios te perseguem até que você pensa, “é a lei da atração”, e quando enfim aparece a publicidade que atende a sua necessidade, você clica e faz a compra.  
Isso mesmo, as empresas ganham dinheiro sugerindo publicidade baseada em dados de suas atividades.
Eu não sei se você ficou sabendo, mas o Facebook possui uma função que mostra para os usuários onde os anunciantes obtiveram os dados deles e porque eles estão vendo o anúncio.

Vamos brincar de detetives 🙂

Para obter essas informações, clique nos três pontinhos “…” na parte superior direita nos anúncios sugeridos em sua linha do tempo, em seguida clique em “Porque estou vendo esse anúncio?” como mostra a Figura 4.
Como descobrir suas informações no facebook?
Figura 4

Abaixo, na figura 5, segue a explicação que apareceu quando cliquei para saber o porquê do anuncio aparecer como sugestão na minha linha do tempo. 
Qual o motivo do anúncio aparecer pra você?
Figura 5
Para aperfeiçoar o algoritmo de recomendação, ainda na figura 5, eles fazem duas perguntas. “Informe-nos se este assunto interessa a você”, nessa opção você tem dois emojis um feliz e um triste para demonstrar seu sentimento em relação ao anuncio. A outra pergunta é “Essa explicação foi útil? Sim Não”. Tudo para que você expresse sua satisfação, tanto com o tema da publicidade, quanto com a explicação sobre a recomendação do anúncio.
Perceba que na figura 5, além das perguntas há um link para você “Gerenciar suas preferências de anúncios”. Essa pagina contém muita informação sobre suas preferências, clique e ficará surpreso ao ver o quanto eles sabem sobre você.
No meu caso, me interesso bastante por temas de Ciência de Dados, o que ficou bem claro na primeira sessão de Negócios e indústria. No caso do anuncio sugerido da Bitrix24.br, apareceu devido ao interesse registrado em Gestão de Recursos Humanos (Veja na Figura 6), eu devo ter clicado para ver algum anuncio de sistema parecido, minha atividade ficou gravada e o algoritmo de recomendação utilizou essa informação me colocando como público alvo da campanha patrocinada (paga pelo anunciante ao Facebook).
Anúncios com base nos seus interesses
Figura 6
Você pode fazer algumas configurações para aperfeiçoar sua experiência. Sugiro que verifique agora mesmo sua conta e explore essas opções. Além disso, você pode eliminar os temas de menor interesse, ao posicionar o mouse sobre o item, aparecerá a opção para remover conforme mostra a Figura 7.
Eliminando interesses no Facebook
Figura 7

Pesquisando informações que a Google armazena sobre você

Faça login na conta do Google/Gmail, depois copie e cole em seu navegador o link https://myaccount.google.com/intro/activitycontrols/search  e clique em “Gerenciar Histórico”, depois clique em “Mostrar Todos os Controles de Atividade” aparecerá a pagina conforme a figura 8, você verá tudo que eles sabem sobre você!
Pesquisando as informações que o Google tem sobre você
Figura 8
Bom, esses são só dois exemplos para te mostrar o que anda acontecendo na internet por aí.
Assim como esses exemplos que demonstramos aqui, muitas empresas de varejo e e-commerce estão utilizando históricos de navegação em suas páginas para explorar os dados de buscas e compras, a partir desses dados, junto aos seus dados de cadastro, aplicam aprendizagem de máquina e utilizam os resultados para fazer publicidade e recomendação de produtos e serviços.
Passou a época de imprimir folhetos e entregar nas ruas próximas dos estabelecimentos comerciais, o comportamento do consumidor mudou, ele está na internet a alguns cliques de você.
Agora você entendeu por que as empresas estão fazendo a transformação digital? 
Para extraírem informações de valor de seus dados e alcançarem os consumidores de seus produtos e serviços.

Nós não temos tantas informações de pesquisa de produtos e serviços como a Google, não temos informações de comportamento dos usuários como o Facebook, mas podemos utilizar os dados que temos para criar estratégias e tomar decisões baseadas em dados.
Hoje apenas 20% dos dados são utilizados pelas empresas para a tomada de decisão estratégica, são os dados estruturados, ou seja, dados organizados em tabelas de sistemas ERP, onde é possível, utilizando os sistemas tradicionais, construir relatórios de acompanhamento do desempenho. Para extrair mais valor desses dados, podemos aplicar algoritmos de predição utilizando os dados históricos para treinar um modelo de aprendizado de máquina que poderá direcionar os passos futuros de seu negócio.
Além disso, temos os outros 80% de dados não estruturados,  são dados de voz (ligações), vídeos (monitoramento e vigilância), textos de e-mail, histórico de atendimento em sistemas de SAC e CRM, esses dados também podem ser explorados para gerar conhecimento e valor como fonte de oportunidades de negócios.
Não importa o tamanho ou a forma da sua base de dados, com o Big Data 2.0 não há limites!!!
É possível armazenar dados, utilizar as técnicas de Data Science (Ciência de Dados) para reconhecer padrões, classificar, identificar fraudes, fazer recomendação de produtos, conter possíveis perdas de clientes, etc.

O mundo virtual mudou a logística de compra e venda. 
Há muitas possibilidades para sua empresa crescer, você não pode ficar aí parado vendo tudo isso acontecer. 
Se beneficie dessas tecnologias para saber como extrair valor de seus dados. 
Temos consultores que podem ajudar você nessa nova jornada para a Transformação Digital.


Fontes de pesquisa:
BEYOND CONER. Hadoop MapReduce Tutorials. Disponível em: <https://beyondcorner.com/hadoop-mapreduce-tutorials/>, Acesso em: 13 jun. 2019
CETAX. Hadop, o que é, conceito e definição. Disponível em: <https://www.cetax.com.br/blog/apache-hadoop/>, Acesso em: 13 jun. 2019.
CNBLOGS. Hadoop Doug Cutting. Disponível em: <https://www.cnblogs.com/doit8791/p/9556821.html>, Acesso em: 13 jun. 2019.
DEZYRE. Hadoop 2.0 (YARN) Framework The Gatway to Easier Programming for Hadoop Users . Disponível em: <https://www.dezyre.com/article/hadoop-2-0-yarn-framework-the-gateway-to-easier-programming-for-hadoop-users/84>, Acesso em: 13 jun. 2019.
FACEBOOK. Facebook. Disponível em: <https://www.facebook.com/>, Acesso em 13 jun. 2019
FAWCETT, T; PROVOST, F; BOSCATO, M. Data Science para Negócios. 1ª Edição. Rio de Janeiro: Alta Books, 2016.
GOOGLE. Controle de Atividades. Disponível em: <https://myaccount.google.com/intro/activitycontrols?hl=pt-BR>, Acesso em: 13 jun. 2019.
RESPIRES. Um pouco sobre o Haddop. Disponível em: <https://regispires.wordpress.com/2010/e 07/29/um-pouco-sobre-o-hadoop/>, Acesso em: 13 jun. 2019.