Concrete Logo
Hamburger button

Summer (ou Fall?!) School on Big Data – Parte 2

  • Blog
  • 25 de Junho de 2014
Share

No post de semana passada, compartilhamos o que curtimos do primeiro dia do Summer School on Big Data, evento patrocinado pela EMC² e sediado pelo Núcleo de Computação Eletrônica (NCE) da Universidade Federal do Rio de Janeiro (UFRJ). Agora, vamos falar sobre o segundo dia.

Massive Data Storage

Nesta palestra, João Bonnassis, arquiteto técnico da EMC², apresentou conceitos importantes sobre armazenamento para aplicações em Big Data.

João ressalta que a métrica “dólares por giga”, muito usada para decidir que disco comprar, não é o principal indicador para este tipo de decisão. Além da capacidade, deve-se estar atento ao tempo de resposta, por meio da especificação de IOPS. Colocar a métrica de “dólares por IOPS” no equacionamento de suas decisões poderá te poupar de enfrentar o que o palestrante denominou de “prazo de entrega” (e não tempo de resposta) de seus discos!

Para quem deseja guardar alguns benchmarks de referência, seus slides estão bastante informativos e cheios de números úteis para decisões de projeto de armazenamento, dimensionamento e compra de discos.

Por exemplo, sobre o tempo médio de resposta (average response time):

  • Disco rígido NL-SAS 3072 GByte 6 Gbps 7200 RPM: 20.2 ms

  • Disco rígido SAS 600 GByte 6 Gbps 15000 RPM: 9.8 ms

  • Disco SSD drive SAS 200 GByte 6 Gbps: 0.68ms!

  • No geral, entre 7 e 9 ms já é considerado um bom valor.

João nos orientou também que estudos sobre Teoria das Filas mostram que deve-se dimensionar a capacidade dos discos para 67% de seu valor bruto.

A palestra foi bastante ilustrativa e bem humorada. O palestrante discutiu bastante sobre protocolos e arquiteturas de storage. E para quem quer estar atualizado sobre o assunto, ele recomenda o site IBM Redbooks.

Big Data in Action (Oil & Gas)

Ismael Santos, arquiteto de software da Petrobrás, apresentou no evento algumas iniciativas em Big Data que seu grupo está desenvolvendo em parceria com a EMC. Ele também ressaltou que a estatal está investindo bastante nas áreas de Big Data, Computação de Alto Desempenho e Visualização.

O palestrante destacou que o aumento no volume de dados gerados o todo o tempo desafia as abordagens padrões: exige times maiores, distribuídos e multidisciplinares.

Como exemplo do trabalho da Petrobrás nesse sentido, o palestrante falou sobre o Pré-sal. Ele relacionou os 3 V’s de Big Data com as etapas do segmento de exploração e produção:

  • Exploração: Volume (alta granularidade)

  • Desenvolvimento: Variedade (diversas fontes de dados)

  • Produção: Velocidade (otimização)

Além disso, em seus slides são apontadas algumas demandas complexas da área de óleo e gás que podem ser beneficiadas através de aplicações em Big Data. Algumas delas:

  • Redução de riscos operacionais por meio da análise de dados de medições e logging durante a perfuração de poços;

  • Mineração de dados para decisão de locais de perfuração e seus potenciais de produção;

  • Otimização de produção: aproximar a modelagem das condições de projeto das condições reais de produção e reduzir perdas de produção por eventos típicos;

  • Otimização logística dos armazéns: melhoria nos estoques com a utilização de modelos preditivos de comportamento da demanda;

  • Manutenção de equipamentos baseada em condição: evitar paradas inesperadas e reduzir o downtime por meio de manutenção preditiva, ao invés da abordagem comum (prescritiva).

Big Data: Challenges and Opportunities

Por fim, foi a vez de Patrícia Florissi, vice-presidente e CTO de vendas do EMC, falar sobre os desafios e oportunidades do Big Data. Patrícia falou sobre a estratégia da EMC e deu um panorama geral sobre o mercado de Big Data. Sua palestra foi nota 10 em harmonia, evolução e todos os demais quesitos!

Um exemplo bastante legal que Patricia citou foi a relação entre vídeo e o varejo. Na Amazon, notável por captar cada clique de seus usuários, as únicas informações que pode-se mentir são idade, raça e gênero. Com a análise de vídeos usando Big Data, esses dados serão mais confiáveis. Ainda sobre varejo, a CTO falou sobre cupons de compra contextuais em tempo real, aumentando a produtividade de compra (quanto menos se pensa, mais rápido se compra!).

Patrícia falou bastante sobre Social também, e como diversas escolas formam campos confluentes explicando os fenômenos desta área: desde psicologia e sociologia, passando por economia, ciência da computação e visualização de dados.

Para terminar, Patrícia nos atentou sobre as impressionantes simbioses:

  • Cloud computing + Data science + Social + Mobile

  • Agile + Data Science + Data Engineering

Os slides de Patrícia não estão disponíveis, mas a apresentação foi um grande show, contagiando todos os presentes! Recomendamos assistir sua palestra no TEDx Springfield.

Mais Big Data?

Além das palestras, o evento também contou com mini-cursos ministrados por grandes nomes da área. E durante a inauguração do centro de pesquisa e desenvolvimento da EMC, rolou um encontro com executivos, Big Data Summit. Já para aqueles que ficaram inspirados com as maravilhas de Big Data, foi lançado o Desafio em Big Data, que premiará propostas de aplicações nesta área!

Para quem quer ainda mais, indico este curso do Coursera, que começa no fim desta semana, e esse Webinar HBR sobre Big Data.

E assim, encerramos nossa sequência de posts sobre o evento. Certamente marcaremos presença nas próximas edições! Até lá!