Fonte: https://www.airpair.com/hadoop/hadoop-expert-patrick-lie |
Voltemos ao nosso exemplo. Você poderia ler os livros de um por um, sozinho. Seria necessário muito tempo para leitura e queimar muitos neurônios para analisar tudo. Uma alternativa seria formar um grupo e dividir o trabalho entre os membros e depois cruzar os resultados que cada um obteve, o que economizaria muito tempo e aumentaria a capacidade de processamento das informações. Esse processo é chamado de MapReduce, que é a junção dos métodos Map() e Reduce().
Suponhamos que nós queremos saber qual foi a temperatura máxima em 5 cidades diferentes em um período de 30 dias. Cada um desses dias gerou uma tabela com a cidade e a temperatura correspondente, que serão distribuídas entre 30 servidores que farão análises individuais e informarão os resultados. O próximo passo (chamado de Shuffle) é organizar os dados e - através do Reduce() - finalmente serão unificados em um único resultado.
Fonte: http://blog.sqlauthority.com/2013/10/09/big-data-buzz-words-what-is-mapreduce-day-7-of-21/ |
Mas onde ficam todos esses dados? Digamos que seu HD tem capacidade de armazenamento de 1Tb, mas você precisa de 10Tb. O que você faz? Poderia simplesmente comprar outros 9 HDs de 1Tb e distribuir seus arquivos. Mas e se quando você precisar de um deles, não conseguir encontrá-lo? Seria melhor então comprar outros 10 HDs de 1 Tb e fazer backup de todos os seus arquivos, pois se algo der errado com um HD, você pode contar com a cópia.
Esse conjunto de HDs garante maior capacidade de armazenamento, maior confiabilidade – devido à existência de cópias dos mesmos arquivos em nodes (HDs) diferentes – e maior velocidade de processamento, pois mais de um node é usado ao mesmo tempo. O Hadoop Distributed File System (HDFS) é esse conjunto de sistemas de armazenamento de dados (cluster).
Juntos, HDFS e MapReduce formam o Hadoop, framework utilizado para armazenamento e processamento de dados da Big Data que é open source, baseado em Java e gerenciado pela Apache Software Foundation. A ideia original veio de dois artigos do Google: Google File System e MapReduce: Simplified Data Processing on Large Clusters. Hadoop recebeu esse nome inspirado no elefante amarelo de brinquedo do filho de Doug Cutting, que junto com Mike Cafarella criou o serviço em 2005 enquanto ainda trabalhavam no Yahoo. Hoje, o Hadoop é utilizado por gigantes como Google, Facebook, Twitter, eBay, Microsoft, IBM e o próprio Yahoo, entre outros.
Fontes:
http://blog.sqlauthority.com/2013/10/09/big-data-buzz-words-what-is-mapreduce-day-7-of-21/
https://www-01.ibm.com/software/data/infosphere/hadoop/mapreduce/
https://en.wikipedia.org/wiki/MapReduce
https://en.wikipedia.org/wiki/Apache_Hadoop
http://www.sas.com/en_my/insights/big-data/hadoop.html
https://www.youtube.com/watch?v=9s-vSeWej1U
http://searchcloudcomputing.techtarget.com/definition/Hadoop
http://www.wired.com/2011/10/how-yahoo-spawned-hadoop/
Esse conjunto de HDs garante maior capacidade de armazenamento, maior confiabilidade – devido à existência de cópias dos mesmos arquivos em nodes (HDs) diferentes – e maior velocidade de processamento, pois mais de um node é usado ao mesmo tempo. O Hadoop Distributed File System (HDFS) é esse conjunto de sistemas de armazenamento de dados (cluster).
Juntos, HDFS e MapReduce formam o Hadoop, framework utilizado para armazenamento e processamento de dados da Big Data que é open source, baseado em Java e gerenciado pela Apache Software Foundation. A ideia original veio de dois artigos do Google: Google File System e MapReduce: Simplified Data Processing on Large Clusters. Hadoop recebeu esse nome inspirado no elefante amarelo de brinquedo do filho de Doug Cutting, que junto com Mike Cafarella criou o serviço em 2005 enquanto ainda trabalhavam no Yahoo. Hoje, o Hadoop é utilizado por gigantes como Google, Facebook, Twitter, eBay, Microsoft, IBM e o próprio Yahoo, entre outros.
Fontes:
http://blog.sqlauthority.com/2013/10/09/big-data-buzz-words-what-is-mapreduce-day-7-of-21/
https://www-01.ibm.com/software/data/infosphere/hadoop/mapreduce/
https://en.wikipedia.org/wiki/MapReduce
https://en.wikipedia.org/wiki/Apache_Hadoop
http://www.sas.com/en_my/insights/big-data/hadoop.html
https://www.youtube.com/watch?v=9s-vSeWej1U
http://searchcloudcomputing.techtarget.com/definition/Hadoop
http://www.wired.com/2011/10/how-yahoo-spawned-hadoop/
Caramba, como coisas simples podem gerar resultados enormes.
ResponderExcluirA big data está surpreendendo o mundo da tecnologia. E o hadoop ajudou a dar um "up" nas políticas que visam grande armazenamento de dados.
ResponderExcluir