1. Skip to Menu
  2. Skip to Content
  3. Skip to Footer

Defesa de Tese de Doutorado do aluno Douglas Ericson Marcelino de Oliveira

30/11/2017, 14h, Sala de Videoconferência (310), Instituto de Computação

Otimização da Execução de Workflows Científicos Intensivos de Dados em Frameworks MapReduce

Resumo: Na ciência a análise de grandes volumes de dados é modelada como experimento científico, envolvendo algumas questões como o armazenamento dos dados e formatos dos mesmos, encadeamento dos programas e definição do ambiente de execução usados durante as simulações. Cientistas têm usado workflows científicos para exprimir e modelar computacionalmente análises e experimentos sobre dados. Devido à complexidade de processamento dos workflows e também o volume de dados envolvido, estes tem sido executados em ambientes distribuídos, em conjunto com modelos de programação paralela do workflow. O modelo MapReduce (MR) tem sido muito utilizado na especificação de experimentos científicos, em especial, aqueles que analisam um grande volume de dados. A partir do MR foram criados frameworks, como Hadoop e Spark, que permitem a manipulação e análise dos dados de forma distribuída, além de realizarem o gerenciamento da execução dos experimentos em ambientes distribuídos. No entanto, a execução de workflows intensivos de dados em ambientes distribuídos gerenciados por frameworks MR ainda apresenta desafios em aberto. Embora exista uma certa facilidade na instalação desses frameworks, há muitos parâmetros a serem configurados para execução de um workflow. Além disso, para explorar o paralelismo oferecido pelo ambiente é necessário o particionamento dos dados de entrada. Existem diversas estratégias de particionamento de dados e aspectos como:  conhecimento do critério de particionamento por parte da aplicação, tamanho das partições e o balanceamento de carga interferem no desempenho do workflow. Com isso, para executar um workflow MR de forma eficiente, o cientista deve ajustar diversos parâmetros de configuração dos frameworks e do particionamento dos dados de entrada. As correlações que existem entre estes parâmetros, o workflow e o ambiente de execução tornam o ajuste da configuração de tais parâmetros uma tarefa complexa e difícil para o cientista. Nesta tese, é proposta uma abordagem que pode ser aplicada no ajuste da configuração dos parâmetros de execução de workflows MR em ambientes distribuídos. A abordagem é baseada em (i) coletar o tempo de execução do workflow utilizando diversos valores na configuração dos parâmetros, (ii) aplicar técnicas de aprendizado de máquina afim de encontrar os valores e parâmetros que executam o workflow de forma eficiente e (iii) utilizar as mesmas técnicas para gerar o modelo preditivo para conhecer previamente o desempenho de uma configuração de parâmetros em execuções posteriores do workflow MR. Os experimentos apresentados nesta tese mostraram que a abordagem proposta para configuração de parâmetros conduz a um desempenho eficiente do workflow MR em um ambiente distribuído.

Abstract: In science, an analysis of large volumes of data is modeled as a scientific experiment, involving some issues such as data storage and formatting, program chaining and the definition of execution environment during simulations. Scientists have used scientific workflows to express and model computations and experiments on data. Due to complexity of the workflows and also the volume of data involved, these have been executed on distributed environments, through workflow parallel programming models. The MapReduce (MR) model has been widely used in the specification of scientific experiments, especially those that analyze a large volume of data. From the MR, frameworks such as Hadoop and Spark were created, which allow the manipulation and analysis of the data in a distributed way, as well as managing the execution of the experiments on distributed environments. However, the execution of intensive data workflows on distributed environments managed by MR frameworks still presents open challenges. Although it is not a complex task to install these frameworks, there are many parameters to be configured to execute a workflow. In addition, to exploit the parallelism offered by the environment it is necessary to partition the input data. There are several data partitioning strategies and aspects such as: knowledge of the partitioning criterion by the application, partition size and load balancing impact the workflow performance. Thus, in order to execute an MR workflow efficiently, the scientist must tune several configuration parameters related to the framework and data partitioning. The correlations between these parameters, workflow, and the execution environment make the configuration of such parameters a complex and difficult task for the scientist. In this thesis, an approach is proposed that can be applied in tuning the execution parameters configuration of workflows MR in distributed environments. The approach is based on (i) collecting the workflow execution time using several values in the parameters configuration, (ii) applying machine learning techniques in order to find the values and parameters that execute the workflow efficiently and (iii) use the same techniques to generate the predictive model to previously know the performance of a parameter configuration in later executions of workflow MR. The experiments presented in this thesis showed that the proposed approach to parameter setting leads to efficient performance of MR workflow in a distributed environment.

Banca examinadora:
Prof. Daniel Cardoso Moraes de Oliveira (Presidente), UFF
Prof.ª Maria Cristina Silva Boeres, UFF
Prof. Fábio André Machado Porto, LNCC
Prof.ª Lúcia Maria de Assumpção Drummond, UFF
Prof.ª Vanessa Braganholo Murta, UFF
Prof. Bruno Richard Schulze, LNCC
Prof.ª Marta Lima de Queirós Mattoso, COPPE/UFRJ
Prof.ª Esther Pacitti, Université Montpellier II & INRIA

PESQUISA PELO SITE

MENU

Início Instituto Laboratórios Departamento
Pesquisa Pós-Graduação Graduação Fale Conosco

CONTATO

IC-Mapa

Av. Gal. Milton Tavares de Souza, s/nº
São Domingos - Niterói - RJ
CEP: 24210-346

IC-UFF-Telefone-icone Fale Conosco

 Como Chegar

CONECTE-SE

IC-Conecte-se-Facebook IC-Conecte-se-Twitter

LINKS

Faperj Lattes Finep SBC PROGRAD
CAPES CNPQ SIAPENET IDUFF NDC

 

Desenvolvido por pela equipe de Suporte Técnico do Instituto de Computação - suporte.ic.uff.br - Web Designer: Emanuel Machado