Voltado para estudantes, profissionais e interessados em dados que desejam aprender, implementar e automatizar pipelines de machine learning utilizando Spark ML em ambientes reais. O livro ensina desde a ingestão de dados até o deploy de modelos em produção, com integração prática aos principais serviços do mercado, incluindo AWS, Azure, Google Cloud, Databricks, Hadoop, Kubernetes, Apache Airflow, S3, BigQuery, Redshift e Delta Lake.
O conteúdo cobre:
• Integração de Spark ML com ambientes cloud e plataformas de dados
• Construção e automação de pipelines com Spark MLlib e Airflow
• Implementação de modelos supervisionados e não supervisionados
• Deploy, monitoramento e gestão de modelos em nuvem e ambientes híbridos
• Otimização de workflows com Delta Lake, BigQuery e Redshift
• Técnicas de tuning, validação cruzada e fundamentos de MLOps
• Análise de performance e escalabilidade de soluções de machine learning
Todos os exemplos e rotinas servem como ponto de partida, permitindo adaptação a diferentes contextos acadêmicos e profissionais. O objetivo é entregar onboarding técnico, autonomia prática e domínio das integrações mais utilizadas no mercado.
spark ml, aws, azure, google cloud, databricks, hadoop, airflow, s3, bigquery, redshift, delta lake, pipelines, mlops, deploy, automação, modelos preditivos
Diego Rodrigues
Autor Técnico e Pesquisador Independente
ORCID: https://orcid.org/0009-0006-
StudioD21 Smart Tech Content & Intell Systems
E-mail: [email protected]
LinkedIn: linkedin.com/in/diegoexpertai
Autor técnico internacional (tech writer) com foco em produção estruturada de conhecimento aplicado. É fundador da StudioD21 Smart Tech Content & Intell Systems, onde lidera a criação de frameworks inteligentes e a publicação de livros técnicos didáticos e com suporte por inteligência artificial, como as séries Kali Linux Extreme, SMARTBOOKS D21, entre outras.
Detentor de 42 certificações internacionais emitidas por instituições como IBM, Google, Microsoft, AWS, Cisco, META, Ec-Council, Palo Alto e Universidade de Boston, atua nos campos de Inteligência Artificial, Machine Learning, Ciência de Dados, Big Data, Blockchain, Tecnologias de Conectividade, Ethical Hacking e Threat Intelligence.
Desde 2003, desenvolveu mais de 200 projetos técnicos para marcas no Brasil, EUA e México. Em 2024, consolidou-se como um dos maiores autores de livros técnicos da nova geração, com mais de 180 títulos publicados em seis idiomas. Seu trabalho tem como base o protocolo próprio de escrita técnica aplicada TECHWRITE 2.3, voltado à escalabilidade, precisão conceitual e aplicabilidade prática em ambientes profissionais.