Pular para o conteúdo principal

Postagens

Mostrando postagens de janeiro, 2020

Dica rápida: Convertendo tipo coluna pySpark

Quando realizamos consultas no pyspark muitas vezes nos deparamos com cenários onde o tipo de coluna do dataframe não é o esperado. Precisamos por exemplo fazer alguma operação de maior e menor, soma, média, porém o tipo do dado esta como string. Para contornar este cenário você pode realizar cast no tipo da coluna pySpark. Abaixo segue exemplo de como converter para inteiro; #lendo o arquivo csv spark = SparkSession . builder . getOrCreate() athlete_events_spark = (spark . read . csv( "athlete_events.csv" , header = True, inferSchema = True, escape = '"' )) #modificando tipo da coluna que era string para inteiro athlete_events_spark = (athlete_events_spark . withColumn( "Height" , athlete_events_spark . Height . cast( "integer" ))) #imprimindo resultados e realizando operações matemáticas print (athlete_events_spark

Migrando repositório TFS para GIT

Chega o momento em que decidimos migrar do TFS para GIT por 'N' motivos e benefícios que esta migração pode trazer. Caso você tenha uma repositório de longa data e queira manter o histórico de checkins, o  git-tfs auxilia nesta tarefa. Uma das minhas formas preferidas para instalar é através do chocolatey . Com o chocolatey instalado em sua máquina basta abrir o powershell em modo admin e digitar: cinst GitTfs No powershell para clonar o repositório TFS para seu repositório git você deve digitar o seguinte comando: git tfs clone http : //meutfs.com $/diretoriotfs c : /diretorio-alvo-clone --branches=all -u=CORP\Usuario -p=****** Para mais opções de comando segue link do github do projeto.