Quando realizamos consultas no pyspark muitas vezes nos deparamos com cenários onde o tipo de coluna do dataframe não é o esperado. Precisamos por exemplo fazer alguma operação de maior e menor, soma, média, porém o tipo do dado esta como string. Para contornar este cenário você pode realizar cast no tipo da coluna pySpark. Abaixo segue exemplo de como converter para inteiro; #lendo o arquivo csv spark = SparkSession . builder . getOrCreate() athlete_events_spark = (spark . read . csv( "athlete_events.csv" , header = True, inferSchema = True, escape = '"' )) #modificando tipo da coluna que era string para inteiro athlete_events_spark = (athlete_events_spark . withColumn( "Height" , athlete_events_spark . Height . cast( "integer" ))) #imprimindo resultados e realizando operações matemáticas print (athlete_events_spark ...