注意:以下翻译的准确性尚未经过验证。这是使用 AIP ↗ 从原始英文文本进行的机器翻译。
DataFrame.distinct()
返回一个新的DataFrame
,其中包含源DataFrame
中的不同行。
Copied!1 2
df = df.distinct() # 删除 DataFrame 中的重复行
DataFrame.drop_duplicates(subset=None)
返回一个新的DataFrame
,其中重复行已被删除,非必填时仅考虑某些列。
Copied!1 2 3 4 5
# 删除DataFrame中的重复行 df = df.drop_duplicates() # 删除DataFrame中基于"firstname"和"lastname"列的重复行 df = df.drop_duplicates(["firstname", "lastname"])
DataFrame.dropna(how='any', thresh=None, subset=None)
别名: DataFrame.na.dropna(how='any', thresh=None, subset=None)
返回一个新的 DataFrame
,省略包含空值的行。DataFrame.dropna()
和 DataFrameNaFunctions.drop()
是彼此的别名。
参数:
'any'
或 'all'
。
'any'
,则如果行中包含任何空值,则删除该行。'all'
,则仅当行中所有值都为空时才删除该行。None
。如果指定,则删除非空值少于thresh的行。(这将覆盖how参数)。DataFrame.limit(number)
DataFrame.sort(*cols, **kwargs)
别名: DataFrame.orderBy(*cols, **kwargs)
Column.asc()
或 F.asc(col)
Column.desc()
或 F.desc(col)