| 클래스 | 설명 |
|---|---|
Check | Data Health에 등록할 수 있는 기대치를 포장합니다. |
FileStatus | FoundryFS 파일에 대한 세부 정보를 포착하는 collections.namedtuple. |
FileSystem(foundry_fs[, read_only]) | 데이터셋 파일을 읽고 쓰기 위한 파일시스템 객체. |
IncrementalTransformContext(ctx, is_incremental) | 점진적 계산을 위한 기능이 추가된 TransformContext. |
IncrementalTransformInput(tinput[, prev_txrid]) | 점진적 계산을 위한 기능이 추가된 TransformInput. |
IncrementalTransformOutput(toutput[, …]) | 점진적 계산을 위한 기능이 추가된 TransformOutput. |
Input(alias) | 변환 입력의 사양. |
Output(alias[, sever_permissions]) | 변환 출력의 사양. |
Pipeline() | Transform 객체 모음을 그룹화하는 객체. |
Transform(compute_func[, inputs, outputs, ...]) | 계산 단계를 설명하는 호출 가능한 객체. |
TransformContext(foundry_connector[, parameters]) | 변환의 계산 함수에 선택적으로 삽입할 수 있는 컨텍스트 객체. |
TransformInput(rid, branch, txrange, …) | 런타임에 Transform 객체에 전달된 입력 객체. |
TransformOutput(rid, branch, txrid, …) | 런타임에 Transform 객체에 전달된 출력 객체. |
Checktransforms.api.CheckData Health에 등록할 수 있는 기대치를 포장합니다.
expectation
name
is_incremental
on_error
description
FileStatus클래스 transforms.api.FileStatus
FoundryFS 파일에 대한 세부 정보를 포착하는 collections.namedtuple입니다.
새로운 FileStatus 인스턴스를 생성합니다(path, size, modified)
count(value) → 정수 -- 값 발생 횟수 반환index(value[, start[, stop]]) → 정수 -- 값의 첫 번째 인덱스 반환
modified
path
size
FileSystem클래스 transforms.api.FileSystem(foundry_fs, read_only=False)
데이터셋 파일을 읽고 쓰기 위한 파일시스템 객체입니다.
files(glob=None, regex='.*', show_hidden=False, packing_heuristic=None)
DataFrame을 생성합니다.DataFrame은 파일 크기별로 파티션되며, 각 파티션에는 파일 경로가 포함되어 있으며, 이 파일 경로의 결합 크기는 최대 spark.files.maxPartitionBytes 바이트입니다. 파일의 크기는 디스크 파일 크기와 spark.files.openCostInBytes의 합계로 계산됩니다.pdf)을 재귀적으로 검색하려면 **/*.pdf를 사용합니다.. 또는 _로 시작하는 숨겨진 파일을 포함합니다.ffd(First Fit Decreasing) 또는 wfd(Worst Fit Decreasing)입니다. wfd는 덜 균일한 분포를 생성하는 경향이 있지만 속도가 훨씬 빠르기 때문에 파일 수가 매우 많은 데이터셋에 대해 wfd가 권장됩니다. 휴리스틱을 지정하지 않으면 자동으로 선택됩니다.ls(glob=None, regex='.*', show_hidden=False)
FileStatus - 논리 경로, 파일 크기(바이트), 수정된 타임스탬프(1970년 1월 1일 UTC 이후 밀리초).open(_path, mode='r', kwargs)
IncrementalTransformContexttransforms.api.IncrementalTransformContext(ctx, is_incremental)점진적 계산을 위한 기능이 추가된 TransformContext.
auth_header
fallback_branches
is_incremental
parameters
spark_session
IncrementalTransformInputtransforms.api.IncrementalTransformInput(tinput, prev_txrid=None)점진적 계산을 위한 기능이 추가된 TransformInput.
dataframe(mode='added')
filesystem(mode='added')
pandas()
branch
path
rid
IncrementalTransformOutput클래스 transforms.api.IncrementalTransformOutput(toutput, prev_txrid=None, mode='replace')
점진적 계산을 위한 기능이 추가된 TransformOutput.
abort()
dataframe(mode='current', schema=None)
ValueError - 모드 ‘previous’를 사용할 때 스키마가 전달되지 않은 경우filesystem(mode='current')
NotImplementedError – 현재 지원되지 않습니다.pandas(mode='current')
set_mode(mode)
데이터가 작성된 후에는 쓰기 모드를 변경할 수 없습니다.
write_dataframe(df, partition_cols=None, bucket_cols=None, bucket_count=None, sort_by=None, output_format=None, options=None)
org.apache.spark.sql.DataFrameWriter#option(String, String)에 전달할 추가 옵션.write_pandas(pandas_df)
branch
path
rid
Input클래스 transforms.api.Input(alias, branch, stop_propagating, stop_requiring, checks)
변환 입력의 사양입니다.
Check 객체.continue 또는 fail 중 하나여야 합니다. 지정되지 않으면 fail로 기본 설정됩니다.Output클래스 transforms.api.Output(alias=None, sever_permissions=False, checks=None)
변환 출력의 사양입니다.
Pipeline클래스 transforms.api.Pipeline
Transform 객체 모음을 그룹화하는 객체입니다.
add_transforms(*transforms)
ValueError – 여러 Transform 객체가 동일한 Output 별칭에 쓰는 경우.discover_transforms(*modules)
Transform 인스턴스(변환 데코레이터에 의해 구성된)를 가진 모든 속성이 파이프라인에 등록됩니다.Copied!1 2 3>>> import myproject >>> p = Pipeline() # 파이프라인 객체 생성 >>> p.discover_transforms(myproject) # myproject에서 변환(discover_transforms)을 찾아 파이프라인에 추가
각각의 모듈이 발견되면 그것은 import됩니다. 모듈 레벨에서 코드를 실행하는 것을 피하십시오.
transforms
Transformclass transforms.api.Transform(compute_func, inputs=None, outputs=None, profile=None)
단일 계산 단계를 설명하는 호출 가능한 객체입니다.
Transform는 여러 Input 사양, 여러 Output 사양, 그리고 계산 함수로 구성됩니다.
제공된 데코레이터를 사용하여 Transform 객체를 구성하는 것이 관례입니다: transform(), transform_df(), 그리고 transform_pandas().
참고: 원래의 계산 함수는 Transform의 __call__ 메소드를 통해 노출됩니다.
파라미터
compute(ctx=None, _kwargs_)**
Input 사양으로 매핑하는 사전입니다. kwarg는 키워드 인수의 약어입니다.version
select A, B from foo;는 SQL 쿼리 select A, B from (select * from foo);와 같은 버전이어야 합니다.ValueError – 계산 함수의 객체 해시를 계산하지 못한 경우TransformContextclass transforms.api.TransformContext(foundry_connector, parameters=None)
계산 함수에 선택적으로 주입할 수 있는 컨텍스트 객체입니다.
auth_header
fallback_branches
parameters
spark_session
TransformInputclass transforms.api.TransformInput(rid, branch, txrange, dfreader, fsbuilder)
런타임에 Transform 객체로 전달되는 입력 객체입니다.
dataframe()
filesystem()
pandas()
branch
path
rid
column_descriptions
column_typeclasses
TransformOutputclass transforms.api.TransformOutput(rid, branch, txrid, dfreader, dfwriter, fsbuilder)
런타임에 Transform 객체로 전달되는 출력 객체입니다.
abort()
dataframe()
filesystem()
pandas()
set_mode(mode)
write_dataframe(df, partition_cols=None, bucket_cols=None, bucket_count=None, sort_by=None, output_format=None, options=None, column_descriptions=None, column_typeclasses=None)
bucket_count가 주어진 경우 반드시 지정해야 합니다.bucket_cols가 주어진 경우 반드시 지정해야 합니다.org.apache.spark.sql.DataFrameWriter#option(String, String)에 전달할 추가 옵션입니다.write_pandas(pandas_df)
branch
path
rid