Python/pandas
-
[Python]Pandas Time seriesPython/pandas 2022. 12. 22. 11:23
목차 시계열 Pandas는 frequency conversion 중에 리샘플링 작업을 수행하기 위한 간단하고 강력하며 효율적인 기능을 가지고 있습니다. rng = pd.date_range("1/1/2022", periods = 100, freq = "S") ts = pd.Series(np.random.randint(0, 500, len(rng)), index = rng) ts.resample("5Min").sum() Series.tz_localize()시계열을 시간대에 현지화 합니다. rng = pd.date_range("6/7/2022 00:00", periods=5, freq="D") ts = pd.Series(np.random.randn(len(rng)), rng) ts ts_utc = ts.tz_..
-
[Python] Pandas ReshapePython/pandas 2022. 10. 14. 10:41
목차 Reshaping Stack tuples = list( zip( ["bar", "bar", "baz", "baz", "foo", "foo", "qux", "qux"], ["one", "two", "one", "two", "one", "two", "one", "two"], ) ) index = pd.MultiIndex.from_tuples(tuples, names = ["first", "second"]) df = pd.DataFrame(np.random.randn(8, 2), index = index, columns = ["A", "B"]) df2 = df[:4] df2 stack() 메소드는 데이터 프레임의 열에서 레벨을 '압축'한다. stacked = df2.stack() stacked "스택된"..
-
[Python] Pandas 그룹화Python/pandas 2022. 10. 14. 09:21
목차 Grouping "group by"란 다음 단계 중 하나 이상을 포함하는 프로세스를 말한다. 일부 기준에 따라 데이터를 그룹으로 분할 각 그룹에 독립적으로 기능 적용 결과를 데이터 구조로 결합 df = pd.DataFrame( { "A": ["foo", "bar", "foo", "bar", "foo", "bar", "foo", "foo"], "B": ["one", "one", "two", "three", "two", "two", "one", "three"], "C": np.random.randn(8), "D": np.random.randn(8), } ) df sum() 함수를 그룹화한 다음 결과 그룹에 적용 df.groupby("A")[["C", "D"]].sum() 여러 열에 의한 그룹화는 계층적..
-
[Python] Pandas MergePython/pandas 2022. 10. 13. 16:41
목차 Merge Concat 판다스는 join / merge 작업의 경우 인덱스 및 관계 대수 기능에 대한 다양한 종류의 설정 논리를 사용하여 Series 및 DataFrame 개체를 쉽게 결합할 수 있는 다양한 기능을 제공한다. concat()을 사용하여 축을 따라 판다스 개체를 연결하는 방법 df = pd.DataFrame(np.random.randn(10, 4)) df pieces = [df[:3], df[3:7], df[7:]] pd.concat(pieces) Join merge()는 특정 열을 따라 SQL 스타일 join 유형을 활성화 한다. left = pd.DataFrame({"key" : ["foo", "foo"], "lval" : [1,2]}) right = pd.DataFrame({"k..
-
[Python] Pandas OperationsPython/pandas 2022. 10. 13. 16:29
목차 Stats 일반적으로 작업에서는 결측 데이터가 제외된다. 기술통계량 수행 df.mean() 다른 축에서도 동일한 작업을 수행할 수 있다. df.mean(1) 차원이 다르고 정렬이 필요한 개체로 작업한다. 또한 Pandas는 지정된 차원을 따라 자동으로 방송한다. s = pd.Series([1,3,5, np.nan, 6, 8], index = dates).shift(2) s df.sub(s, axis="index") Apply DataFrame.apply() 사용자 정의 함수를 데이터에 적용 df.apply(np.cumsum) Histogramming s = pd.Series(np.random.randint(0, 7, size=10)) s s.value_counts() String Methods 아래..
-
[Python] Pandas 결측치Python/pandas 2022. 10. 13. 15:15
목차 Missing Data Pandas는 주로 누락된 데이터르 ㄹ나타내기 위해 np.nan 값을 사용한다. 기본적으로 계산에는 포함되지 않는다. Reindexing을 사용하면 지정된 축의 인덱스를 변경/추가/삭제 할 수 있다. 이 경우 데이터 복사본이 반환 df1 = df.reindex(index = dates[0:4], columns = list(df.columns) + ["E"]) df1.loc[dates[0] : dates[1], "E"] = 1 df1 DataFrame.dropna()는 결측치가 있는 행을 삭제. df1.dropna(how = "any") DataFrame.dropna() DataFrame.dropna(axis=0, how=_NoDefault.no_default, thresh=_..
-
[Python] Pandas 선택하기Python/pandas 2022. 10. 13. 14:03
목차 선택 과 설정을 위한 표준 파이썬 / NumPy 식은 직관적이고 대화형 작업에 유용하지만, 프로덕션 코드의 경우 최적화된 Pandas 데이터 엑세스 방법인 DataFrame.at(), DataFrame.iat(), DataFrame.loc() 그리고 DataFrame.iloc()를 추천한다. Getting 열을 하나만 선택하면 df.A와 동일한 Series가 생성된다. df["A"] []를 통하면, 다음과 같이 분할한다. df[0:3] df["20221002" : "20221005"] Selection by label DataFrame.loc() 또는 DataFrame.at()을 사용한 레이블 별 선택을 참조 레이블을 사용하여 횡단면을 가져오는 경우 df.loc[dates[0]] 레이블별 다중 축 ..
-
[Python] Pandas 데이터보기Python/pandas 2022. 10. 11. 16:38
목차 head(), tail() DataFrame.head() 및 DataFrame.tail()을 사용하여 프레임의 위쪽 및 아래쪽 행을 각각 볼 수 있다. df.head() df.tail() index, columns DataFrame.index 또는 표시 DataFrame.columns df.index df.columns numpy DataFrame.to_numpy() 기본 데이터의 Numpy 표현을 제공한다. 데이터 유형이 다른 열이 있는 경우 이는 cost가 많이 드는 작업이 될 수 도 있다. DataFrame은 pandas와 NumPy 간의 근본적인 차이점으로 귀결 된다. NumPy 배열에는 전체 배열에 대해 하나의 dtype이 있는 반면, pandas DataFrames에는 열당 하나의 dty..