Pandas怎么计算元素的数量和频率

其他教程   发布日期:2023年06月30日   浏览次数:453

本篇内容介绍了“Pandas怎么计算元素的数量和频率”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

在pandas.Series的pandas.DataFrame列中,将描述获取唯一元素数(不包括重复项的案例数)和每个元素的出现频率(出现数)的方法。

使用pandas.Series方法的unique(),value_counts()和nunique()。还提供了nunique()作为pandas.DataFrame的方法。

在这里:

  • pandas.Series.unique():返回NumPy数组ndarray中唯一元素值的列表

  • pandas.Series.value_counts():返回唯一元素的值及其在出现的次数。

  • pandas.Series.nunique(), pandas.DataFrame.nunique():返回int,pandas.Series中唯一元素的数量。

在解释了基本用法之后,对一下内容进行介绍。

  • 唯一元素的数量(不包括重复项的)

  • 唯一元素值列表

  • 唯一元素的频率(出现次数)

  • 独特元素及其出现的字典

  • 模式及其频率

  • 归一化频率

以下面的数据为例。

  1. import pandas as pd
  2. import numpy as np
  3. df = pd.read_csv('./data/15/sample_pandas_normal.csv')
  4. df.iloc[1] = np.nan
  5. print(df)
  6. # name age state point
  7. # 0 Alice 24.0 NY 64.0
  8. # 1 NaN NaN NaN NaN
  9. # 2 Charlie 18.0 CA 70.0
  10. # 3 Dave 68.0 TX 70.0
  11. # 4 Ellen 24.0 CA 88.0
  12. # 5 Frank 30.0 NY 57.0

pandas.Series.unique():返回NumPy数组ndarray中唯一元素值的列表

unique()返回唯一元素值的列表。一维NumPy数组ndarray类型而不是列表类型(Python内置类型)。还包括缺失值NaN。

  1. u = df['state'].unique()
  2. print(u)
  3. print(type(u))
  4. # ['NY' nan 'CA' 'TX']
  5. # <class 'numpy.ndarray'>

pandas.Series.value_counts():返回唯一元素的值及其在出现的次数。

value_counts()返回pandas.Series,其中唯一元素的值是index,出现的次数是data。当需要元素的频率(出现次数)时使用此选项。

  1. vc = df['state'].value_counts()
  2. print(vc)
  3. print(type(vc))
  4. # NY 2
  5. # CA 2
  6. # TX 1
  7. # Name: state, dtype: int64
  8. # <class 'pandas.core.series.Series'>

默认情况下,它按出现次数的降序排序,但是如果参数ascending = True,则以升序排序,如果参数sort = False,则不进行排序。

  1. print(df['state'].value_counts(ascending=True))
  2. # TX 1
  3. # CA 2
  4. # NY 2
  5. # Name: state, dtype: int64
  6. print(df['state'].value_counts(sort=False))
  7. # CA 2
  8. # NY 2
  9. # TX 1
  10. # Name: state, dtype: int64

默认情况下,NaN被排除,但如果参数dropna = False,则也计入NaN。

  1. print(df['state'].value_counts(dropna=False))
  2. # NY 2
  3. # CA 2
  4. # TX 1
  5. # NaN 1
  6. # Name: state, dtype: int64

如果指定了参数normalize = True,则将值归一化,以使总数变为1。

请注意,如果包含缺失值NaN,则该值将根据参数dropna的设置而有所不同。

  1. print(df['state'].value_counts(dropna=False, normalize=True))
  2. # NY 0.333333
  3. # CA 0.333333
  4. # TX 0.166667
  5. # NaN 0.166667
  6. # Name: state, dtype: float64

pandas.Series.nunique(), pandas.DataFrame.nunique():返回int,pandas.Series中唯一元素的数量。

pandas.Series.nunique()以整数int形式返回唯一元素的数量。

默认情况下,不包含NaN,并且如果指定了参数dropna = False,则结果还将包含NaN。

  1. nu = df['state'].nunique()
  2. print(nu)
  3. print(type(nu))
  4. # 3
  5. # <class 'int'>
  6. print(df['state'].nunique(dropna=False))
  7. # 4

pandas.DataFrame.nunique()计算每列的唯一元素数。返回pandas.Series类型。

默认情况下,不包含NaN,并且如果指定了参数dropna = False,则结果还将包含NaN。

默认情况下,该值为每列,但是如果参数axis = 1或axis =&lsquo;columns&rsquo;,则返回每行的值。

  1. nu_col = df.nunique()
  2. print(nu_col)
  3. print(type(nu_col))
  4. # name 5
  5. # age 4
  6. # state 3
  7. # point 4
  8. # dtype: int64
  9. # <class 'pandas.core.series.Series'>
  10. print(df.nunique(dropna=False))
  11. # name 6
  12. # age 5
  13. # state 4
  14. # point 5
  15. # dtype: int64
  16. print(df.nunique(dropna=False, axis='columns'))
  17. # 0 4
  18. # 1 1
  19. # 2 4
  20. # 3 4
  21. # 4 4
  22. # 5 4
  23. # dtype: int64

唯一元素的数量(不包括重复项的)

如上所述,pandas.Series.nunique()和pandas.DataFrame.nunique()可以计算唯一元素的数量(唯一元素的数量)。

  1. print(df['state'].nunique())
  2. # 3
  3. print(df.nunique())
  4. # name 5
  5. # age 4
  6. # state 3
  7. # point 4
  8. # dtype: int64

唯一元素值列表

使用unique(),您可以获取NumPy数组ndarray类型的唯一元素值的列表。如果要使用列表类型(Python内置类型),则可以使用tolist()方法将其转换。

  1. print(df['state'].unique().tolist())
  2. print(type(df['state'].unique().tolist()))
  3. # ['NY', nan, 'CA', 'TX']
  4. # <class 'list'>

可以将tolist()方法应用于通过value_counts()获得的pandas.Series的索引。也可以作为NumPy数组ndarray类型的值来获取。

  1. print(df['state'].value_counts().index.tolist())
  2. print(type(df['state'].value_counts().index.tolist()))
  3. # ['NY', 'CA', 'TX']
  4. # <class 'list'>
  5. print(df['state'].value_counts(dropna=False).index.values)
  6. print(type(df['state'].value_counts().index.values))
  7. # ['NY' 'CA' 'TX' nan]
  8. # <class 'numpy.ndarray'>

如上所述,在unique()的情况下,始终包含NaN,但是value_counts()可以指定参数dropna是否包含NaN。

唯一元素的频率(出现次数)

要获取每个唯一元素的频率(出现次数),请访问通过value_counts()获得的pandas.Series的值。

  1. print(df['state'].value_counts()['NY'])
  2. # 2
  3. print(df['state'].value_counts().NY)
  4. # 2

使用iteritems()方法检索for循环中的元素值和频率(出现次数)。

  1. for index, value in df['state'].value_counts().iteritems():
  2. print(index, ': ', value)
  3. # NY : 2
  4. # CA : 2
  5. # TX : 1

独特元素及其出现的字典

也可以将to_dict()方法应用于value_counts()获得的pandas.Series使其成为字典。

  1. d = df['state'].value_counts().to_dict()
  2. print(d)
  3. print(type(d))
  4. # {'NY': 2, 'CA': 2, 'TX': 1}
  5. # <class 'dict'>
  6. print(d['NY'])
  7. # 2

使用items()方法在for循环中检索元素值和频率(出现次数)。

  1. for key, value in d.items():
  2. print(key, ': ', value)
  3. # NY : 2
  4. # CA : 2
  5. # TX : 1

模式及其频率

默认情况下,value_counts()返回pandas.Series,它以出现次数的降序排列,因此顶部是最频繁出现的值及其频率。

  1. print(df['state'].value_counts())
  2. # NY 2
  3. # CA 2
  4. # TX 1
  5. # Name: state, dtype: int64
  6. print(df['state'].value_counts().index[0])
  7. # NY
  8. print(df['state'].value_counts().iat[0])
  9. # 2

原始pandas.Series的元素成为所得pandas.Series的索引。当数值为索引时,无法使用[Number]指定该值(这会导致错误),因此严格使用iat [Number]进行指定。 (由于示例是字符串,因此[Number]无关紧要)

使用apply()方法将其应用于pandas.DataFrame的每一列。

Pandas中map(),applymap(),apply()函数的使用方法

  1. print(df.apply(lambda x: x.value_counts().index[0]))
  2. # name Frank
  3. # age 24
  4. # state NY
  5. # point 70
  6. # dtype: object
  7. print(df.apply(lambda x: x.value_counts().iat[0]))
  8. # name 1
  9. # age 2
  10. # state 2
  11. # point 2
  12. # dtype: int64

如果存在多种模式,则上述方法只能获得一种模式。

mode()

pandas.Series的mode()方法将模式值返回为pandas.Series。如果使用tolist()列出此结果,则可以将模式值作为列表获取。请注意,即使只有一种模式,也将是一个列表。

  1. print(df['state'].mode())
  2. # 0 CA
  3. # 1 NY
  4. # dtype: object
  5. print(df['state'].mode().tolist())
  6. # ['CA', 'NY']
  7. print(df['age'].mode().tolist())
  8. # [24.0]

使用apply()方法将mode()应用于每列将产生具有列表类型元素的pandas.Series()。

  1. s_mode = df.apply(lambda x: x.mode().tolist())
  2. print(s_mode)
  3. # name [Alice, Charlie, Dave, Ellen, Frank]
  4. # age [24.0]
  5. # state [CA, NY]
  6. # point [70.0]
  7. # dtype: object
  8. print(type(s_mode))
  9. # <class 'pandas.core.series.Series'>
  10. print(s_mode['name'])
  11. # ['Alice', 'Charlie', 'Dave', 'Ellen', 'Frank']
  12. print(type(s_mode['name']))
  13. # <class 'list'>

mode()也作为pandas.DataFrame的方法提供。返回pandas.DataFrame。由于各列的模式数不同,所以空缺部分成为缺失值NaN。

  1. print(df.mode())
  2. # name age state point
  3. # 0 Alice 24.0 CA 70.0
  4. # 1 Charlie NaN NY NaN
  5. # 2 Dave NaN NaN NaN
  6. # 3 Ellen NaN NaN NaN
  7. # 4 Frank NaN NaN NaN

可以使用count()方法获得每列中的模式数,该方法对不缺少值NaN的元素数进行计数。

  1. print(df.mode().count())
  2. # name 5
  3. # age 1
  4. # state 2
  5. # point 1
  6. # dtype: int64

describe()

同样,正如我在开始时所写的那样,describe()方法可用于共同计算每一列的唯一元素的数量,模式值及其频率(出现的次数)。每个项目都可以使用loc []获得。

  1. print(df.astype('str').describe())
  2. # name age state point
  3. # count 6 6 6 6
  4. # unique 6 5 4 5
  5. # top Frank 24.0 CA 70.0
  6. # freq 1 2 2 2
  7. print(df.astype('str').describe().loc['top'])
  8. # name Frank
  9. # age 24.0
  10. # state CA
  11. # point 70.0
  12. # Name: top, dtype: object

在describe()中,由列类型dtype计算出的项是不同的,因此使用astype()进行类型转换(转换)。

归一化频率

如上所述,当将value_counts()的参数归一化设置为True时,将归一化以使总数变为1的值被返回。

请注意,如果包含缺失值NaN,则该值将根据参数dropna的设置而有所不同。

比较多个数据的频率分布时,很方便。

  1. print(df['state'].value_counts(dropna=False, normalize=True))
  2. # NY 0.333333
  3. # CA 0.333333
  4. # TX 0.166667
  5. # NaN 0.166667
  6. # Name: state, dtype: float64

以上就是Pandas怎么计算元素的数量和频率的详细内容,更多关于Pandas怎么计算元素的数量和频率的资料请关注九品源码其它相关文章!