Pandas怎么使用分隔符或正则表达式将字符串拆分为多列

其他教程   发布日期:2023年06月27日   浏览次数:550

这篇“Pandas怎么使用分隔符或正则表达式将字符串拆分为多列”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Pandas怎么使用分隔符或正则表达式将字符串拆分为多列”文章吧。

字符串方法是pandas.Series方法。

适用于pandas.Series或pandas.DataFrame列

str.split():用定界符分割

要按定界符(delimiter)进行拆分,使用字符串方法str.split()。

pandas.Series

以以下pandas.Series为例。

  1. import pandas as pd
  2. s_org = pd.Series(['aaa@xxx.com', 'bbb@yyy.com', 'ccc@zzz.com', 'ddd'], index=['A', 'B', 'C', 'D'])
  3. print(s_org)
  4. print(type(s_org))
  5. # A aaa@xxx.com
  6. # B bbb@yyy.com
  7. # C ccc@zzz.com
  8. # D ddd
  9. # dtype: object
  10. # <class 'pandas.core.series.Series'>

将定界符指定为第一个参数。一个pandas.Series元素作为拆分字符串的列表返回。

  1. s = s_org.str.split('@')
  2. print(s)
  3. print(type(s))
  4. # A [aaa, xxx.com]
  5. # B [bbb, yyy.com]
  6. # C [ccc, zzz.com]
  7. # D [ddd]
  8. # dtype: object
  9. # <class 'pandas.core.series.Series'>

指定split = True作为参数可分为多个列并以pandas.DataFrame的形式获取。默认值为expand = False。

没有足够的行划分的元素为“无(None)”。

  1. df = s_org.str.split('@', expand=True)
  2. print(df)
  3. print(type(df))
  4. # 0 1
  5. # A aaa xxx.com
  6. # B bbb yyy.com
  7. # C ccc zzz.com
  8. # D ddd None
  9. # <class 'pandas.core.frame.DataFrame'>

可以在列中指定获取的pandas.DataFrame的列名。

  1. df.columns = ['local', 'domain']
  2. print(df)
  3. # local domain
  4. # A aaa xxx.com
  5. # B bbb yyy.com
  6. # C ccc zzz.com
  7. # D ddd None

pandas.DataFrame

如果要通过将pandas.DataFrame的特定列拆分为多列来更新它,这会有些乏味。可能有更好的方法。

以先前创建的pandas.DataFrame为例。

  1. print(df)
  2. # local domain
  3. # A aaa xxx.com
  4. # B bbb yyy.com
  5. # C ccc zzz.com
  6. # D ddd None

在特定的列上使用str.split()获得一个拆分的pandas.DataFrame。

  1. print(df['domain'].str.split('.', expand=True))
  2. # 0 1
  3. # A xxx com
  4. # B yyy com
  5. # C zzz com
  6. # D None None

使用pd.concat()与原始pandas.DataFrame进行串联(联接),并使用drop()方法删除原始列。

  1. df2 = pd.concat([df, df['domain'].str.split('.', expand=True)], axis=1).drop('domain', axis=1)
  2. print(df2)
  3. # local 0 1
  4. # A aaa xxx com
  5. # B bbb yyy com
  6. # C ccc zzz com
  7. # D ddd None None

如果剩余的列很少,则只能选择与pd.concat()串联(联接)时所需的列。

  1. df3 = pd.concat([df['local'], df['domain'].str.split('.', expand=True)], axis=1)
  2. print(df3)
  3. # local 0 1
  4. # A aaa xxx com
  5. # B bbb yyy com
  6. # C ccc zzz com
  7. # D ddd None None

要重命名特定的列,请使用rename()方法。

  1. df3.rename(columns={0: 'second_LD', 1: 'TLD'}, inplace=True)
  2. print(df3)
  3. # local second_LD TLD
  4. # A aaa xxx com
  5. # B bbb yyy com
  6. # C ccc zzz com
  7. # D ddd None None

参考文章

Pandas.DataFrame的行名和列名的修改

str.extract():按正则表达式拆分

使用字符串方法str.extract()分割正则表达式。

以以下pandas.Series为例。

  1. import pandas as pd
  2. s_org = pd.Series(['aaa@xxx.com', 'bbb@yyy.com', 'ccc@zzz.com', 'ddd'], index=['A', 'B', 'C', 'D'])
  3. print(s_org)
  4. # A aaa@xxx.com
  5. # B bbb@yyy.com
  6. # C ccc@zzz.com
  7. # D ddd
  8. # dtype: object

在第一个参数中指定正则表达式。对于每个与正则表达式中用()括起来的组部分匹配的字符串,均对其进行划分。

提取多个组时,无论参数expand如何,都将返回pandas.DataFrame。

如果不匹配,则为NaN。

  1. df = s_org.str.extract('(.+)@(.+).(.+)', expand=True)
  2. print(df)
  3. # 0 1 2
  4. # A aaa xxx com
  5. # B bbb yyy com
  6. # C ccc zzz com
  7. # D NaN NaN NaN
  8. df = s_org.str.extract('(.+)@(.+).(.+)', expand=False)
  9. print(df)
  10. # 0 1 2
  11. # A aaa xxx com
  12. # B bbb yyy com
  13. # C ccc zzz com
  14. # D NaN NaN NaN

如果只有一组,则当参数expand = True时返回pandas.DataFrame,如果expand = False则返回pandas.Series。

  1. df_single = s_org.str.extract('(w+)', expand=True)
  2. print(df_single)
  3. print(type(df_single))
  4. # 0
  5. # A aaa
  6. # B bbb
  7. # C ccc
  8. # D ddd
  9. # <class 'pandas.core.frame.DataFrame'>
  10. s = s_org.str.extract('(w+)', expand=False)
  11. print(s)
  12. print(type(s))
  13. # A aaa
  14. # B bbb
  15. # C ccc
  16. # D ddd
  17. # dtype: object
  18. # <class 'pandas.core.series.Series'>

Expand = False是当前版本0.22.0中的默认值,但expand = True将是将来的默认值。

FutureWarning: currently extract(expand=None) means expand=False (return Index/Series/DataFrame)
but in a future version of pandas this will be changed to expand=True (return DataFrame)

如果对正则表达式模式使用命名组(?P &hellip;),则该名称将按原样是列名。

  1. df_name = s_org.str.extract('(?P<local>.*)@(?P<second_LD>.*).(?P<TLD>.*)', expand=True)
  2. print(df_name)
  3. # local second_LD TLD
  4. # A aaa xxx com
  5. # B bbb yyy com
  6. # C ccc zzz com
  7. # D NaN NaN NaN

如果要通过将pandas.DataFrame的特定列划分为多个列来进行更新,请参考上面的str.split()示例。使用pd.concat()连接(联接)原始的pandas.DataFrame并使用drop()方法删除原始的列。

以上就是Pandas怎么使用分隔符或正则表达式将字符串拆分为多列的详细内容,更多关于Pandas怎么使用分隔符或正则表达式将字符串拆分为多列的资料请关注九品源码其它相关文章!