十个Pandas的另类数据处理技巧

本文所整理的技巧与以前整理过10个Pandas的常用技巧不同，你可能并不会经常的使用它，但是有时候当你遇到一些非常棘手的问题时，这些技巧可以帮你快速解决一些不常见的问题。

1、Categorical类型

默认情况下，具有有限数量选项的列都会被分配object 类型。但是就内存来说并不是一个有效的选择。我们可以这些列建立索引，并仅使用对对象的引用而实际值。Pandas 提供了一种称为 Categorical的Dtype来解决这个问题。

例如一个带有图片路径的大型数据集组成。每行有三列：anchor, positive, and negative.。

(资料图片仅供参考)

如果类别列使用 Categorical 可以显着减少内存使用量。

# raw data +----------+------------------------+ |  class   |        filename        | +----------+------------------------+ | Bathroom | Bathroom\bath_1.jpg    | | Bathroom | Bathroom\bath_100.jpg  | | Bathroom | Bathroom\bath_1003.jpg | | Bathroom | Bathroom\bath_1004.jpg | | Bathroom | Bathroom\bath_1005.jpg | +----------+------------------------+  # target +------------------------+------------------------+----------------------------+ |         anchor         |        positive        |          negative          | +------------------------+------------------------+----------------------------+ | Bathroom\bath_1.jpg    | Bathroom\bath_100.jpg  | Dinning\din_540.jpg        | | Bathroom\bath_100.jpg  | Bathroom\bath_1003.jpg | Dinning\din_1593.jpg       | | Bathroom\bath_1003.jpg | Bathroom\bath_1004.jpg | Bedroom\bed_329.jpg        | | Bathroom\bath_1004.jpg | Bathroom\bath_1005.jpg | Livingroom\living_1030.jpg | | Bathroom\bath_1005.jpg | Bathroom\bath_1007.jpg | Bedroom\bed_1240.jpg       | +------------------------+------------------------+----------------------------+

filename列的值会经常被复制重复。因此，所以通过使用Categorical可以极大的减少内存使用量。

让我们读取目标数据集，看看内存的差异：

triplets.info(memory_usage="deep")  #   Column   Non-Null Count   Dtype   # --- ------   --------------   -----   # 0   anchor   525000 non-null category # 1   positive 525000 non-null category # 2   negative 525000 non-null category # dtypes: category(3) # memory usage: 4.6 MB  # without categories triplets_raw.info(memory_usage="deep")  #   Column   Non-Null Count   Dtype # --- ------   --------------   ----- # 0   anchor   525000 non-null object # 1   positive 525000 non-null object # 2   negative 525000 non-null object # dtypes: object(3) # memory usage: 118.1 MB

差异非常大，并且随着重复次数的增加，差异呈非线性增长。

2、行列转换

sql中经常会遇到行列转换的问题，Pandas有时候也需要，让我们看看来自Kaggle比赛的数据集。census_start .csv文件:

可以看到，这些按年来保存的，如果有一个列year和pct_bb，并且每一行有相应的值，则会好得多，对吧。

cols = sorted([col for col in original_df.columns \               if col.startswith("pct_bb")]) df = original_df[(["cfips"] + cols)] df = df.melt(id_vars="cfips",              value_vars=cols,              var_name="year",              value_name="feature").sort_values(by=["cfips", "year"])

看看结果，这样是不是就好很多了：

3、apply()很慢

我们上次已经介绍过，最好不要使用这个方法，因为它遍历每行并调用指定的方法。但是要是我们没有别的选择，那还有没有办法提高速度呢？

可以使用swifter或pandarallew这样的包，使过程并行化。

Swifter

import pandas as pd import swifter  def target_function(row):     return row * 10  def traditional_way(data):     data["out"] = data["in"].apply(target_function)  def swifter_way(data):     data["out"] = data["in"].swifter.apply(target_function)

Pandarallel

import pandas as pd from pandarallel import pandarallel  def target_function(row):     return row * 10  def traditional_way(data):     data["out"] = data["in"].apply(target_function)  def pandarallel_way(data):     pandarallel.initialize()     data["out"] = data["in"].parallel_apply(target_function)

通过多线程，可以提高计算的速度，当然当然，如果有集群，那么最好使用dask或pyspark

4、空值，int, Int64

标准整型数据类型不支持空值，所以会自动转换为浮点数。所以如果数据要求在整数字段中使用空值，请考虑使用Int64数据类型，因为它会使用pandas.NA来表示空值。

5、Csv, 压缩还是parquet?

尽可能选择parquet。parquet会保留数据类型，在读取数据时就不需要指定dtypes。parquet文件默认已经使用了snappy进行压缩，所以占用的磁盘空间小。下面可以看看几个的对比

|        file            |  size   | +------------------------+---------+ | triplets_525k.csv      | 38.4 MB | | triplets_525k.csv.gzip |  4.3 MB | | triplets_525k.csv.zip  |  4.5 MB | | triplets_525k.parquet  |  1.9 MB | +------------------------+---------+

读取parquet需要额外的包，比如pyarrow或fastparquet。chatgpt说pyarrow比fastparquet要快，但是我在小数据集上测试时fastparquet比pyarrow要快，但是这里建议使用pyarrow，因为pandas 2.0也是默认的使用这个。

6、value_counts ()

计算相对频率，包括获得绝对值、计数和除以总数是很复杂的，但是使用value_counts，可以更容易地完成这项任务，并且该方法提供了包含或排除空值的选项。

df = pd.DataFrame({"a": [1, 2, None], "b": [4., 5.1, 14.02]}) df["a"] = df["a"].astype("Int64") print(df.info()) print(df["a"].value_counts(normalize=True, dropna=False),      df["a"].value_counts(normalize=True, dropna=True), sep="\n\n")

这样是不是就简单很多了

7、Modin

注意：Modin现在还在测试阶段。

pandas是单线程的，但Modin可以通过缩放pandas来加快工作流程，它在较大的数据集上工作得特别好，因为在这些数据集上，pandas会变得非常缓慢或内存占用过大导致OOM。

!pip install modin[all]  import modin.pandas as pd df = pd.read_csv("my_dataset.csv")

以下是modin官网的架构图，有兴趣的研究把：

8、extract()

如果经常遇到复杂的半结构化的数据，并且需要从中分离出单独的列，那么可以使用这个方法：

import pandas as pd  regex = (r"(?P[A-Za-z\"\s]+),"          r"(?P<author>[A-Za-z\s\"]+),"          r"(?P<isbn>[\d-]+),"          r"(?P<year>\d{4}),"          r"(?P<publisher>.+)") addr = pd.Series([     "The Lost City of Amara,Olivia Garcia,978-1-234567-89-0,2023,HarperCollins",     "The Alchemist"s Daughter,Maxwell Greene,978-0-987654-32-1,2022,Penguin Random House",     "The Last Voyage of the HMS Endeavour,Jessica Kim,978-5-432109-87-6,2021,Simon & Schuster",     "The Ghosts of Summer House,Isabella Lee,978-3-456789-12-3,2000,Macmillan Publishers",     "The Secret of the Blackthorn Manor,Emma Chen,978-9-876543-21-0,2023,Random House Children"s Books"  ]) addr.str.extract(regex)</pre><p></p>9、读写剪贴板<p>这个技巧有人一次也用不到，但是有人可能就是需要，比如：在分析中包含PDF文件中的表格时。通常的方法是复制数据，粘贴到Excel中，导出到csv文件中，然后导入Pandas。但是，这里有一个更简单的解决方案:pd.read_clipboard()。我们所需要做的就是复制所需的数据并执行一个方法。</p><p>有读就可以写，所以还可以使用to_clipboard()方法导出到剪贴板。</p><p>但是要记住，这里的剪贴板是你运行python/jupyter主机的剪切板，并不可能跨主机粘贴，一定不要搞混了。</p>10、数组列分成多列<p>假设我们有这样一个数据集，这是一个相当典型的情况:</p><pre style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">import pandas as pd df = pd.DataFrame({"a": [1, 2, 3],              "b": [4, 5, 6],              "category": [["foo", "bar"], ["foo"], ["qux"]]})  # let"s increase the number of rows in a dataframe df = pd.concat([df]*10000, ignore_index=True)</pre><p></p><p>我们想将category分成多列显示，例如下面的</p><p></p><p>先看看最慢的apply：</p><pre style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">def dummies_series_apply(df):    return df.join(df["category"].apply(pd.Series) \                                  .stack() \                                  .str.get_dummies() \                                  .groupby(level=0) \                                  .sum()) \              .drop("category", axis=1) %timeit dummies_series_apply(df.copy()) #5.96 s ± 66.6 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)</pre><p>sklearn的MultiLabelBinarizer</p><pre style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">from sklearn.preprocessing import MultiLabelBinarizer def sklearn_mlb(df):    mlb = MultiLabelBinarizer()    return df.join(pd.DataFrame(mlb.fit_transform(df["category"]), columns=mlb.classes_)) \              .drop("category", axis=1) %timeit sklearn_mlb(df.copy()) #35.1 ms ± 1.31 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)</pre><p>是不是快了很多，我们还可以使用一般的向量化操作对其求和：</p><pre style="color: rgb(89, 89, 89); margin: 0px; padding: 0px; background: none 0% 0% / auto repeat scroll padding-box border-box rgba(0, 0, 0, 0);">def dummies_vectorized(df):    return pd.get_dummies(df.explode("category"), prefix="cat") \              .groupby(["a", "b"]) \              .sum() \              .reset_index() %timeit dummies_vectorized(df.copy()) #29.3 ms ± 1.22 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)</pre><p></p><p>使用第一个方法(在StackOverflow上的回答中非常常见)会给出一个非常慢的结果。而其他两个优化的方法的时间是非常快速的。</p>总结<p>我希望每个人都能从这些技巧中学到一些新的东西。重要的是要记住尽可能使用向量化操作而不是apply()。此外，除了csv之外，还有其他有趣的存储数据集的方法。不要忘记使用分类数据类型，它可以节省大量内存。感谢阅读!</p>          
<!--<div class="adver_3"><script type="text/javascript" src="http://user.042.cn/adver/adver.js"></script><script type="text/javascript">getAdvert('.adver_3',2,'','80px');</script></div>-->
    <!--#include file="/static/html/wap_ad_2.html" -->
  </article>
  <div class="page_button"> </div>
</section>
<!--#include file="/static/html/wap_ad_3.html" -->

<section class="ymw-rel-list">
  <h4 class="ymw-title-lev2"> <span>推荐内容</span> </h4>
  <ul class="ymw-list-tp1">
            <li>
      <h5 class="yu-danger" style="margin-left: 0px;">用 CrowPi 树莓派套件了解关于计算机的一切</h5 >
      <p>
        <time>2023-03-24</time>
      </p>
      <a href="http://m.901029.com/guonei/202303/2430029.html"  title="用 CrowPi 树莓派套件了解关于计算机的一切"></a> </li>
    
        <li>
      <h5 class="yu-danger" style="margin-left: 0px;">OpenAI宣布ChatGPT支持第三方插件，不仅是可以联网搜索这么简单</h5 >
      <p>
        <time>2023-03-24</time>
      </p>
      <a href="http://m.901029.com/guonei/202303/2430028.html"  title="OpenAI宣布ChatGPT支持第三方插件，不仅是可以联网搜索这么简单"></a> </li>
    
        <li>
      <h5 class="yu-danger" style="margin-left: 0px;">十个Pandas的另类数据处理技巧</h5 >
      <p>
        <time>2023-03-24</time>
      </p>
      <a href="http://m.901029.com/guonei/202303/2430027.html"  title="十个Pandas的另类数据处理技巧"></a> </li>
    <!--#include file="/static/html/wap_ad_4.html" -->
        <li>
      <h5 class="yu-danger" style="margin-left: 0px;">钓草鱼用什么饵料添加剂？</h5 >
      <p>
        <time>2023-03-24</time>
      </p>
      <a href="http://m.901029.com/guonei/202303/2430026.html"  title="钓草鱼用什么饵料添加剂？"></a> </li>
    
        <li>
      <h5 class="yu-danger" style="margin-left: 0px;">【全球速看料】169元 红魔散热器4磁吸版上市：20W满血功率、可控RGB灯效</h5 >
      <p>
        <time>2023-03-24</time>
      </p>
      <a href="http://m.901029.com/shaokj/shaokj/202303/2430025.html"  title="【全球速看料】169元 红魔散热器4磁吸版上市：20W满血功率、可控RGB灯效"></a> </li>
    
        <li>
      <h5 class="yu-danger" style="margin-left: 0px;">报道：骁龙8 Gen3全新CPU架构曝光：破天荒“1+2+3+2”组合</h5 >
      <p>
        <time>2023-03-24</time>
      </p>
      <a href="http://m.901029.com/shaokj/shaokj/202303/2430024.html"  title="报道：骁龙8 Gen3全新CPU架构曝光：破天荒“1+2+3+2”组合"></a> </li>
    <!--#include file="/static/html/wap_ad_4.html" -->
        <li>
      <h5 class="yu-danger" style="margin-left: 0px;">海南通报“13岁女孩遭霸凌事件”具体详细内容是什么</h5 >
      <p>
        <time>2023-03-24</time>
      </p>
      <a href="http://m.901029.com/guonei/202303/2430023.html"  title="海南通报“13岁女孩遭霸凌事件”具体详细内容是什么"></a> </li>
    
        <li>
      <h5 class="yu-danger" style="margin-left: 0px;">当前热议!小金刚品质 Note 12 Turbo首发福利：免费送碎屏险</h5 >
      <p>
        <time>2023-03-24</time>
      </p>
      <a href="http://m.901029.com/shaokj/shaokj/202303/2430022.html"  title="当前热议!小金刚品质 Note 12 Turbo首发福利：免费送碎屏险"></a> </li>
    
        <li>
      <h5 class="yu-danger" style="margin-left: 0px;">世界短讯！PC真的没落了！我国网民使用手机上网比例达99.8%：占比遥遥领先</h5 >
      <p>
        <time>2023-03-24</time>
      </p>
      <a href="http://m.901029.com/shaokj/shaokj/202303/2430021.html"  title="世界短讯！PC真的没落了！我国网民使用手机上网比例达99.8%：占比遥遥领先"></a> </li>
    <!--#include file="/static/html/wap_ad_4.html" -->
        <li>
      <h5 class="yu-danger" style="margin-left: 0px;">明阳智能新设海洋装备工程技术子公司 含海上风电相关业务</h5 >
      <p>
        <time>2023-03-24</time>
      </p>
      <a href="http://m.901029.com/guonei/202303/2430020.html"  title="明阳智能新设海洋装备工程技术子公司 含海上风电相关业务"></a> </li>
    
        <li>
      <h5 class="yu-danger" style="margin-left: 0px;">月牙泉位于我国哪个省</h5 >
      <p>
        <time>2023-03-24</time>
      </p>
      <a href="http://m.901029.com/guonei/202303/2430019.html"  title="月牙泉位于我国哪个省"></a> </li>
    
        <li>
      <h5 class="yu-danger" style="margin-left: 0px;">深入了解 Java Executor 框架：实现高效、可靠的多线程任务调度</h5 >
      <p>
        <time>2023-03-24</time>
      </p>
      <a href="http://m.901029.com/guonei/202303/2430018.html"  title="深入了解 Java Executor 框架：实现高效、可靠的多线程任务调度"></a> </li>
    <!--#include file="/static/html/wap_ad_4.html" -->
        <li>
      <h5 class="yu-danger" style="margin-left: 0px;">Java 泛型大揭秘：类型参数、通配符与优秀实践</h5 >
      <p>
        <time>2023-03-24</time>
      </p>
      <a href="http://m.901029.com/guonei/202303/2430017.html"  title="Java 泛型大揭秘：类型参数、通配符与优秀实践"></a> </li>
    
        <li>
      <h5 class="yu-danger" style="margin-left: 0px;">DevOps 的优秀 CI/CD 工具：前十名的回顾</h5 >
      <p>
        <time>2023-03-24</time>
      </p>
      <a href="http://m.901029.com/guonei/202303/2430016.html"  title="DevOps 的优秀 CI/CD 工具：前十名的回顾"></a> </li>
    
        <li>
      <h5 class="yu-danger" style="margin-left: 0px;">将 Node.js 应用程序容器化的七种方法</h5 >
      <p>
        <time>2023-03-24</time>
      </p>
      <a href="http://m.901029.com/guonei/202303/2430015.html"  title="将 Node.js 应用程序容器化的七种方法"></a> </li>
    <!--#include file="/static/html/wap_ad_4.html" -->
        <li>
      <h5 class="yu-danger" style="margin-left: 0px;">做完GPT-4完整测评，微软爆火论文称初版AGI就快来了</h5 >
      <p>
        <time>2023-03-24</time>
      </p>
      <a href="http://m.901029.com/guonei/202303/2430014.html"  title="做完GPT-4完整测评，微软爆火论文称初版AGI就快来了"></a> </li>
    
        <li>
      <h5 class="yu-danger" style="margin-left: 0px;">狂欢季购手机，先来查看此篇攻略！</h5 >
      <p>
        <time>2023-03-24</time>
      </p>
      <a href="http://m.901029.com/guonei/202303/2430013.html"  title="狂欢季购手机，先来查看此篇攻略！"></a> </li>
    
        <li>
      <h5 class="yu-danger" style="margin-left: 0px;">当前要闻：普及旗舰大存储！Redmi Note 12 Turbo最高16GB+1TB组合</h5 >
      <p>
        <time>2023-03-24</time>
      </p>
      <a href="http://m.901029.com/shaokj/shaokj/202303/2430012.html"  title="当前要闻：普及旗舰大存储！Redmi Note 12 Turbo最高16GB+1TB组合"></a> </li>
    <!--#include file="/static/html/wap_ad_4.html" -->
        <li>
      <h5 class="yu-danger" style="margin-left: 0px;">最新：苹果史上最强iPad明年见！屏幕升级为OLED 售价大涨</h5 >
      <p>
        <time>2023-03-24</time>
      </p>
      <a href="http://m.901029.com/shaokj/shaokj/202303/2430011.html"  title="最新：苹果史上最强iPad明年见！屏幕升级为OLED 售价大涨"></a> </li>
    
        <li>
      <h5 class="yu-danger" style="margin-left: 0px;">山寨阳线</h5 >
      <p>
        <time>2023-03-24</time>
      </p>
      <a href="http://m.901029.com/guonei/202303/2430010.html"  title="山寨阳线"></a> </li>
    
          </ul>
</section>
<!--#include file="/static/html/wap_ad_5.html" -->

<footer class="ymw-footer"> 三好网 </footer>
<script src="http://www.901029.com/wap_static/js/swiper-3.3.1.jquery.min.js"></script> 
<script type="text/javascript" charset="utf-8">
    $(function() {
        $(".ymw-contxt img").attr("width","100%");
        $(".ymw-contxt img").parents("p").attr("style","text-indent:0em");
    });
  </script>
<script>
(function(){
    var bp = document.createElement('script');
    var curProtocol = window.location.protocol.split(':')[0];
    if (curProtocol === 'https') {
        bp.src = 'https://zz.bdstatic.com/linksubmit/push.js';
    }
    else {
        bp.src = 'http://push.zhanzhang.baidu.com/push.js';
    }
    var s = document.getElementsByTagName("script")[0];
    s.parentNode.insertBefore(bp, s);
})();
</script>
<script>
var _hmt = _hmt || [];
(function() {
  var hm = document.createElement("script");
  hm.src = "https://hm.baidu.com/hm.js?ce604ffaa16683f62ac95be8e712352d";
  var s = document.getElementsByTagName("script")[0]; 
  s.parentNode.insertBefore(hm, s);
})();
</script>
</body>
</html>