背景 在公司內部的服務器中,安裝三方庫是需要經過層層審批,最后由運維人員進行安裝,員工一般是沒有權限去隨意安裝三方庫,在審批之前需要進行測試驗證可行性,那么這時就需要把三方庫...

背景 在公司內部的服務器中,安裝三方庫是需要經過層層審批,最后由運維人員進行安裝,員工一般是沒有權限去隨意安裝三方庫,在審批之前需要進行測試驗證可行性,那么這時就需要把三方庫...
背景 在日常業務辦理過程中,不知大家是否養成了為重要文件添加水印的習慣?特別是通過微信等社交平臺傳輸的證件照片、合同掃描件等敏感資料,建議都應當添加包含個人/企業信息的水印,...
背景 離線數據經過 hive 處理后,生成的新數據,有時需要對接至研發側 clikehouse,供前端用戶查詢使用,所以會涉及到hive數據同步至clikehouse,因為h...
背景 在上一篇文章《基于DeepSeek,構建個人本地RAG知識庫》中用到了 streamlit 庫,于是小編初步深入了解了一下,感覺很好用,是數據人的一個好幫手,避免學習前...
去年春節過后,ChatGPT成為了科技領域的熱議話題,而今年過完年后,DeepSeek同樣火爆異常,引發了廣泛的討論。隨著大量文章的涌現,DeepSeek的功能和潛力成為了焦...
背景 一圖勝千言,優秀的可視化圖表不僅能以直觀、簡潔的方式呈現復雜的信息,還能夠通過圖形、顏色和布局的巧妙設計,引發觀眾的情感共鳴,增強數據背后故事的表達力與說服力。它們超越...
背景 端口掃描技術廣泛應用于網絡運維、網絡安全測試、以及黑客攻擊服務器等領域。在網絡運維中,管理員通過端口掃描來檢查服務器或設備的開放端口,確保網絡安全并及時發現潛在的漏洞。...
背景 小編最近在做一個數據類產品項目,每天涉及到幾十億數據的匯總計算,從不同維度、不同的關聯關系進行匯總統計,剛開始時項目組使用的是hive,寫好大量的業務SQL計算邏輯后(...
背景 Clickhouse 數據庫最近幾年在大數據領域應用越來越廣,因其卓越的性能,外加支持海量數據存儲與處理,國內很多大廠都有在使用。其底層使用C++語言編寫,小編在使用時...
背景 在大數據處理時,基本都是基于Hadoop集群進行操作,數據相關人員在開發數倉或做臨時業務需求時,基本都是利用 hive,寫 sql 進行數據處理與統計分析,但是 sql...
背景 本文借助 plotly 庫來畫旭日圖,該庫是一個高級可視化庫,相對 Matplotlib 更高級一些,上手起來相對比較容易 低階API:Plotly Graph Obj...
背景 在本地記事本記得太多了,有的命令使用頻次很低,時間長了容易忘記,分享出來后續使用時查找 常用命令 列出數據庫下的所有表 統計數據庫占用磁盤的總大小 查看數據表中的數據 ...
背景 近2年隨著Rust語言的大力發展,一些系統與軟件開始逐漸使用Rust語言來實現,并且一些大型公司也開始逐漸轉向Rust 因為在學習 Polars 庫時,看到該庫是使用R...
背景 把數據導出到Excel中時,有時需要對列的順序進行調整,按業務需求進行排列,并且字段名字不能是英文,這樣方便業務人員查看與理解數據,在 pandas 中有相應的函數可以...
背景 假如全國所有的酒店/民宿經緯度信息已知的情況下,基于當前位置,怎么快速計算附近5KM內的酒店/民宿呢?現實中有大量的這種業務場景,需要快速計算2點間的地球距離 本篇文章...
背景 polars學習系列文章,第10篇 時間序列類型(Time series) 該系列文章會分享到github,大家可以去下載jupyter文件,進行參考學習倉庫地址:ht...
背景 polars學習系列文章,第9篇 數據框關聯與拼接(Join 、Concat) 該系列文章會分享到github,大家可以去下載jupyter文件,進行參考學習倉庫地址:...