Pysparkに関する最新の質問

2
答え

Pysparkで2つの列を連結するが、個々の行が連結される順序に影響を与えるにはどうすればよいですか?

以下のサンプルのようなpysparkデータフレームがあり、nameという列を無視します。これは、サイド1とサイド2の列から作成する必要があるものです。問題は、名前が同じである必要があることです。サイド1にAとサイド2Bが含まれるか、サイド1Bとサイド2Aが含まれるか。最終結果はA/Bである必要があるため、名前が異なるA/B-B/Aに見えるため、2つの列を単純に連結しても機能しません。名前の列を使用して、さらに下の行でグループ化を行う必要があります。そのため、名前を正しく反映する必要があります。誰かが私にこれを行うために使用できる方法を教えてもらえますか。

concatenation pyspark

1
答える

APIPOSTリクエスト用のPySparkDataFrameからJSONへ

PySparkデータフレームをHiveテーブルから特定の形式のJSONに変換して、POSTメソッドを介してデータとしてAPIに送信しようとしています。どういうわけか、JSONで「ValuesListIds」を取得できません。誰かが解決策を思い付くことができれば感謝します。

dataframe pyspark formatting json

0
答える

pysparkでマークダウンを表示する

データフレームに複数の一意の値(民族性、ステータス)を持つ2つの列があり、発生率が最も高い値を表示して、きれいに表示したいと考えています。基本的に次のようになります。 lessFreqEthnicity(occurences)MostFreqEthnicity(occurrences)、leastFreqStatus(occurrences)、mostFreqStatus(occurrences)

markdown pyspark

ホットタグ

© 2021   KonnichiwaSekai.Com