平均および分散パラメーターに対する負の二項回帰の影響

0
投票

従属変数が分散しすぎています。したがって、一般化された負の二項回帰をデータに適用したいと思います。さらに、次の2つの論文のように、平均と分散パラメーターに対する指標の影響を調べたい

従属変数が過度に分散している。したがって、一般化された負の二項回帰をデータに適用したいと思います。さらに、次の2つの論文のように、平均と分散パラメータに対する指標の影響を調べます平均と分散パラメータに対する指標の影響を調べます。

128ページ: Fleming、Lee(2001):技術的検索における組換えの不確実性。 Management Science 47(1)、pp。117–132。 DOI:10.1287 /mnsc.47.1.117.10671。

128ページ: Fleming、Lee(2001):技術的検索における組換えの不確実性。 Management Science 47(1)、pp。117–132。 DOI:10.1287 /mnsc.47.1.117.10671。

719ページ: バーホーベン、デニス;バッカー、ジュリエン; Veugelers、Reinhilde(2016):特許ベースの指標を使用した技術的新規性の測定。 Research Policy 45(3)、pp。707–723。 DOI:10.1016 /j.respol.2015.11.010。

719ページ: バーホーベン、デニス;バッカー、ジュリエン; Veugelers、Reinhilde(2016):特許ベースの指標を使用した技術的新規性の測定。 Research Policy 45(3)、pp。707–723。 DOI:10.1016 /j.respol.2015.11.010。

両方の作成者がSTATAでリグレッションを実行したため、Python(または不可能な場合はSPSS)で実行したいので、コードに依存できません。

両方の作成者がSTATAでリグレッションを実行しました、したがって、Python(または不可能な場合はSPSS)で実行したいので、それらのコードに依存することはできません。

現在のPythonコードは回帰を処理し、回帰係数を表示します。ただし、平均と分散への影響を取得するオプションが表示されません。

現在のPythonコードは回帰を処理し、回帰係数を表示します。ただし、平均と分散への影響を取得するオプションが表示されません。
expr="""CIT_REC ~ SCIENCE_NOV  
+ APY + PBY + IPC_A + IPC_B + IPC_C + IPC_D + IPC_E + IPC_F + IPC_G + IPC_H + IPC_Y + NUM_CLAIMS + NUM_ID_CLAIMS + NUM_DP_CLAIMS + COMPL_CLAIMS"""

y_train, X_train=dmatrices(expr, df_train, return_type='dataframe')

X_train=sm.add_constant(X_train)

poisson_training_results=sm.GLM(y_train, X_train, family=sm.families.Poisson()).fit()
#print(poisson_training_results.summary())

import statsmodels.formula.api as smf
df_train['BB_LAMBDA']=poisson_training_results.mu

df_train['AUX_OLS_DEP']=df_train.apply(lambda x: ((x['CIT_REC'] -x['BB_LAMBDA'])**2 -x['CIT_REC'])/x['BB_LAMBDA'], axis=1)

ols_expr="""AUX_OLS_DEP ~ BB_LAMBDA -1"""
aux_olsr_results=smf.ols(ols_expr, df_train).fit()
print(aux_olsr_results.params)

nb2_training_results=sm.GLM(y_train, X_train,family=sm.families.NegativeBinomial(alpha=aux_olsr_results.params[0])).fit()
print(nb2_training_results.summary())
expr="""CIT_REC ~ SCIENCE_NOV + APY + PBY + IPC_A + IPC_B + IPC_C + IPC_D + IPC_E + IPC_F + IPC_G + IPC_H + IPC_Y + NUM_CLAIMS + NUM_ID_CLAIMS + NUM_DP_CLAIMS + COMPL_CLAIMS""" y_train, X_train=dmatrices(expr, df_train, return_type='dataframe') X_train=sm.add_constant(X_train) poisson_training_results=sm.GLM(y_train, X_train, family=sm.families.Poisson()).fit() #print(poisson_training_results.summary()) import statsmodels.formula.api as smf df_train['BB_LAMBDA']=poisson_training_results.mu df_train['AUX_OLS_DEP']=df_train.apply(lambda x: ((x['CIT_REC'] -x['BB_LAMBDA'])**2 -x['CIT_REC'])/x['BB_LAMBDA'], axis=1) ols_expr="""AUX_OLS_DEP ~ BB_LAMBDA -1""" aux_olsr_results=smf.ols(ols_expr, df_train).fit() print(aux_olsr_results.params) nb2_training_results=sm.GLM(y_train, X_train,family=sm.families.NegativeBinomial(alpha=aux_olsr_results.params[0])).fit() print(nb2_training_results.summary()) expr="""CIT_REC〜SCIENCE_NOV + APY + PBY + IPC_A + IPC_B + IPC_C + IPC_D + IPC_E + IPC_F + IPC_G + IPC_H + IPC_Y + NUM_CLAIMS + NUM_ID_CLAIMS + NUM_DP_CLAIMS + COMPL_CLAIMS""" y_train、X_train=dmatrices(expr、df_train、return_type='dataframe') X_train=sm.add_constant(X_train) poisson_training_results=sm.GLM(y_train、X_train、family=sm.families.Poisson())。fit() #print(poisson_training_results.summary()) statsmodels.formula.apiをsmfとしてインポートします df_train['BB_LAMBDA']=poisson_training_results.mu df_train['AUX_OLS_DEP']=df_train.apply(lambda x:((x['CIT_REC']-x['BB_LAMBDA'])** 2-x['CIT_REC'])/ x['BB_LAMBDA']、axis=1) ols_expr="""AUX_OLS_DEP〜BB_LAMBDA-1""" aux_olsr_results=smf.ols(ols_expr、df_train).fit() print(aux_olsr_results.params) nb2_training_results=sm.GLM(y_train、X_train、family=sm.families.NegativeBinomial(alpha=aux_olsr_results.params[0]))。fit() print(nb2_training_results.summary())

これは現在の出力です。

これは現在の出力です。
                 Generalized Linear Model Regression Results                  
==============================================================================
Dep. Variable:                CIT_REC   No. Observations:               120332
Model:                            GLM   Df Residuals:                   120316
Model Family:        NegativeBinomial   Df Model:                           15
Link Function:                    log   Scale:                          1.0000
Method:                          IRLS   Log-Likelihood:            -3.7912e+05
Date:                Thu, 08 Oct 2020   Deviance:                       74180.
Time:                        10:45:42   Pearson chi2:                 2.05e+05
No. Iterations:                    14                                         
Covariance Type:            nonrobust                                         
=================================================================================
                    coef    std err          z      P>|z|      [0.025      0.975]
---------------------------------------------------------------------------------
Intercept       228.8814      3.172     72.148      0.000     222.664     235.099
SCIENCE_NOV       3.3563      0.532      6.309      0.000       2.314       4.399
APY               0.0129      0.008      1.663      0.096      -0.002       0.028
PBY              -0.1385      0.008    -17.227      0.000      -0.154      -0.123
IPC_A            26.0610      0.353     73.732      0.000      25.368      26.754
IPC_B            25.3848      0.352     72.015      0.000      24.694      26.076
IPC_C            24.7705      0.356     69.669      0.000      24.074      25.467
IPC_D            24.6420      0.382     64.585      0.000      23.894      25.390
IPC_E            25.0614      0.357     70.161      0.000      24.361      25.762
IPC_F            25.3837      0.358     70.980      0.000      24.683      26.085
IPC_G            25.6531      0.352     72.802      0.000      24.962      26.344
IPC_H            25.7289      0.354     72.631      0.000      25.035      26.423
IPC_Y            26.1960      0.367     71.351      0.000      25.476      26.916
NUM_CLAIMS       -0.5566      0.178     -3.123      0.002      -0.906      -0.207
NUM_ID_CLAIMS     0.5767      0.178      3.235      0.001       0.227       0.926
NUM_DP_CLAIMS     0.5758      0.178      3.230      0.001       0.226       0.925
COMPL_CLAIMS     -0.0002   2.56e-05     -7.709      0.000      -0.000      -0.000
=================================================================================
Generalized Linear Model Regression Results ============================================================================== Dep. Variable: CIT_REC No. Observations: 120332 Model: GLM Df Residuals: 120316 Model Family: NegativeBinomial Df Model: 15 Link Function: log Scale: 1.0000 Method: IRLS Log-Likelihood: -3.7912e+05 Date: Thu, 08 Oct 2020 Deviance: 74180. Time: 10:45:42 Pearson chi2: 2.05e+05 No. Iterations: 14 Covariance Type: nonrobust ================================================================================= coef std err z P>|z| [0.025 0.975] --------------------------------------------------------------------------------- Intercept 228.8814 3.172 72.148 0.000 222.664 235.099 SCIENCE_NOV 3.3563 0.532 6.309 0.000 2.314 4.399 APY 0.0129 0.008 1.663 0.096 -0.002 0.028 PBY -0.1385 0.008 -17.227 0.000 -0.154 -0.123 IPC_A 26.0610 0.353 73.732 0.000 25.368 26.754 IPC_B 25.3848 0.352 72.015 0.000 24.694 26.076 IPC_C 24.7705 0.356 69.669 0.000 24.074 25.467 IPC_D 24.6420 0.382 64.585 0.000 23.894 25.390 IPC_E 25.0614 0.357 70.161 0.000 24.361 25.762 IPC_F 25.3837 0.358 70.980 0.000 24.683 26.085 IPC_G 25.6531 0.352 72.802 0.000 24.962 26.344 IPC_H 25.7289 0.354 72.631 0.000 25.035 26.423 IPC_Y 26.1960 0.367 71.351 0.000 25.476 26.916 NUM_CLAIMS -0.5566 0.178 -3.123 0.002 -0.906 -0.207 NUM_ID_CLAIMS 0.5767 0.178 3.235 0.001 0.227 0.926 NUM_DP_CLAIMS 0.5758 0.178 3.230 0.001 0.226 0.925 COMPL_CLAIMS -0.0002 2.56e-05 -7.709 0.000 -0.000 -0.000 ================================================================================= 一般化線形モデルの回帰結果 ============================================================================== 部門変数:CIT_REC番号観測値:120332 モデル:GLM Df残差:120316 モデルファミリー:NegativeBinomial Dfモデル:15 リンク機能:ログスケール:1.0000 方法:IRLS対数尤度:-3.7912e + 05 日付:2020年10月8日木曜日逸脱度:74180。 時間:10:45:42ピアソンchi2:2.05e + 05 いいえ。反復:14 共分散タイプ:非ロバスト ================================================================================= coef std err z P>| z|[0.025 0.975] --------------------------------------------------------------------------------- インターセプト228.88143.172 72.148 0.000 222.664 235.099 SCIENCE_NOV 3.3563 0.532 6.309 0.000 2.314 4.399 APY 0.0129 0.008 1.663 0.096 -0.002 0.028 PBY -0.1385 0.008 -17.227 0.000 -0.154 -0.123 IPC_A 26.0610 0.353 73.732 0.000 25.368 26.754 IPC_B 25.3848 0.352 72.015 0.000 24.694 26.076 IPC_C 24.7705 0.356 69.669 0.000 24.074 25.467 IPC_D 24.6420 0.382 64.585 0.000 23.894 25.390 IPC_E 25.0614 0.357 70.161 0.000 24.361 25.762IPC_F 25.3837 0.358 70.980 0.000 24.683 26.085 IPC_G 25.6531 0.352 72.802 0.000 24.962 26.344 IPC_H 25.7289 0.354 72.631 0.000 25.035 26.423 IPC_Y 26.1960 0.367 71.351 0.000 25.476 26.916 NUM_CLAIMS -0.5566 0.178 -3.123 0.002 -0.906 -0.207 NUM_ID_CLAIMS 0.5767 0.178 3.235 0.001 0.227 0.926 NUM_DP_CLAIMS 0.5758 0.178 3.230 0.001 0.226 0.925 COMPL_CLAIMS -0.0002 2.56e-05 -7.709 0.000 -0.000 -0.000 =================================================================================

編集:著者に次のメッセージを受け取ってもらいました。 stataの「nbreg」コマンドを使用し、分散をモデル化するオプションとして「lnalpha(vars)」を指定しました。 PythonまたはSPSSに同様の機能はありますか?

編集:編集:作成者に次のメッセージを受け取ってもらいました。 stataの「nbreg」コマンドを使用し、分散をモデル化するオプションとして「lnalpha(vars)」を指定しました。 PythonまたはSPSSに同様の関数はありますか?

ソース

glm python statsmodels regression

-StupidWolf

1 -StupidWolf

-Nils_Denter

答えを待っています

興味があるかもしれません

© 2021   KonnichiwaSekai.Com