翻譯: https://cwiki.apache.org/confluence/display/Hive/Setting+Up+HiveServer2
版本: 2.3.3
HiveServer2
HiveServer2(HS2)是服務(wù)器接口,使遠程客戶端執(zhí)行對hive的查詢和檢索結(jié)果(更詳細的介紹這里)。目前基于Thrift RPC的實現(xiàn),是HiveServer的改進版本,并支持多客戶端并發(fā)和身份驗證。它旨在為JDBC和ODBC等開放API客戶端提供更好的支持。
- HiveServer2的Thrift接口定義語言(IDL)可在https://github.com/apache/hive/blob/trunk/service/if/TCLIService.thrift上找到。
- Thrift文檔可在http://thrift.apache.org/docs/獲得。
本文檔介紹如何設(shè)置服務(wù)器。HiveServer2客戶端文檔中描述了如何使用客戶端。
如何配置
hive-site.xml
文件中的配置屬性
hive.server2.thrift.min.worker.threads - 工作線程的最小數(shù)量,默認為5。
hive.server2.thrift.max.worker.threads - 最大工作線程數(shù),默認值為500。
hive.server2.thrift.port - 偵聽的TCP端口號,默認為10000。
hive.server2.thrift.bind.host - 綁定到的TCP接口。
有關(guān)可以為HiveServer2設(shè)置的其他屬性,請參閱“配置屬性”文檔中的HiveServer2。
可選的環(huán)境設(shè)置
HIVE_SERVER2_THRIFT_BIND_HOST - 要綁定的可選TCP主機接口。覆蓋配置文件設(shè)置。
HIVE_SERVER2_THRIFT_PORT - 要偵聽的可選TCP端口號,默認為10000.覆蓋配置文件設(shè)置。
以HTTP模式運行
HiveServer2支持通過HTTP傳輸發(fā)送Thrift RPC消息(Hive 0.13以上,請參閱HIVE-4752)。這對于支持客戶端和服務(wù)器之間的代理中介(例如,出于負載平衡或安全原因)特別有用。目前,您可以在TCP模式或HTTP模式下運行HiveServer2,但不能同時運行這兩種模式。對于相應(yīng)的JDBC URL,請檢查此鏈接:HiveServer2客戶端 - JDBC連接URL。使用以下設(shè)置啟用和配置HTTP模式:
設(shè)置 | 默認 | 描述 |
---|---|---|
hive.server2.transport.mode | binary | 設(shè)置為http以啟用HTTP傳輸模式 |
hive.server2.thrift.http.port | 10001 | 要監(jiān)聽的HTTP端口號 |
hive.server2.thrift.http.max.worker.threads | 500 | 服務(wù)器池中的最大工作線程數(shù) |
hive.server2.thrift.http.min.worker.threads | 5 | 服務(wù)器池中的最小工作線程數(shù) |
hive.server2.thrift.http.path | cliservice | 服務(wù)端點(service endpoint) |
基于Cookie的認證
HIVE-9709和HIVE-9710在HTTP模式下為HiveServer2引入了基于cookie的認證。可以在此處找到與此更改相關(guān)的HiveServer2參數(shù)(hive.server2.thrift.http.cookie.*)。
可選全局初始化文件
全局init文件可以放置在配置的 hive.server2.global.init.file.location位置(Hive 0.14以后,參見HIVE-5160,HIVE-7497和HIVE-8138)。這可以是init文件本身的路徑,也可以是包含名為“.hiverc”的目錄。
init文件列出了一組將為此HiveServer2實例的用戶運行的命令,例如注冊一組標準的jar和函數(shù)。
日志配置
HiveServer2操作日志可用于Beeline客戶端(Hive 0.14以上)。這些參數(shù)配置記錄:
- hive.server2.logging.operation.enabled
- hive.server2.logging.operation.log.location
- hive.server2.logging.operation.verbose (Hive 0.14到1.1)
- hive.server2.logging.operation.level (Hive 1.2以上)
如何開始
$HIVE_HOME/bin/hiveserver2
OR
$HIVE_HOME/bin/hive --service hiveserver2
Usage信息
-H
或--help
選項顯示用法消息,例如:
`$HIVE_HOME/bin/hive --service hiveserver2 -H`
`Starting HiveServer2`
`usage: hiveserver2`
`-H,--help Print help information`
`--hiveconf <property=value> Use value for given property`
認證/安全配置
HiveServer2支持匿名(不啟用認證)和使用SASL,Kerberos(GSSAPI),通過LDAP,可插入自定義認證和可插入認證模塊(PAM,支持Hive 0.13以上)。
配置
認證模式:
hive.server2.authentication - 身份驗證模式,默認為NONE。可選項是NONE(使用普通SASL),NOSASL,KERBEROS,LDAP,PAM和CUSTOM。設(shè)置啟用KERBEROS模式:
hive.server2.authentication.kerberos.principal - 服務(wù)器的Kerberos主體。
hive.server2.authentication.kerberos.keytab - 服務(wù)器主體的Keytab。
- 設(shè)置LDAP模式的以下內(nèi)容:
hive.server2.authentication.ldap.url - LDAP URL(例如,ldap://hostname.com:389)。
hive.server2.authentication.ldap.baseDN - LDAP基本DN。(對AD可選)
hive.server2.authentication.ldap.Domain - LDAP域。(Hive 0.12.0及更高版本)。
有關(guān) Hive 1.3.0及更高版本中的其他LDAP配置參數(shù),請參閱HiveServer2中的LDAP Atn Provider的用戶和組過濾器支持。
- 設(shè)置自定義模式:
hive.server2.custom.authentication.class - 實現(xiàn)org.apache.hive.service.auth.PasswdAuthenticationProvider
接口的定制認證類。
- 對于PAM模式,請參閱下面關(guān)于PAM的章節(jié)。
Impersonation
默認情況下,HiveServer2以提交查詢的用戶身份執(zhí)行查詢處理。但是,如果以下參數(shù)設(shè)置為false,則查詢將以運行hiveserver2
進程的用戶身份運行。
hive.server2.enable.doAs - 模擬連接的用戶,默認為true。
要防止在不安全模式下發(fā)生內(nèi)存泄漏,請通過將以下參數(shù)設(shè)置為true來禁用文件系統(tǒng)緩存(請參閱 HIVE-4501):
fs.hdfs.impl.disable.cache - 禁用HDFS文件系統(tǒng)緩存,默認為false。
fs.file.impl.disable.cache - 禁用本地文件系統(tǒng)緩存,默認為false。
完整性/機密性保護*
Hive JDBC驅(qū)動程序與HiveServer2之間進行通信的完整性保護和機密性保護(不僅僅是缺省認證)已啟用(Hive 0.12以上,請參閱HIVE-4911)。您可以使用SASL QOP屬性來配置它。
- 這僅在Kerberos用于HiveServer2的HS2客戶端(JDBC / ODBC應(yīng)用程序)身份驗證時使用。
-
hive-site.xml
必須將hive.server2.thrift.sasl.qop 設(shè)置為有效的QOP值之一('auth','auth-int'或'auth-conf')。
SSL加密
支持SSL加密(Hive 0.13以上,請參閱 HIVE-5351)。要啟用,請在以下位置設(shè)置以下配置 hive-site.xml
:
hive.server2.use.SSL - 將其設(shè)置為true。
hive.server2.keystore.path - 將其設(shè)置為您的密鑰庫路徑。
hive.server2.keystore.password - 將其設(shè)置為您的密鑰庫密碼。
注意
當hive.server2.transport.mode是binary并且hive.server2.authentication是KERBEROS時,SSL加密在Hive 2.0之前不起作用。將hive.server2.thrift.sasl.qop設(shè)置為auth-conf以啟用加密。詳情請參閱HIVE-14019。
使用自簽名證書設(shè)置SSL
使用以下步驟創(chuàng)建并驗證用于HiveServer2的自簽名SSL證書:
使用以下命令創(chuàng)建自簽名證書并將其添加到密鑰庫文件: keytool -genkey -alias example.com -keyalg RSA -keystore keystore.jks -keysize 2048,確保自簽名證書中使用的名稱與HiveServer2將運行的主機名相匹配。
列出密鑰庫條目以驗證是否添加了證書。請注意,密鑰庫可以包含多個此類證書:keytool -list -keystore keystore.jks
將此證書從keystore.jks導(dǎo)出到證書文件:keytool -export -alias example.com -file example.com.crt -keystore keystore.jks
將此證書添加到客戶端的信任庫以建立信任關(guān)系:keytool -import -trustcacerts -alias example.com -file example.com.crt -keystore truststore.jks
驗證truststore.jks中是否存在證書:keytool -list -keystore truststore.jks
然后啟動HiveServer2,并嘗試使用以下命令連接直線: jdbc:hive2://<host>:<port>/<database>;ssl=true;sslTrustStore=<path-to-truststore>;trustStorePassword=<truststore-password>
選擇性地禁用SSL協(xié)議版本
要禁用特定的SSL協(xié)議版本,請使用以下步驟:
- 運行openssl ciphers -v(或者不使用openssl的相應(yīng)命令)查看所有協(xié)議版本。
- 除了1之外,可能還需要執(zhí)行額外的步驟來查看HiveServer2日志,以查看運行HiveServer2的節(jié)點支持的所有協(xié)議。為此,請在HiveServer2日志文件中搜索“啟用SSL服務(wù)器套接字的協(xié)議:”。
- 將所有需要禁用的SSL協(xié)議添加到hive.ssl.protocol.blacklist。確保hiveserver2-site.xml中的屬性不覆蓋hive-site.xml中的屬性。
可插入認證模塊(PAM)
警告
如果用戶的密碼已過期,用于提供PAM身份驗證模式的JPAM庫可能會導(dǎo)致HiveServer2關(guān)閉。發(fā)生這種情況是因為JPAM調(diào)用本地代碼的segfault / core轉(zhuǎn)儲。在其他情況下,某些用戶也在登錄過程中報告了崩潰。建議使用LDAP或KERBEROS。
PAM提供了支持(Hive 0.13,參見HIVE-6466)。配置PAM:
- 下載 相關(guān)體系結(jié)構(gòu)的JPAM 本機庫。
- 解壓并將libjpam.so復(fù)制到系統(tǒng)上的目錄(<libjmap-directory>)。
- 將目錄添加到LD_LIBRARY_PATH環(huán)境變量中,如下所示:
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:<libjmap-directory>
- 對于某些PAM模塊,您必須確保運行HiveServer2進程的用戶可以讀取您的文件
/etc/shadow
和/etc/login.defs
文件。
最后,在以下位置設(shè)置以下配置 hive-site.xml
:
hive.server2.authentication - 將其設(shè)置為PAM。
hive.server2.authentication.pam.services - 將其設(shè)置為將使用的以逗號分隔的PAM服務(wù)列表。請注意,名稱與PAM服務(wù)同名的文件必須存在于/etc/pam.d中。
設(shè)置HiveServer2作業(yè)憑證提供程序
啟動Hive 2.2.0(參見 HIVE-14822)Hiveserver2支持MR和Spark作業(yè)的作業(yè)特定hadoop憑證提供程序。當通過Hadoop Credential Provider使用加密密碼時,HiveServer2需要將足夠的信息轉(zhuǎn)發(fā)到作業(yè)配置,以便跨群集啟動的作業(yè)可以讀取這些秘密。此外,HiveServer2可能具有作業(yè)不應(yīng)該具有的秘密,例如Hive Metastore數(shù)據(jù)庫密碼。如果你的工作需要訪問這些秘密,比如S3憑證,那么你可以使用下面的配置步驟來配置它們:
- 在HDFS中的安全位置使用Hadoop Credential Provider API創(chuàng)建特定于作業(yè)的密鑰庫。此密鑰庫應(yīng)包含作業(yè)所需配置的加密密鑰/值對。例如:對于S3憑證,密鑰庫應(yīng)該包含fs.s3a.secret.key和fs.s3a.access.key及其相應(yīng)的值。
- 解密密鑰庫的密碼應(yīng)設(shè)置為名為HIVE_JOB_CREDSTORE_PASSWORD的HiveServer2環(huán)境變量
- 將hive.server2.job.credential.provider.path設(shè)置 為URL,指向上面(1)中創(chuàng)建的密鑰存儲的類型和位置。如果沒有作業(yè)特定的密鑰庫,則HiveServer2將使用core-site.xml中使用hadoop.credential.provider.path的一個集(如果可用)。
- 如果未提供步驟2中設(shè)置的密碼使用環(huán)境變量,則HiveServer2將使用HADOOP_CREDSTORE_PASSWORD環(huán)境變量(如果可用)。
- HiveServer2現(xiàn)在將修改使用MR或Spark執(zhí)行引擎啟動的作業(yè)的作業(yè)配置,以包含作業(yè)憑證提供程序,以便作業(yè)任務(wù)可以使用秘密訪問加密的密鑰庫。
hive.server2.job.credential.provider.path - 將其設(shè)置為您的作業(yè)特定的hadoop憑據(jù)提供程序。例如:jceks://hdfs/user/hive/secret/jobcreds.jceks。
HIVE_JOB_CREDSTORE_PASSWORD - 將此HiveServer2環(huán)境變量設(shè)置為上面設(shè)置的特定于作業(yè)的Hadoop憑據(jù)提供程序密碼。
臨時目錄管理
HiveServer2允許配置Hive用來存儲臨時輸出和計劃的暫存目錄的各個方面。
配置屬性
以下是可以配置與臨時目錄相關(guān)的屬性:
ClearDanglingScratchDir工具
可以運行Cleardanglingscratchdir工具來清理Hive不正常關(guān)閉時可能遺留的任何懸掛臨時目錄,例如當虛擬機重新啟動并且Hive無法運行關(guān)閉掛鉤時。
hive --service cleardanglingscratchdir [-r] [-v] [-s scratchdir]
-r dry-run mode, which produces a list on console
-v verbose mode, which prints extra debugging information
-s if you are using non-standard scratch directory
該工具測試是否正在使用暫存目錄,如果沒有,將刪除它。這依賴于HDFS寫鎖定來檢測暫存目錄是否正在使用中。HDFS客戶端打開一個HDFS文件($scratchdir/inuse.lck
)進行寫入,并且僅在會話關(guān)閉時關(guān)閉它。cleardanglingscratchdir將嘗試打開$scratchdir/inuse.lck
以測試相應(yīng)的HiveCli / HiveServer2是否仍在運行。如果鎖正在使用中,則暫存目錄不會被清除。如果鎖定可用,則暫存目錄將被清除。請注意,NameNode最多可能需要10分鐘才能從死亡的HiveCli / HiveServer2中收回臨時文件鎖定的契約,屆時cleardanglingscratchdir將能夠在再次運行時將其刪除。
HiveServer2的Web UI
版
在Hive 2.0.0中引入。參見HIVE-12338及其子任務(wù)。
HiveServer2的Web用戶界面(UI)提供配置,日志記錄,指標和活動會話信息。默認情況下,Web UI在端口10002(127.0.0.1:10002)可用。
- 可以在hive-site.xml中自定義 Web UI的配置屬性,包括hive.server2.webui.host,hive.server2.webui.port,hive.server2.webui.max.threads和其他。
- 配置單元度量標準可以通過使用“度量轉(zhuǎn)儲”選項卡進行查看。
- 日志 可以通過使用“本地日志”選項卡中查看。
該界面目前正在開發(fā) HIVE-12338。
Python客戶端驅(qū)動
HiveServer2的Python客戶端驅(qū)動程序可在 https://github.com/BradRuderman/pyhs2上找到 (謝謝Brad)。它包括所有必需的軟件包,如SASL和Thrift包裝。
該驅(qū)動程序已經(jīng)通過了Python 2.6及更新版本的認證。
要使用pyhs2驅(qū)動程序:
pip install pyhs2
`import` `pyhs2`
`with [pyhs2.connect(host](https://cwiki.apache.org/confluence/display/Hive/pyhs2.connect(host)``=``'localhost'``,`
`port``=``10000``,`
`authMechanism``=``"PLAIN"``,`
`user``=``'root'``,`
`password``=``'test'``,`
`database``=``'default'``) as conn:`
`with [conn.cursor()](https://cwiki.apache.org/confluence/display/Hive/conn.cursor()) as cur:`
`#Show databases`
`print` `[cur.getDatabases()](https://cwiki.apache.org/confluence/display/Hive/cur.getDatabases())`
`#Execute query`
`[cur.execute(](https://cwiki.apache.org/confluence/display/Hive/cur.execute()``"select * from table"``)`
`#Return column info from query`
`print` `[cur.getSchema()](https://cwiki.apache.org/confluence/display/Hive/cur.getSchema())`
`#Fetch table results`
`for` `i ``in` `[cur.fetch():](https://cwiki.apache.org/confluence/display/Hive/cur.fetch():)`
`print` `i`
您可以在user@hive.apache.org郵件列表上討論此驅(qū)動程序 。
Ruby客戶端驅(qū)動
在https://github.com/forward3d/rbhive上的github上提供了一個Ruby客戶端驅(qū)動程序 。