紅聯Linux門戶
Linux幫助

用Python構建你自己的RSS提示系統

發布時間:2018-03-22 15:17:28來源:linux.cn作者:qhwdw
Python 是非常棒的快速構建應用程序的編程語言。在這篇文章中我們將學習如何使用 Python 去構建一個 RSS 提示系統,目標是使用 Fedora 快樂地學習 Python。如果你正在尋找一個完整的 RSS 提示應用程序,在 Fedora 中已經準備好了幾個包。
 
Fedora 和 Python —— 入門知識
Python 3.6 在 Fedora 中是默認安裝的,它包含了 Python 的很多標準庫。標準庫提供了一些可以讓我們的任務更加簡單完成的模塊的集合。例如,在我們的案例中,我們將使用 sqlite3 模塊在數據庫中去創建表、添加和讀取數據。在這個案例中,我們試圖去解決的是這樣的一個特定問題,在標準庫中沒有包含,而有可能已經有人為我們開發了這樣一個模塊。最好是使用像大家熟知的 PyPI Python 包索引去搜索一下。在我們的示例中,我們將使用 feedparser 去解析 RSS 源(https://pypi.python.org/pypi/feedparser/5.2.1)。
因為 feedparser 并不是標準庫,我們需要將它安裝到我們的系統上。幸運的是,在 Fedora 中有這個 RPM 包,因此,我們可以運行如下的命令去安裝 feedparser:
$ sudo dnf install python3-feedparser
我們現在已經擁有了編寫我們的應用程序所需的東西了。
 
存儲源數據
我們需要存儲已經發布的文章的數據,這樣我們的系統就可以只提示新發布的文章。我們要保存的數據將是用來辨別一篇文章的唯一方法。因此,我們將存儲文章的標題和發布日期。
因此,我們來使用 Python sqlite3 模塊和一個簡單的 SQL 語句來創建我們的數據庫。同時也添加一些后面將要用到的模塊(feedparse,smtplib,和 email)。
 
創建數據庫
#!/usr/bin/python3
import sqlite3
import smtplib
from email.mime.text import MIMEText
import feedparser
db_connection = sqlite3.connect('/var/tmp/magazine_rss.sqlite')
db = db_connection.cursor()
db.execute(' CREATE TABLE IF NOT EXISTS magazine (title TEXT, date TEXT)')
這幾行代碼創建一個名為 magazine_rss.sqlite 文件的新 sqlite 數據庫,然后在數據庫創建一個名為 magazine 的新表。這個表有兩個列 —— title 和 date —— 它們能存諸 TEXT 類型的數據,也就是說每個列的值都是文本字符。
 
檢查數據庫中的舊文章
由于我們僅希望增加新的文章到我們的數據庫中,因此我們需要一個功能去檢查 RSS 源中的文章在數據庫中是否存在。我們將根據它來判斷是否發送(有新文章的)郵件提示。Ok,現在我們來寫這個功能的代碼。
 
def article_is_not_db(article_title, article_date):
""" Check if a given pair of article title and date
is in the database.
Args:
article_title (str): The title of an article
article_date  (str): The publication date of an article
Return:
True if the article is not in the database
False if the article is already present in the database
"""
db.execute("SELECT * from magazine WHERE title=? AND date=?", (article_title, article_date))
if not db.fetchall():
return True
else:
return False
這個功能的主要部分是一個 SQL 查詢,我們運行它去搜索數據庫。我們使用一個 SELECT 命令去定義我們將要在哪個列上運行這個查詢。我們使用 * 符號去選取所有列(title 和 date)。然后,我們使用查詢的 WHERE 條件 article_title 和 article_date 去匹配標題和日期列中的值,以檢索出我們需要的內容。
最后,我們使用一個簡單的返回 True 或者 False 的邏輯來表示是否在數據庫中找到匹配的文章。
 
在數據庫中添加新文章
現在我們可以寫一些代碼去添加新文章到數據庫中。
def add_article_to_db(article_title, article_date):
""" Add a new article title and date to the database
Args:
article_title (str): The title of an article
article_date (str): The publication date of an article
"""
db.execute("INSERT INTO magazine VALUES (?,?)", (article_title, article_date))
db_connection.commit()
這個功能很簡單,我們使用了一個 SQL 查詢去插入一個新行到 magazine 表的 article_title 和 article_date 列中。然后提交它到數據庫中永久保存。
這些就是在數據庫中所需要的東西,接下來我們看一下,如何使用 Python 實現提示系統和發送電子郵件。
 
發送電子郵件提示
我們使用 Python 標準庫模塊 smtplib 來創建一個發送電子郵件的功能。我們也可以使用標準庫中的 email 模塊去格式化我們的電子郵件信息。
 
def send_notification(article_title, article_url):
""" Add a new article title and date to the database
Args:
article_title (str): The title of an article
article_url (str): The url to access the article
"""
smtp_server = smtplib.SMTP('smtp.gmail.com', 587)
smtp_server.ehlo()
smtp_server.starttls()
smtp_server.login('[email protected]', '123your_password')
msg = MIMEText(f'\nHi there is a new Fedora Magazine article : {article_title}. \nYou can read it here {article_url}')
msg['Subject'] = 'New Fedora Magazine Article Available'
msg['From'] = '[email protected]'
msg['To'] = '[email protected]'
smtp_server.send_message(msg)
smtp_server.quit()
在這個示例中,我使用了谷歌郵件系統的 smtp 服務器去發送電子郵件,在你自己的代碼中你需要將它更改為你自己的電子郵件服務提供者的 SMTP 服務器。這個功能是個樣板,大多數的內容要根據你的 smtp 服務器的參數來配置。代碼中的電子郵件地址和憑證也要更改為你自己的。
如果在你的 Gmail 帳戶中使用了雙因子認證,那么你需要配置一個密碼應用程序為你的這個應用程序提供一個唯一密碼。可以看這個幫助頁面(https://support.google.com/accounts/answer/185833?hl=en)。
 
讀取 Fedora Magazine 的 RSS 源
我們已經有了在數據庫中存儲文章和發送提示電子郵件的功能,現在來創建一個解析 Fedora Magazine RSS 源并提取文章數據的功能。
def read_article_feed():
""" Get articles from RSS feed """
feed = feedparser.parse('https://fedoramagazine.org/feed/')
for article in feed['entries']:
if article_is_not_db(article['title'], article['published']):
send_notification(article['title'], article['link'])
add_article_to_db(article['title'], article['published'])
if __name__ == '__main__':
read_article_feed()
db_connection.close()
在這里我們將使用 feedparser.parse 功能。這個功能返回一個用字典表示的 RSS 源,對于 feedparser 的完整描述可以參考它的文檔(https://pythonhosted.org/feedparser/reference.html)。
RSS 源解析將返回最后的 10 篇文章作為 entries,然后我們提取以下信息:標題、鏈接、文章發布日期。因此,我們現在可以使用前面定義的檢查文章是否在數據庫中存在的功能,然后,發送提示電子郵件并將這個文章添加到數據庫中。
當運行我們的腳本時,最后的 if 語句運行我們的 read_article_feed 功能,然后關閉數據庫連接。
 
運行我們的腳本
給腳本文件賦于正確運行權限。接下來,我們使用 cron 實用程序去每小時自動運行一次我們的腳本。cron 是一個作業計劃程序,我們可以使用它在一個固定的時間去運行一個任務。
$ chmod a+x my_rss_notifier.py
$ sudo cp my_rss_notifier.py /etc/cron.hourly
為了使該教程保持簡單,我們使用了 cron.hourly 目錄每小時運行一次我們的腳本,如果你想學習關于 cron 的更多知識以及如何配置 crontab,請閱讀 cron 的 wikipedia 頁面(https://en.wikipedia.org/wiki/Cron)。
 
總結
在本教程中,我們學習了如何使用 Python 去創建一個簡單的 sqlite 數據庫、解析一個 RSS 源、以及發送電子郵件。我希望通過這篇文章能夠向你展示,使用 Python 和 Fedora 構建你自己的應用程序是件多么容易的事。
這個腳本在 GitHub 上可以找到(https://github.com/cverna/rss_feed_notifier)。
 
RSS新聞閱讀器Liferea 1.12.0發布,Ubuntu下安裝方法:http://www.4179693.live/linux/32980.html
5個開源RSS訂閱閱讀器:http://www.4179693.live/linux/29906.html
Alduin—支持Linux的跨平臺開源RSS閱讀器:http://www.4179693.live/linux/26471.html
Ubuntu安裝FeedReader-RSS閱讀器:http://www.4179693.live/linux/24385.html
Newsbeuter:Linux上的命令行RSS閱讀器:http://www.4179693.live/linux/23850.html
601268股票行情中心