In [26]:
import requests
In [27]:
r = requests.get("https://www.ptt.cc/bbs/movie/index.html")
In [28]:
r
Out[28]:
<Response [200]>
In [30]:
text = r.text
In [31]:
print(text)
<!DOCTYPE html>
<html>
	<head>
		<meta charset="utf-8">
		

<meta name="viewport" content="width=device-width, initial-scale=1">

<title>看板 movie 文章列表 - 批踢踢實業坊</title>

<link rel="stylesheet" type="text/css" href="//images.ptt.cc/v2.16/bbs-common.css">
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/v2.16/bbs-base.css" media="screen">
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/v2.16/bbs-custom.css">
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/v2.16/pushstream.css" media="screen">
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/v2.16/bbs-print.css" media="print">


<script src="//ajax.googleapis.com/ajax/libs/jquery/2.1.1/jquery.min.js"></script>
<script src="//images.ptt.cc/v2.16/bbs.js"></script>


		

<script type="text/javascript">

  var _gaq = _gaq || [];
  _gaq.push(['_setAccount', 'UA-32365737-1']);
  _gaq.push(['_setDomainName', 'ptt.cc']);
  _gaq.push(['_trackPageview']);

  (function() {
    var ga = document.createElement('script'); ga.type = 'text/javascript'; ga.async = true;
    ga.src = ('https:' == document.location.protocol ? 'https://ssl' : 'http://www') + '.google-analytics.com/ga.js';
    var s = document.getElementsByTagName('script')[0]; s.parentNode.insertBefore(ga, s);
  })();

</script>


	</head>
    <body>
		
<div id="topbar-container">
	<div id="topbar" class="bbs-content">
		<a id="logo" href="/">批踢踢實業坊</a>
		<span>&rsaquo;</span>
		<a class="board" href="/bbs/movie/index.html"><span class="board-label">看板 </span>movie</a>
		<a class="right small" href="/about.html">關於我們</a>
		<a class="right small" href="/contact.html">聯絡資訊</a>
	</div>
</div>

<div id="main-container">
	<div id="action-bar-container">
		<div class="action-bar">
			<div class="btn-group btn-group-dir">
				<a class="btn selected" href="/bbs/movie/index.html">看板</a>
				<a class="btn" href="/man/movie/index.html">精華區</a>
			</div>
			<div class="btn-group btn-group-paging">
				<a class="btn wide" href="/bbs/movie/index1.html">最舊</a>
				<a class="btn wide" href="/bbs/movie/index4027.html">&lsaquo; 上頁</a>
				<a class="btn wide disabled">下頁 &rsaquo;</a>
				<a class="btn wide" href="/bbs/movie/index.html">最新</a>
			</div>
		</div>
	</div>

	<div class="r-list-container bbs-screen">
		
		
            
        
        
		<div class="r-ent">
			<div class="nrec"><span class="hl f2">1</span></div>
			<div class="mark"></div>
			<div class="title">
			
				<a href="/bbs/movie/M.1462073397.A.CD3.html">Re: [請益] 美國隊長是不是真的很不會開飛機(雷)</a>
			
			</div>
			<div class="meta">
				<div class="date"> 5/01</div>
				<div class="author">akirajeanya</div>
			</div>
		</div>

		
            
        
        
		<div class="r-ent">
			<div class="nrec"></div>
			<div class="mark"></div>
			<div class="title">
			
				<a href="/bbs/movie/M.1462073795.A.2EE.html">[請益] 關於美國隊長3</a>
			
			</div>
			<div class="meta">
				<div class="date"> 5/01</div>
				<div class="author">phimos</div>
			</div>
		</div>

		
            
        
        
		<div class="r-ent">
			<div class="nrec"></div>
			<div class="mark"></div>
			<div class="title">
			
				<a href="/bbs/movie/M.1462073814.A.687.html">Re: [極好雷] 美國隊長3內戰-可惜缺了沉重的代價後果 </a>
			
			</div>
			<div class="meta">
				<div class="date"> 5/01</div>
				<div class="author">chirex</div>
			</div>
		</div>

		
        
        <div class="r-list-sep"></div>
            
                
        
        
		<div class="r-ent">
			<div class="nrec"><span class="hl f3">16</span></div>
			<div class="mark"></div>
			<div class="title">
			
				<a href="/bbs/movie/M.1397887191.A.BD0.html">[公告]《各式疑難雜症FAQ》</a>
			
			</div>
			<div class="meta">
				<div class="date"> 4/19</div>
				<div class="author">yunyun85106</div>
			</div>
		</div>

            
                
        
        
		<div class="r-ent">
			<div class="nrec"><span class="hl f1">爆</span></div>
			<div class="mark"></div>
			<div class="title">
			
				<a href="/bbs/movie/M.1411349202.A.C57.html">[公告] 板規!必看!|好文推薦‧惡文檢舉</a>
			
			</div>
			<div class="meta">
				<div class="date"> 9/22</div>
				<div class="author">pacificocean</div>
			</div>
		</div>

            
                
        
        
		<div class="r-ent">
			<div class="nrec"><span class="hl f1">爆</span></div>
			<div class="mark"></div>
			<div class="title">
			
				<a href="/bbs/movie/M.1461765572.A.7A5.html">[贈票]《屌人》特映會</a>
			
			</div>
			<div class="meta">
				<div class="date"> 4/27</div>
				<div class="author">mymorita</div>
			</div>
		</div>

            
                
        
        
		<div class="r-ent">
			<div class="nrec"><span class="hl f1">爆</span></div>
			<div class="mark"></div>
			<div class="title">
			
				<a href="/bbs/movie/M.1461932754.A.0F7.html">[贈票] 【我媽的希臘婚禮】PTT推文搶先看電影!</a>
			
			</div>
			<div class="meta">
				<div class="date"> 4/29</div>
				<div class="author">kkaicd1</div>
			</div>
		</div>

            
                
        
        
		<div class="r-ent">
			<div class="nrec"><span class="hl f1">爆</span></div>
			<div class="mark"></div>
			<div class="title">
			
				<a href="/bbs/movie/M.1461758841.A.FE9.html">[贈票] 150張【金錢怪獸】電影交換券</a>
			
			</div>
			<div class="meta">
				<div class="date"> 4/27</div>
				<div class="author">Amed21</div>
			</div>
		</div>

            
        
	</div>

    
</div>

    </body>
</html>

In [41]:
pos = text.find('<div class="title">', pos+1)
print(pos)
print(text[pos:pos+100])
-1

In [32]:
pos = 0
while True:
    pos = text.find('<div class="r-ent">', pos)
    if pos == -1:
        break
    print(text[pos:pos+500])
    print("======================")
    pos+=1
<div class="r-ent">
			<div class="nrec"><span class="hl f2">1</span></div>
			<div class="mark"></div>
			<div class="title">
			
				<a href="/bbs/movie/M.1462073397.A.CD3.html">Re: [請益] 美國隊長是不是真的很不會開飛機(雷)</a>
			
			</div>
			<div class="meta">
				<div class="date"> 5/01</div>
				<div class="author">akirajeanya</div>
			</div>
		</div>

		
            
        
        
		<div class="r-ent">
			<div class="nrec"></div>
			<div class="mark"></div>
			<div class="title">
			
				<a href="/bbs
======================
<div class="r-ent">
			<div class="nrec"></div>
			<div class="mark"></div>
			<div class="title">
			
				<a href="/bbs/movie/M.1462073795.A.2EE.html">[請益] 關於美國隊長3</a>
			
			</div>
			<div class="meta">
				<div class="date"> 5/01</div>
				<div class="author">phimos</div>
			</div>
		</div>

		
            
        
        
		<div class="r-ent">
			<div class="nrec"></div>
			<div class="mark"></div>
			<div class="title">
			
				<a href="/bbs/movie/M.1462073814.A.687.html">Re: [極好雷] 美國隊長3內
======================
<div class="r-ent">
			<div class="nrec"></div>
			<div class="mark"></div>
			<div class="title">
			
				<a href="/bbs/movie/M.1462073814.A.687.html">Re: [極好雷] 美國隊長3內戰-可惜缺了沉重的代價後果 </a>
			
			</div>
			<div class="meta">
				<div class="date"> 5/01</div>
				<div class="author">chirex</div>
			</div>
		</div>

		
        
        <div class="r-list-sep"></div>
            
                
        
        
		<div class="r-ent">
			<div class="nrec"><span class="hl f3">16</span></div>
			<div 
======================
<div class="r-ent">
			<div class="nrec"><span class="hl f3">16</span></div>
			<div class="mark"></div>
			<div class="title">
			
				<a href="/bbs/movie/M.1397887191.A.BD0.html">[公告]《各式疑難雜症FAQ》</a>
			
			</div>
			<div class="meta">
				<div class="date"> 4/19</div>
				<div class="author">yunyun85106</div>
			</div>
		</div>

            
                
        
        
		<div class="r-ent">
			<div class="nrec"><span class="hl f1">爆</span></div>
			<div class="mark"></div>
			<div class
======================
<div class="r-ent">
			<div class="nrec"><span class="hl f1">爆</span></div>
			<div class="mark"></div>
			<div class="title">
			
				<a href="/bbs/movie/M.1411349202.A.C57.html">[公告] 板規!必看!|好文推薦‧惡文檢舉</a>
			
			</div>
			<div class="meta">
				<div class="date"> 9/22</div>
				<div class="author">pacificocean</div>
			</div>
		</div>

            
                
        
        
		<div class="r-ent">
			<div class="nrec"><span class="hl f1">爆</span></div>
			<div class="mark"></div>
			<div
======================
<div class="r-ent">
			<div class="nrec"><span class="hl f1">爆</span></div>
			<div class="mark"></div>
			<div class="title">
			
				<a href="/bbs/movie/M.1461765572.A.7A5.html">[贈票]《屌人》特映會</a>
			
			</div>
			<div class="meta">
				<div class="date"> 4/27</div>
				<div class="author">mymorita</div>
			</div>
		</div>

            
                
        
        
		<div class="r-ent">
			<div class="nrec"><span class="hl f1">爆</span></div>
			<div class="mark"></div>
			<div class="title"
======================
<div class="r-ent">
			<div class="nrec"><span class="hl f1">爆</span></div>
			<div class="mark"></div>
			<div class="title">
			
				<a href="/bbs/movie/M.1461932754.A.0F7.html">[贈票] 【我媽的希臘婚禮】PTT推文搶先看電影!</a>
			
			</div>
			<div class="meta">
				<div class="date"> 4/29</div>
				<div class="author">kkaicd1</div>
			</div>
		</div>

            
                
        
        
		<div class="r-ent">
			<div class="nrec"><span class="hl f1">爆</span></div>
			<div class="mark"></div>
			<div 
======================
<div class="r-ent">
			<div class="nrec"><span class="hl f1">爆</span></div>
			<div class="mark"></div>
			<div class="title">
			
				<a href="/bbs/movie/M.1461758841.A.FE9.html">[贈票] 150張【金錢怪獸】電影交換券</a>
			
			</div>
			<div class="meta">
				<div class="date"> 4/27</div>
				<div class="author">Amed21</div>
			</div>
		</div>

            
        
	</div>

    
</div>

    </body>
</html>

======================
In [7]:
pos = 0
while True:
    pos = text.find('<div class="r-ent">', pos)
    if pos == -1:
        break
    
    pos = text.find('<a href=', pos)
    print(text[pos:pos+100])
    print("======================")
    pos+=1
<a href="/bbs/movie/M.1462048488.A.1FD.html">[問片] 請問有人看過刺激1996嗎?</a>
			
			</div>
			<div class="me
======================
<a href="/bbs/movie/M.1462049400.A.B53.html">[請益] 美國隊長3,黑豹的衣服導電嗎</a>
			
			</div>
			<div class="me
======================
<a href="/bbs/movie/M.1462060487.A.4F1.html">[討論] 《教父》中的柯里昂三兄弟,何者演技較佳?</a>
			
			</div>
			<div cla
======================
<a href="/bbs/movie/M.1462060657.A.C89.html">[  雷] 美國隊長3真的看完後覺得超失望</a>
			
			</div>
			<div class="
======================
<a href="/bbs/movie/M.1462063005.A.C8B.html">Re: [討論] 美國隊長3之你會選哪邊?</a>
			
			</div>
			<div class="
======================
<a href="/bbs/movie/M.1462063764.A.03B.html">Re: [討論] 美隊三蘇科維雅協議根本假議題</a>
			
			</div>
			<div class
======================
<a href="/bbs/movie/M.1462064412.A.5EF.html">[討論] 爛番茄的美國隊長3角色投票</a>
			
			</div>
			<div class="met
======================
<a href="/bbs/movie/M.1462064673.A.B38.html">[心得有雷] 美國隊長3:追求正義必有所犧牲</a>
			
			</div>
			<div class=
======================
<a href="/bbs/movie/M.1462067011.A.954.html">[新聞]《美隊3》周末海外票房超威猛!突破27億元</a>
			
			</div>
			<div cla
======================
<a href="/bbs/movie/M.1462067122.A.798.html">[討論] 《美人魚》中出現的康帝紅酒</a>
			
			</div>
			<div class="met
======================
<a href="/bbs/movie/M.1462067316.A.0BA.html">[  好雷] 凶兆、陰兒房第一集</a>
			
			</div>
			<div class="meta"
======================
<a href="/bbs/movie/M.1462068713.A.44C.html">[討論] 鋼鐵人就沒殺人嗎?</a>
			
			</div>
			<div class="meta">

======================
<a href="/bbs/movie/M.1462069991.A.B5F.html">Re: [討論] 《教父》中的柯里昂三兄弟,何者演技較佳?</a>
			
			</div>
			<div
======================
<a href="/bbs/movie/M.1462070566.A.05C.html">[分享] 神盾局 TWITTER(有英雄內戰雷)</a>
			
			</div>
			<div clas
======================
<a href="/bbs/movie/M.1462070666.A.08D.html">[新聞]《異形:契約》異形真身首曝光 頭更大牙更</a>
			
			</div>
			<div clas
======================
<a href="/bbs/movie/M.1462070744.A.82F.html">[極好雷] 美國隊長3內戰-可惜缺了沉重的代價後果 </a>
			
			</div>
			<div cl
======================
<a href="/bbs/movie/M.1462072026.A.363.html">[問片] 大唐玄奘 請問有誰知道台灣何時上映??</a>
			
			</div>
			<div clas
======================
<a href="/bbs/movie/M.1462072192.A.E9F.html">[討論] 美隊3 有雷~有雷 發現的小彩蛋??</a>
			
			</div>
			<div class
======================
<a href="/bbs/movie/M.1462072938.A.4B8.html">[微負雷] 美國隊長3</a>
			
			</div>
			<div class="meta">
			
======================
<a href="/bbs/movie/M.1397887191.A.BD0.html">[公告]《各式疑難雜症FAQ》</a>
			
			</div>
			<div class="meta">
======================
<a href="/bbs/movie/M.1411349202.A.C57.html">[公告] 板規!必看!|好文推薦‧惡文檢舉</a>
			
			</div>
			<div class="
======================
<a href="/bbs/movie/M.1461765572.A.7A5.html">[贈票]《屌人》特映會</a>
			
			</div>
			<div class="meta">
			
======================
<a href="/bbs/movie/M.1461932754.A.0F7.html">[贈票] 【我媽的希臘婚禮】PTT推文搶先看電影!</a>
			
			</div>
			<div cla
======================
<a href="/bbs/movie/M.1461758841.A.FE9.html">[贈票] 150張【金錢怪獸】電影交換券</a>
			
			</div>
			<div class="m
======================
In [8]:
pos = 0
while True:
    pos = text.find('<div class="r-ent">', pos)
    if pos == -1:
        break
    
    pos = text.find('<a href=', pos)
    pos2 = text.find('</a>',pos)
    print(text[pos:pos2+4])
    pos+=1
<a href="/bbs/movie/M.1462048488.A.1FD.html">[問片] 請問有人看過刺激1996嗎?</a>
<a href="/bbs/movie/M.1462049400.A.B53.html">[請益] 美國隊長3,黑豹的衣服導電嗎</a>
<a href="/bbs/movie/M.1462060487.A.4F1.html">[討論] 《教父》中的柯里昂三兄弟,何者演技較佳?</a>
<a href="/bbs/movie/M.1462060657.A.C89.html">[  雷] 美國隊長3真的看完後覺得超失望</a>
<a href="/bbs/movie/M.1462063005.A.C8B.html">Re: [討論] 美國隊長3之你會選哪邊?</a>
<a href="/bbs/movie/M.1462063764.A.03B.html">Re: [討論] 美隊三蘇科維雅協議根本假議題</a>
<a href="/bbs/movie/M.1462064412.A.5EF.html">[討論] 爛番茄的美國隊長3角色投票</a>
<a href="/bbs/movie/M.1462064673.A.B38.html">[心得有雷] 美國隊長3:追求正義必有所犧牲</a>
<a href="/bbs/movie/M.1462067011.A.954.html">[新聞]《美隊3》周末海外票房超威猛!突破27億元</a>
<a href="/bbs/movie/M.1462067122.A.798.html">[討論] 《美人魚》中出現的康帝紅酒</a>
<a href="/bbs/movie/M.1462067316.A.0BA.html">[  好雷] 凶兆、陰兒房第一集</a>
<a href="/bbs/movie/M.1462068713.A.44C.html">[討論] 鋼鐵人就沒殺人嗎?</a>
<a href="/bbs/movie/M.1462069991.A.B5F.html">Re: [討論] 《教父》中的柯里昂三兄弟,何者演技較佳?</a>
<a href="/bbs/movie/M.1462070566.A.05C.html">[分享] 神盾局 TWITTER(有英雄內戰雷)</a>
<a href="/bbs/movie/M.1462070666.A.08D.html">[新聞]《異形:契約》異形真身首曝光 頭更大牙更</a>
<a href="/bbs/movie/M.1462070744.A.82F.html">[極好雷] 美國隊長3內戰-可惜缺了沉重的代價後果 </a>
<a href="/bbs/movie/M.1462072026.A.363.html">[問片] 大唐玄奘 請問有誰知道台灣何時上映??</a>
<a href="/bbs/movie/M.1462072192.A.E9F.html">[討論] 美隊3 有雷~有雷 發現的小彩蛋??</a>
<a href="/bbs/movie/M.1462072938.A.4B8.html">[微負雷] 美國隊長3</a>
<a href="/bbs/movie/M.1397887191.A.BD0.html">[公告]《各式疑難雜症FAQ》</a>
<a href="/bbs/movie/M.1411349202.A.C57.html">[公告] 板規!必看!|好文推薦‧惡文檢舉</a>
<a href="/bbs/movie/M.1461765572.A.7A5.html">[贈票]《屌人》特映會</a>
<a href="/bbs/movie/M.1461932754.A.0F7.html">[贈票] 【我媽的希臘婚禮】PTT推文搶先看電影!</a>
<a href="/bbs/movie/M.1461758841.A.FE9.html">[贈票] 150張【金錢怪獸】電影交換券</a>
In [9]:
pos = 0
while True:
    pos = text.find('<div class="r-ent">', pos)
    if pos == -1:
        break
    
    pos = text.find('<a href=', pos)
    pos = text.find('>', pos)
    pos2 = text.find('</a>',pos)
    print(text[pos+1:pos2])
    pos+=1
[問片] 請問有人看過刺激1996嗎?
[請益] 美國隊長3,黑豹的衣服導電嗎
[討論] 《教父》中的柯里昂三兄弟,何者演技較佳?
[  雷] 美國隊長3真的看完後覺得超失望
Re: [討論] 美國隊長3之你會選哪邊?
Re: [討論] 美隊三蘇科維雅協議根本假議題
[討論] 爛番茄的美國隊長3角色投票
[心得有雷] 美國隊長3:追求正義必有所犧牲
[新聞]《美隊3》周末海外票房超威猛!突破27億元
[討論] 《美人魚》中出現的康帝紅酒
[  好雷] 凶兆、陰兒房第一集
[討論] 鋼鐵人就沒殺人嗎?
Re: [討論] 《教父》中的柯里昂三兄弟,何者演技較佳?
[分享] 神盾局 TWITTER(有英雄內戰雷)
[新聞]《異形:契約》異形真身首曝光 頭更大牙更
[極好雷] 美國隊長3內戰-可惜缺了沉重的代價後果 
[問片] 大唐玄奘 請問有誰知道台灣何時上映??
[討論] 美隊3 有雷~有雷 發現的小彩蛋??
[微負雷] 美國隊長3
[公告]《各式疑難雜症FAQ》
[公告] 板規!必看!|好文推薦‧惡文檢舉
[贈票]《屌人》特映會
[贈票] 【我媽的希臘婚禮】PTT推文搶先看電影!
[贈票] 150張【金錢怪獸】電影交換券
In [10]:
pos = 0
while True:
    pos = text.find('<div class="r-ent">', pos)
    if pos == -1:
        break
    
    #得到讚數
    #<div class="nrec"><span class="hl f1">爆</span></div>
    like_pos = text.find('<span class="hl',pos)
    like_pos = text.find('>', like_pos)
    like_pos2 = text.find('<', like_pos)
    print(text[like_pos+1:like_pos2])
    
    #得到標題
    pos = text.find('<a href=', pos)
    pos = text.find('>', pos)
    pos2 = text.find('</a>',pos)
    print(text[pos+1:pos2])
    pos+=1
5
[問片] 請問有人看過刺激1996嗎?
5
[請益] 美國隊長3,黑豹的衣服導電嗎
5
[討論] 《教父》中的柯里昂三兄弟,何者演技較佳?
1
[  雷] 美國隊長3真的看完後覺得超失望
1
Re: [討論] 美國隊長3之你會選哪邊?
21
Re: [討論] 美隊三蘇科維雅協議根本假議題
21
[討論] 爛番茄的美國隊長3角色投票
6
[心得有雷] 美國隊長3:追求正義必有所犧牲
22
[新聞]《美隊3》周末海外票房超威猛!突破27億元
2
[討論] 《美人魚》中出現的康帝紅酒
2
[  好雷] 凶兆、陰兒房第一集
2
[討論] 鋼鐵人就沒殺人嗎?
2
Re: [討論] 《教父》中的柯里昂三兄弟,何者演技較佳?
2
[分享] 神盾局 TWITTER(有英雄內戰雷)
6
[新聞]《異形:契約》異形真身首曝光 頭更大牙更
17
[極好雷] 美國隊長3內戰-可惜缺了沉重的代價後果 
1
[問片] 大唐玄奘 請問有誰知道台灣何時上映??
1
[討論] 美隊3 有雷~有雷 發現的小彩蛋??
16
[微負雷] 美國隊長3
16
[公告]《各式疑難雜症FAQ》
爆
[公告] 板規!必看!|好文推薦‧惡文檢舉
爆
[贈票]《屌人》特映會
爆
[贈票] 【我媽的希臘婚禮】PTT推文搶先看電影!
爆
[贈票] 150張【金錢怪獸】電影交換券

改寫成 function 等等可以用

In [11]:
def get_titles_from_html(html):
    res = []
    pos = 0
    while True:
        pos = html.find('<div class="r-ent">', pos)
        if pos == -1:
            break

        #得到讚數
        #<div class="nrec"><span class="hl f1">爆</span></div>
        #like_pos = text.find('<span class="hl',pos)
        #like_pos = text.find('>', like_pos)
        #like_pos2 = text.find('<', like_pos)
        #得到標題
        pos = html.find('<a href=', pos)
        pos = html.find('>', pos)
        pos2 = html.find('</a>',pos)
        res.append(text[pos+1:pos2])
        pos+=1
    return res
In [12]:
titles = get_titles_from_html(text)
titles
Out[12]:
['[問片] 請問有人看過刺激1996嗎?',
 '[請益] 美國隊長3,黑豹的衣服導電嗎',
 '[討論] 《教父》中的柯里昂三兄弟,何者演技較佳?',
 '[  雷] 美國隊長3真的看完後覺得超失望',
 'Re: [討論] 美國隊長3之你會選哪邊?',
 'Re: [討論] 美隊三蘇科維雅協議根本假議題',
 '[討論] 爛番茄的美國隊長3角色投票',
 '[心得有雷] 美國隊長3:追求正義必有所犧牲',
 '[新聞]《美隊3》周末海外票房超威猛!突破27億元',
 '[討論] 《美人魚》中出現的康帝紅酒',
 '[  好雷] 凶兆、陰兒房第一集',
 '[討論] 鋼鐵人就沒殺人嗎?',
 'Re: [討論] 《教父》中的柯里昂三兄弟,何者演技較佳?',
 '[分享] 神盾局 TWITTER(有英雄內戰雷)',
 '[新聞]《異形:契約》異形真身首曝光 頭更大牙更',
 '[極好雷] 美國隊長3內戰-可惜缺了沉重的代價後果 ',
 '[問片] 大唐玄奘 請問有誰知道台灣何時上映??',
 '[討論] 美隊3 有雷~有雷 發現的小彩蛋??',
 '[微負雷] 美國隊長3',
 '[公告]《各式疑難雜症FAQ》',
 '[公告] 板規!必看!|好文推薦‧惡文檢舉',
 '[贈票]《屌人》特映會',
 '[贈票] 【我媽的希臘婚禮】PTT推文搶先看電影!',
 '[贈票] 150張【金錢怪獸】電影交換券']

找到前一頁的資料

In [13]:
pos = text.find('href="/bbs/movie/index')
text[pos:pos+100]
Out[13]:
'href="/bbs/movie/index.html"><span class="board-label">看板 </span>movie</a>\n\t\t<a class="right small" '
In [14]:
pos = text.find('<a class="btn wide"')
text[pos:pos+100]
Out[14]:
'<a class="btn wide" href="/bbs/movie/index1.html">最舊</a>\n\t\t\t\t<a class="btn wide" href="/bbs/movie/in'
In [15]:
pos = text.find('最舊</a>')
text[pos:pos+100]
Out[15]:
'最舊</a>\n\t\t\t\t<a class="btn wide" href="/bbs/movie/index4026.html">&lsaquo; 上頁</a>\n\t\t\t\t<a class="btn wi'
In [16]:
pos = text.find('最舊</a>')
pos = text.find('/bbs/movie',pos)
text[pos:pos+50]
Out[16]:
'/bbs/movie/index4026.html">&lsaquo; 上頁</a>\n\t\t\t\t<a '
In [17]:
pos = text.find('最舊</a>')
pos = text.find('/bbs/movie',pos)
pos2 = text.find('"',pos)
text[pos:pos2]
Out[17]:
'/bbs/movie/index4026.html'
In [18]:
def get_prev_url(html):
    pos = html.find('最舊</a>')
    pos = html.find('/bbs/movie',pos)
    pos2 = html.find('"',pos)
    html[pos:pos2]
    url = "https://www.ptt.cc"+html[pos:pos2]
    return url
In [19]:
get_prev_url(text)
Out[19]:
'https://www.ptt.cc/bbs/movie/index4026.html'
In [20]:
url = get_prev_url(text)
r = requests.get(url)
text = r.text
titles += get_titles_from_html(text)

完成版!

In [21]:
def get_titles_from_html(html):
    res = []
    pos = 0
    while True:
        pos = html.find('<div class="r-ent">', pos)
        if pos == -1:
            break

        #得到讚數
        #<div class="nrec"><span class="hl f1">爆</span></div>
        #like_pos = text.find('<span class="hl',pos)
        #like_pos = text.find('>', like_pos)
        #like_pos2 = text.find('<', like_pos)
        #得到標題
        pos = html.find('<a href=', pos)
        pos = html.find('>', pos)
        pos2 = html.find('</a>',pos)
        if pos == -1:
            break
        res.append(text[pos+1:pos2])
        pos+=1
    return res
In [22]:
def get_prev_url(html):
    pos = html.find('最舊</a>')
    pos = html.find('/bbs/movie',pos)
    pos2 = html.find('"',pos)
    html[pos:pos2]
    url = "https://www.ptt.cc"+html[pos:pos2]
    return url
In [23]:
import time
titles = []
url = "https://www.ptt.cc/bbs/movie/index.html"
for i in range(200):
    r = requests.get(url)
    text = r.text
    titles += get_titles_from_html(text)
    url = get_prev_url(text)
    time.sleep(0.1)
In [24]:
for title in titles:
    if '負' in title:
        print(title)
[微負雷] 美國隊長3
[負雷] 充滿致敬的美國隊長3
[好雷] 美國隊長3:內戰-真正的負責是自我負責 
[負雷] 反擊
[超級大負雷] Jupiter Ascending 朱比特崛起
[負雷] 美國3 我找不到重點啊
[負雷] 非死不可 
[負雷] 遲來的正義曙光心得
[微雷]負評!從英雄間的戰爭看《美國隊長3》》 
[新聞「酷寒戰士」賽巴斯汀史坦肩負演員使命 「
[負雷] 紅衣小女孩 
[負雷] 前所未有的挑戰性:火星異種
[ 負雷] 失控謊言
[負雷] 下水道英雄~超噁心的電影
[負雷] 害我約會失敗的忐忑
[負雷] 美人魚 
[負雷]蝙蝠俠對超人—正義曙光:海頓硬尬德布西 
[負雷] 換腦行動
[超級大負雷] 大尾鱸鰻2
[負雷] 夏日大作戰   只有家庭劇碼成功的動畫 
[負雷] 家有兩個爸
[負雷] 花錢比鬼還兇的「鬼哭神嚎:惡靈15 」
[負雷] 無言的 科洛弗10號地窖
[小負雷]驚字塔 
[ 超負雷] 換腦行動
[大負雷]託陰 
[負雷] 狩獵者:凜冬之戰 
[大負雷] 第五毀滅
[ 負雷] 腦殘「換腦行動」大不推
[無負雷] 超狂亨利  Hardcore Henry 奇幻影展
[負雷] BVS等於畫面比較好的驚奇四超人?
[負雷] BVS看過原著才感覺到電影的不足
[負雷] 殘穢
[負雷] 狩獵者-凜冬之戰 完全入不了戲
[大負雷] 狩獵者:凜冬之戰  超乎預期的低能
[負雷] 飛躍奇蹟
[負雷] 蝙蝠俠對超人─黎明曙光還是陰雨前夕?
[負雷]狩獵者 凜冬之戰:爛梗之作
[負雷] 《路邊野餐》暈頭轉向的奇幻夢境
[負雷] 劇場靈 
[負雷] 功夫熊貓3 
Re: [  負雷] 柯洛佛10號地窖根本瞎片
[負雷] 賭城風雲3---天賭刺 三大巨頭
Re: [負雷] 一次經典 多次奇怪的黑暗騎士:黎明升
[負雷]BVS心得 
[  負雷] 柯洛佛10號地窖根本瞎片
[負雷] 《非法999》
[負雷] 蝙蝠俠對超人 之 小班演技很不錯了
[負雷] 看完之後覺得憤怒的BVS
Re: [負雷] BVS我只有一個問題
[負雷]特工爺爺 
[負雷] 柯洛弗10號地窖
[ 微負雷]BVS 二刷後的找碴雷
Re: [新聞] 膝關節:影片負評的影響力,別管了,你
[新聞] 膝關節:影片負評的影響力,別管了,你
Re: [負雷] 蝙蝠俠對超人,邏輯不通大集合
Re: [負雷] 蝙蝠俠對超人,邏輯不通大集合
[負雷] BVS我只有一個問題
[負雷] 蝙蝠俠對超人,邏輯不通大集合
[負雷] 蝙蝠俠對超人 
[負雷] 蝙蝠俠對超人 
[微負雷] 聊聊聞鬼師
[負雷] Batman v Superman 正義曙光(有雷)
[  負雷] 有人覺得神力女超人有那麼一點多餘嗎
[負雷]安娜弗里茨的屍體 
[  負雷] 蝙蝠俠對超人
[負雷] BVS 蝙蝠俠對超人 
Re: [負雷] BVS 蝙蝠俠對超人 
Re: [負雷] 蝙蝠俠對超人:正義曙光
[討論] DC宇宙電影計畫 會不會因為負評被暫緩
[負雷] 蝙蝠俠對超人:正義曙光
[負雷] 正義曙光 蝙蝠俠對超人 
[負雷] 有些人喜歡有些人不喜歡的BvS觀後吐槽 
Re: [負雷] 每件事都錯了~蝙蝠俠對超人 
[普雷]如果是粉絲可能會負雷的BvS
Re: [負雷] 可以說是負雷中的負雷-蝙蝠俠VS超人
[負雷] 可以說是負雷中的負雷-蝙蝠俠VS超人
Re: [負雷] 可以說是負雷中的負雷-蝙蝠俠VS超人
Re: [負雷] 當爽片不爽的時候-BVS之正義閃光 
[負雷] 蝙蝠俠VS超人 在急什麼?
[負雷] 蝙蝠俠對超人 
Re: [負雷] 當爽片不爽的時候-BVS之正義閃光 
Re: [負雷] 當爽片不爽的時候-BVS之正義閃光 
[負雷] 當爽片不爽的時候-BVS之正義閃光 
[好雷] BVS大概能理解會有負評原因
[負雷] 蝙蝠俠對超人BvS 好像飛輪少年的感覺
Re: [微負雷]蝙蝠俠對超人 
[負雷] 蝙蝠俠大戰超人---恨鐵不成鋼鐵英雄
Re: [微負雷]蝙蝠俠對超人 
Re: [微負雷]蝙蝠俠對超人 
[負雷] 二刷 BVS 
[微負雷]蝙蝠俠對超人 
[負雷] 每件事都錯了~蝙蝠俠對超人 
[普負雷] 蝙蝠俠對超人--期待過高的DC巨頭對決
[ 超負雷] 超人蝙蝠俠
[負雷] 難看到讓人生氣的蝙蝠俠對超人
Re: [負雷] 超人vs蝙蝠俠 
Re: [負雷] 超人vs蝙蝠俠 
Re: [大負雷]超人vs蝙蝠俠 
Re: [大負雷]超人vs蝙蝠俠 
[負雷] 超人vs蝙蝠俠 
Re: [負雷] 超人vs蝙蝠俠 
[ 負雷] 蝙蝠俠對超人
[大負雷]超人vs蝙蝠俠 
[負雷]  柴克史耐德,你還是當武戲導演就好
[負雷] Batman v Superman 看不見曙光的正義聯盟
[討論] 小班聽到BvS負評時的反應
[微負雷] BvS觀後感:DC被自己絆一跤
[半負雷]超人vs蝙蝠俠 微劇透 
[負雷] 五星級魚干女 
[負雷] 托陰 The Boy 觀後心得
[  負雷] 荷魯斯之眼
[ 負雷] 蝙蝠俠vs超人
Re: [FB] BvS 蝙蝠俠超人 大量無劇透心得(負評)
[超負雷] 黑白。超級不推
[普負雷]《分歧者》《叛亂者》《赤誠者》 
[負雷]角頭 
Re: [負雷] 我們的那時此刻
[負雷] 我們的那時此刻
[超級大負雷] 聖獄:耶路撒冷 眼鏡才是本體
Re: [超負雷] 賭神外傳 賭城風雲3
[負雷] 獵魔教士  很難看  真的很難看
Re: [負雷] 名過其實的死侍 
[ 負雷] 絕命救援
[負雷] 名過其實的死侍 
[負雷]神鬼劣人-只需要看前後十分鐘的片
[負雷] 惡夜殺機-破碎的剪輯和無關聯的劇情
[負雷]入侵者
[大負雷] 超能對決
In [25]:
len(titles)
Out[25]:
4004
In [ ]: